🛠 Gemini画像解析・自動ログ保存付き:構成ガイド

STEP 1:事前準備

  • フォルダ作成: iPadの「ファイル」アプリで、iCloud Drive直下に「Gemini_Logs」フォルダを作成。
  • APIキー: Google AI Studioのキーを用意。

STEP 2:ショートカットの全行程

  1. スクリーンショットを撮る
  2. Base64エンコード: (入力:スクリーンショット / 折り返し:なし)
  3. テキスト: (後述のJSONコード)
  4. URLの内容を取得: (後述のAPI設定)
  5. 辞書の値を取得(★ここが抽出の肝):
    • キー: candidates.1.content.parts.1.text
    • 入力: URLの内容
  6. 日付を取得: (現在の時刻を取得)
  7. テキスト(ログ整形):
    • [日付]
    • (改行キーを一回押す)
    • [辞書の値]
    • (改行キーを三回押して余白を作る)
    • --------------------
  8. ファイル: (手動で作った Gemini_Logs フォルダを一度だけ指定)
  9. テキストファイルに追記:
    • 追加するテキスト: ステップ7のテキスト
    • ファイル: ステップ8のファイル
  10. 結果を表示: [辞書の値]

STEP 3:コピー用データ

① JSON(テキストアクション用)

JSON

{
  "contents": [{
    "parts": [
      {"text": "この画面について日本語で簡潔に解説してください。"},
      {"inline_data": {
        "mime_type": "image/png",
        "data": "[Base64エンコード]"
      }}
    ]
  }]
}

② URLの設定(最新モデル)


4. 運用のポイント

  • 起動方法: 「設定」>「アクセシビリティ」>「タッチ」から、**「背面タップ」「AssistiveTouch」**にこのショートカットを割り当てると、どの画面からでも即起動できます。
  • カスタマイズ: JSON内の「日本語で簡潔に〜」の部分を、「WordPressの修正案を出して」や「予約内容を要約して」と書き換えるだけで、用途別の専用ツールに進化します。

これで、スクリーンショットを撮るだけでGeminiを起動することなく回答を得られるようになりました。ただ、実際に運用してみるとアプリ版の方がレスポンスが速いため、常用はしないかもしれません。とはいえ、シチュエーション次第では非常に強力なツールになると感じています。