【完全保存版】Gemini画像解析ショートカット:構築ガイド

1. 準備:APIキーの取得

  • 入手先: Google AI Studio
  • 役割: AIza...で始まるキーをコピーして使用します。これがGeminiを呼び出すための「鍵」になります。

2. ショートカットのアクション構成(全10ステップ)

以下の順番でアクションを並べてください。

  1. スクリーンショットを撮る
  2. Base64エンコード
    • 入力: スクリーンショット
    • 詳細 > **「行を折り返す」を「なし」**にする
  3. テキスト(後述のJSONコードを貼り付け、変数を挿入)
  4. URLの内容を取得(後述の詳細設定を行う)
  5. 入力から辞書を取得
    • 入力: URLの内容
  6. 辞書の値を取得
    • キー: candidates.1.content.parts.1.text
    • 入力: 辞書
  7. 日付を取得(ここからログ保存用)
  8. テキスト
    • 内容: --- \n 日付: [日付] \n 回答: [辞書の値]
  9. テキストファイルに追記
    • ファイル名: Gemini_Log.txt など
  10. 結果を表示
    • 表示内容: 辞書の値

3. 送信データの設定(最重要)

① テキストアクションに入れるJSON

JSON

{
  "contents": [{
    "parts": [
      {"text": "この画面について日本語で簡潔に解説してください。"},
      {"inline_data": {
        "mime_type": "image/png",
        "data": "[Base64エンコード済みテキスト]"
      }}
    ]
  }]
}

[Base64...] の部分は、変数を挿入した後、前後のスペースを完全に削除してください。

② URLの内容を取得

  • URL: https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent?key=あなたのAPIキー
  • 方法: POST
  • ヘッダ: Content-Type : application/json
  • 要求本文: ファイル
  • ファイル: 上記の テキスト(JSON)を指定

4. 運用のコツと呼び出し設定

  • 呼び出し: 「アクセシビリティ」>「タッチ」から、**「背面タップ」「AssistiveTouch」**にこのショートカットを登録します。
  • 活用シーン: WordPressのLightningテーマでCSSが反映されない時や、接客中にサッと内容を確認したい時に、画面を切り替えず実行できます。
  • ログの確認: 回答は自動的にiCloud Driveの「Shortcuts」フォルダ内のテキストファイルに蓄積されていくので、後からWeb制作の備忘録として見返せます。

このガイドで、いつでも最強のAI環境を再構築・確認できるようになります。

これで、スクリーンショットを撮るだけでGeminiを起動することなく回答を得られるようになりました。ただ、実際に運用してみるとアプリ版の方がレスポンスが速いため、常用はしないかもしれません。とはいえ、シチュエーション次第では非常に強力なツールになると感じています。