# 影片筆記：Mac 也能本地跑 Gemma！Google AI Edge Gallery 完整体验

## 一句話總結

本影片實測了 Google 推出的 **Google AI Android Gallery** 軟體的 **macOS** 版本，演示了如何在 Mac 筆記型電腦上本地運行開源模型（如 Gemma 4 系列），並實際測試了圖片識別、語音轉錄及透過 Skill 呼叫外部工具（如維基百科）的功能，證實該軟體在 Mac 上具備快速運行速度與多模態處理能力。

## 核心重點

1.  **跨平台支援**：該軟體提供 Android、iOS 與 macOS 三端相同的介面與體驗，讓 Mac 用戶也能運行原本僅限行動裝置的本地大語言模型。
2.  **模型規格**：支援 Gemma 4 系列模型，包含 12B、14B、31B、26B 等參數規模。其中文本與圖片功能為所有模型支援，而影片與音訊功能僅限於 12B、14B 等較小參數模型。
3.  **安裝流程簡便**：透過 GitHub 或官網下載 `.dmg` 檔案，拖曳至應用程式資料夾即可安裝，並透過內建 Model Manager 下載與管理模型。
4.  **多模態能力實測**：
    *   **圖片識別**：14B 模型能快速識別圖片中的繁體中文及模糊內容（如文言文教材）。
    *   **語音處理**：支援麥克風錄音並進行語音轉字幕及翻譯。
    *   **工具呼叫**：具備 Skill 功能，可嘗試呼叫 Python 環境執行查詢（如維基百科），但可能存在環境呼叫失敗的 Bug。

## 詳細大綱

### 一、 軟體介紹與背景
*   **軟體名稱**：Google AI Android Gallery（影片口語中亦提及 "AI Android Gallery"、"AI Engine Gallery"、"AI Chat" 等變體）。
*   **核心功能**：提供一套在三端（Android、iOS、macOS）擁有相同介面與體驗的框架，用於運行開源模型。
*   **支援平台**：
    *   Android（Google Play）
    *   iOS（App Store）
    *   macOS（新增支援，此前僅限行動端）。
*   **優勢**：讓手機端也能運行本地大模型，現在 Mac 用戶也可體驗。

### 二、 模型規格說明 (Gemma 4)
*   **模型系列**：Gemma 4（影片口語中亦稱為 "GEMLA 4"、"Gamia 4"、"Gama 4"）。
*   **參數規模**：提供 12B、14B、31B、26B 五種參數規模（影片口語中提及 "五種猜數"，疑為聽誤）。
*   **功能支援範圍**：
    *   **文本與圖片**：所有 Gemma 4 模型皆支援。
    *   **影片與音訊**：僅限於 12B、14B 等特定較小參數模型支援（影片口語提及 "12B 14B 和 12B"，疑點：31B/26B 是否支援未明確說明，僅強調小模型支援影音）。
*   **本次測試對象**：12B 或 14B 模型（實際演示主要使用 14B）。

### 三、 安裝與設定流程
1.  **下載途徑**：
    *   GitHub 直接下載。
    *   官網下載。
2.  **安裝步驟**：
    *   下載檔案為 `.dmg` 格式。
    *   雙擊安裝，將軟體拖曳至 `Application`（應用程式）資料夾。
    *   在 Launchpad 或應用程式列表中找到圖示並啟動。
3.  **初始設定**：
    *   點擊 "Accept and Continue"（接受並繼續）。
    *   介面右上角顯示內建模型列表（如 E2B、12B、14B、3N 等，疑點：模型名稱拼寫）。
4.  **模型下載**：
    *   選擇模型（如 12B 或 14B）並點擊 "Download"。
    *   左下角顯示下載進度、速度及模型大小。
    *   下載完成後，可透過 "Model Manager" 管理或刪除模型。

### 四、 功能實測 (以 14B 模型為例)
*   **介面結構**：
    *   左側選單包含：Settings（設定）、Ask Image（圖片諮詢）、Audio（音訊）、AI Chat（聊天）、Skill（技能/工具）。
    *   右側為對話與功能區。
*   **測試 1：圖片識別 (Ask Image)**
    *   **操作**：上傳一張包含中文繁體字、內容模糊的圖片（文言文學習教材）。
    *   **結果**：
        *   載入模型速度快，Token 生成速度快（測試環境記憶體 32GB）。
        *   識別準確，能正確讀出左上角與左下角人物及文言文內容。
        *   證明 14B 模型具備強大的圖片文字識別能力。
*   **測試 2：音訊處理 (Audio)**
    *   **功能**：支援音訊檔案上傳或麥克風錄音，進行語音轉字幕/翻譯。
    *   **操作**：使用麥克風錄製一段歡迎詞，要求轉譯為中文。
    *   **結果**：成功將語音轉錄並翻譯，證明本地語音轉字幕功能可行。
*   **測試 3：AI Chat**
    *   一般聊天功能，影片未詳細測試。
*   **測試 4：Agent Skill (技能呼叫)**
    *   **內建 Skill**：Kircode（疑點：可能指 QR Code 解碼）、Catalina（疑點：可能指 Calendar 日曆）、查詢維基百科等。
    *   **操作**：使用 "查詢維基百科" Skill，輸入關鍵字 "成龍"。
    *   **結果**：
        *   軟體嘗試呼叫 Python 環境執行查詢。
        *   初期返回英文結果，要求中文回答後，軟體基於自身知識庫回答（因 Python 環境呼叫失敗，疑似軟體 Bug）。
        *   確認軟體具備觸發 Skill 的能力。

## 工具 / 模型 / 名詞整理

| 類別 | 名稱/專有名詞 | 備註/疑點 |
| :--- | :--- | :--- |
| **軟體名稱** | Google AI Android Gallery | 影片口語中亦稱為 "AI Android Gallery"、"AI Engine Gallery"、"AI Chat"、"Android Gallery"。 |
| **軟體名稱** | Gemma 4 | 影片口語中亦稱為 "GEMLA 4"、"Gamia 4"、"Gama 4"。 |
| **模型參數** | 12B, 14B, 31B, 26B | 影片口語中提及 "12B 14B 12B"，疑點：重複提及 12B 或為口誤。 |
| **模型參數** | 3N | 影片口語中提及 "3N"，疑點：可能為 3B 或其他參數的聽寫錯誤。 |
| **模型參數** | E2B | 影片口語中提及 "E2B"、"ERB"，疑點：可能為 Gemma 系列中的某個特定版本或聽寫錯誤。 |
| **作業系統** | macOS | |
| **作業系統** | Android | |
| **作業系統** | iOS | 影片口語中稱為 "蘋果商店"、"AVSTART"（疑點：應為 App Store）。 |
| **功能模組** | Ask Image | 圖片諮詢功能。 |
| **功能模組** | Audio | 音訊處理功能。 |
| **功能模組** | AI Chat | AI 聊天功能。 |
| **功能模組** | Skill / Agent Skill | 技能呼叫功能。 |
| **功能模組** | Model Manager | 模型管理工具。 |
| **外部工具** | Python | 軟體嘗試呼叫 Python 環境執行 Skill。 |
| **外部服務** | 維基百科 (Wikipedia) | Skill 中用於查詢的來源。 |
| **檔案格式** | DMG | macOS 安裝檔格式。 |
| **其他專有名詞** | AMac.cpp | 影片口語中提及 "amac.cpp"，疑點：可能指 llama.cpp 或其他推理框架。 |
| **其他專有名詞** | MM Studio | 影片口語中提及 "MM Studio"，疑點：可能指 Open WebUI 或其他介面。 |
| **其他專有名詞** | AVSTART | 影片口語中提及 "AVSTART"，疑點：應為 App Store。 |
| **其他專有名詞** | Catalina | 影片口語中提及 "Catalina" 作為 Skill 名稱，疑點：可能指 Calendar（日曆）功能。 |
| **其他專有名詞** | Kircode | 影片口語中提及 "Kircode"，疑點：可能指 QR Code（二維碼）解碼功能。 |

## 操作流程整理

1.  **下載與安裝**：
    *   從 GitHub 或官網下載 `.dmg` 安裝檔。
    *   雙擊安裝，將應用程式拖曳至 `Application` 資料夾。
    *   從 Launchpad 啟動軟體。
2.  **初始設定與模型下載**：
    *   點擊 "Accept and Continue"。
    *   在介面右上角選擇模型（如 12B 或 14B）。
    *   點擊 "Download" 下載模型，等待進度條完成。
3.  **圖片識別測試**：
    *   進入 "Ask Image" 功能。
    *   上傳包含文字或複雜內容的圖片。
    *   觀察模型對圖片內容的識別與文字生成速度。
4.  **語音處理測試**：
    *   進入 "Audio" 功能。
    *   使用麥克風錄音或上傳音訊檔案。
    *   設定語言（如中文），執行語音轉字幕或翻譯。
5.  **工具呼叫測試 (Skill)**：
    *   進入 "Skill" 或 "Agent Skill" 功能。
    *   選擇內建技能（如 "查詢維基百科"）。
    *   輸入查詢關鍵字（如 "成龍"）。
    *   觀察軟體是否成功呼叫 Python 環境或返回基於知識庫的回答。

## 值得注意的限制或風險

1.  **功能支援限制**：影片口語提及影片與音訊功能僅限於 12B、14B 等特定較小參數模型支援，較大參數模型（如 31B、26B）的功能支援範圍未明確說明，可能存在限制。
2.  **Skill 呼叫穩定性**：在測試維基百科查詢時，軟體嘗試呼叫 Python 環境但疑似失敗，導致軟體基於自身知識庫回答而非外部查詢結果，顯示 Skill 呼叫可能存在 Bug 或不穩定。
3.  **模型名稱辨識**：影片中多次出現模型名稱與軟體名稱的口語變體（如 GEMLA 4、Gamia 4、E2B、3N 等），實際使用時需確認正確的模型版本與名稱，以免下載錯誤檔案。
4.  **硬體需求**：測試環境為 32GB 記憶體，對於較大參數模型（如 31B、26B）的運行效能與記憶體需求未詳細說明，Mac 用戶需注意硬體規格是否足夠。

## 逐字稿辨識疑點

1.  **軟體名稱不一致**：逐字稿中交替出現 "Google AI Android Gallery"、"AI Android Gallery"、"AI Engine Gallery"、"Android Gallery"。需查證該軟體在 macOS 上的正式名稱是否確實包含 "Android" 字樣，或為口誤。
2.  **模型名稱拼寫**：
    *   "GEMLA 4"、"Gamia 4"、"Gama 4"：應查證是否為 Google 的 "Gemma" 系列模型。
    *   "E2B"、"ERB"：應查證是否為 Gemma 系列中的特定參數版本（如 2B）或聽寫錯誤。
    *   "3N"：應查證是否為 "3B" 或其他參數。
3.  **下載平台名稱**："AVSTART"：應查證是否為 "App Store" 的聽寫錯誤。
4.  **推理框架名稱**："amac.cpp"、"MM Studio"：應查證是否分別為 "llama.cpp" 及 "Open WebUI" 或 "Text Generation WebUI" 等常見本地模型運行工具的聽寫錯誤。
5.  **Skill 名稱**："Kircode"、"Catalina"：應查證是否分別為 "QR Code" 和 "Calendar" 的聽寫錯誤。
6.  **模型參數重複**：影片口語中多次重複 "12B 14B 12B"，疑點：是否為口誤或特定版本劃分。
7.  **功能支援範圍**：影片口語中關於影音支援的模型範圍描述為 "12B 14B 和 12B"，語意不清，需查證具體哪些參數規模支援影音功能。

## 可延伸追問

1.  該軟體在 macOS 上的正式官方名稱為何？是否真的包含 "Android" 字樣？
2.  Gemma 4 系列中，31B 和 26B 模型是否支援影片與音訊功能？具體的硬體需求（如記憶體、GPU）為何？
3.  "E2B"、"ERB"、"3N" 等模型參數名稱的正確拼寫為何？它們對應的是 Gemma 系列的哪個具體版本？
4.  Skill 功能中呼叫 Python 環境失敗的原因為何？是否有已知的解決方案或更新？
5.  該軟體是否支援更多類型的本地模型（如 Llama 系列），還是僅限於 Google 的 Gemma 系列？