影片筆記:Mac 也能本地跑 Gemma!Google AI Edge Gallery 完整体验
一句話總結
本影片實測了 Google 推出的 Google AI Android Gallery 軟體的 macOS 版本,演示了如何在 Mac 筆記型電腦上本地運行開源模型(如 Gemma 4 系列),並實際測試了圖片識別、語音轉錄及透過 Skill 呼叫外部工具(如維基百科)的功能,證實該軟體在 Mac 上具備快速運行速度與多模態處理能力。
核心重點
跨平台支援:該軟體提供 Android、iOS 與 macOS 三端相同的介面與體驗,讓 Mac 用戶也能運行原本僅限行動裝置的本地大語言模型。
模型規格:支援 Gemma 4 系列模型,包含 12B、14B、31B、26B 等參數規模。其中文本與圖片功能為所有模型支援,而影片與音訊功能僅限於 12B、14B 等較小參數模型。
安裝流程簡便:透過 GitHub 或官網下載 .dmg 檔案,拖曳至應用程式資料夾即可安裝,並透過內建 Model Manager 下載與管理模型。
多模態能力實測:
- 圖片識別:14B 模型能快速識別圖片中的繁體中文及模糊內容(如文言文教材)。
- 語音處理:支援麥克風錄音並進行語音轉字幕及翻譯。
- 工具呼叫:具備 Skill 功能,可嘗試呼叫 Python 環境執行查詢(如維基百科),但可能存在環境呼叫失敗的 Bug。
詳細大綱
一、 軟體介紹與背景
- 軟體名稱:Google AI Android Gallery(影片口語中亦提及 "AI Android Gallery"、"AI Engine Gallery"、"AI Chat" 等變體)。
- 核心功能:提供一套在三端(Android、iOS、macOS)擁有相同介面與體驗的框架,用於運行開源模型。
- 支援平台:
- Android(Google Play)
- iOS(App Store)
- macOS(新增支援,此前僅限行動端)。
- 優勢:讓手機端也能運行本地大模型,現在 Mac 用戶也可體驗。
二、 模型規格說明 (Gemma 4)
- 模型系列:Gemma 4(影片口語中亦稱為 "GEMLA 4"、"Gamia 4"、"Gama 4")。
- 參數規模:提供 12B、14B、31B、26B 五種參數規模(影片口語中提及 "五種猜數",疑為聽誤)。
- 功能支援範圍:
- 文本與圖片:所有 Gemma 4 模型皆支援。
- 影片與音訊:僅限於 12B、14B 等特定較小參數模型支援(影片口語提及 "12B 14B 和 12B",疑點:31B/26B 是否支援未明確說明,僅強調小模型支援影音)。
- 本次測試對象:12B 或 14B 模型(實際演示主要使用 14B)。
三、 安裝與設定流程
下載途徑:
- GitHub 直接下載。
- 官網下載。
安裝步驟:
- 下載檔案為
.dmg格式。 - 雙擊安裝,將軟體拖曳至
Application(應用程式)資料夾。 - 在 Launchpad 或應用程式列表中找到圖示並啟動。
初始設定:
- 點擊 "Accept and Continue"(接受並繼續)。
- 介面右上角顯示內建模型列表(如 E2B、12B、14B、3N 等,疑點:模型名稱拼寫)。
模型下載:
- 選擇模型(如 12B 或 14B)並點擊 "Download"。
- 左下角顯示下載進度、速度及模型大小。
- 下載完成後,可透過 "Model Manager" 管理或刪除模型。
四、 功能實測 (以 14B 模型為例)
- 介面結構:
- 左側選單包含:Settings(設定)、Ask Image(圖片諮詢)、Audio(音訊)、AI Chat(聊天)、Skill(技能/工具)。
- 右側為對話與功能區。
- 測試 1:圖片識別 (Ask Image)
- 操作:上傳一張包含中文繁體字、內容模糊的圖片(文言文學習教材)。
- 結果:
- 載入模型速度快,Token 生成速度快(測試環境記憶體 32GB)。
- 識別準確,能正確讀出左上角與左下角人物及文言文內容。
- 證明 14B 模型具備強大的圖片文字識別能力。
- 測試 2:音訊處理 (Audio)
- 功能:支援音訊檔案上傳或麥克風錄音,進行語音轉字幕/翻譯。
- 操作:使用麥克風錄製一段歡迎詞,要求轉譯為中文。
- 結果:成功將語音轉錄並翻譯,證明本地語音轉字幕功能可行。
- 測試 3:AI Chat
- 一般聊天功能,影片未詳細測試。
- 測試 4:Agent Skill (技能呼叫)
- 內建 Skill:Kircode(疑點:可能指 QR Code 解碼)、Catalina(疑點:可能指 Calendar 日曆)、查詢維基百科等。
- 操作:使用 "查詢維基百科" Skill,輸入關鍵字 "成龍"。
- 結果:
- 軟體嘗試呼叫 Python 環境執行查詢。
- 初期返回英文結果,要求中文回答後,軟體基於自身知識庫回答(因 Python 環境呼叫失敗,疑似軟體 Bug)。
- 確認軟體具備觸發 Skill 的能力。
工具 / 模型 / 名詞整理
| 類別 | 名稱/專有名詞 | 備註/疑點 |
| :--- | :--- | :--- |
| 軟體名稱 | Google AI Android Gallery | 影片口語中亦稱為 "AI Android Gallery"、"AI Engine Gallery"、"AI Chat"、"Android Gallery"。 |
| 軟體名稱 | Gemma 4 | 影片口語中亦稱為 "GEMLA 4"、"Gamia 4"、"Gama 4"。 |
| 模型參數 | 12B, 14B, 31B, 26B | 影片口語中提及 "12B 14B 12B",疑點:重複提及 12B 或為口誤。 |
| 模型參數 | 3N | 影片口語中提及 "3N",疑點:可能為 3B 或其他參數的聽寫錯誤。 |
| 模型參數 | E2B | 影片口語中提及 "E2B"、"ERB",疑點:可能為 Gemma 系列中的某個特定版本或聽寫錯誤。 |
| 作業系統 | macOS | |
| 作業系統 | Android | |
| 作業系統 | iOS | 影片口語中稱為 "蘋果商店"、"AVSTART"(疑點:應為 App Store)。 |
| 功能模組 | Ask Image | 圖片諮詢功能。 |
| 功能模組 | Audio | 音訊處理功能。 |
| 功能模組 | AI Chat | AI 聊天功能。 |
| 功能模組 | Skill / Agent Skill | 技能呼叫功能。 |
| 功能模組 | Model Manager | 模型管理工具。 |
| 外部工具 | Python | 軟體嘗試呼叫 Python 環境執行 Skill。 |
| 外部服務 | 維基百科 (Wikipedia) | Skill 中用於查詢的來源。 |
| 檔案格式 | DMG | macOS 安裝檔格式。 |
| 其他專有名詞 | AMac.cpp | 影片口語中提及 "amac.cpp",疑點:可能指 llama.cpp 或其他推理框架。 |
| 其他專有名詞 | MM Studio | 影片口語中提及 "MM Studio",疑點:可能指 Open WebUI 或其他介面。 |
| 其他專有名詞 | AVSTART | 影片口語中提及 "AVSTART",疑點:應為 App Store。 |
| 其他專有名詞 | Catalina | 影片口語中提及 "Catalina" 作為 Skill 名稱,疑點:可能指 Calendar(日曆)功能。 |
| 其他專有名詞 | Kircode | 影片口語中提及 "Kircode",疑點:可能指 QR Code(二維碼)解碼功能。 |
操作流程整理
下載與安裝:
- 從 GitHub 或官網下載
.dmg安裝檔。 - 雙擊安裝,將應用程式拖曳至
Application資料夾。 - 從 Launchpad 啟動軟體。
初始設定與模型下載:
- 點擊 "Accept and Continue"。
- 在介面右上角選擇模型(如 12B 或 14B)。
- 點擊 "Download" 下載模型,等待進度條完成。
圖片識別測試:
- 進入 "Ask Image" 功能。
- 上傳包含文字或複雜內容的圖片。
- 觀察模型對圖片內容的識別與文字生成速度。
語音處理測試:
- 進入 "Audio" 功能。
- 使用麥克風錄音或上傳音訊檔案。
- 設定語言(如中文),執行語音轉字幕或翻譯。
工具呼叫測試 (Skill):
- 進入 "Skill" 或 "Agent Skill" 功能。
- 選擇內建技能(如 "查詢維基百科")。
- 輸入查詢關鍵字(如 "成龍")。
- 觀察軟體是否成功呼叫 Python 環境或返回基於知識庫的回答。
值得注意的限制或風險
功能支援限制:影片口語提及影片與音訊功能僅限於 12B、14B 等特定較小參數模型支援,較大參數模型(如 31B、26B)的功能支援範圍未明確說明,可能存在限制。
Skill 呼叫穩定性:在測試維基百科查詢時,軟體嘗試呼叫 Python 環境但疑似失敗,導致軟體基於自身知識庫回答而非外部查詢結果,顯示 Skill 呼叫可能存在 Bug 或不穩定。
模型名稱辨識:影片中多次出現模型名稱與軟體名稱的口語變體(如 GEMLA 4、Gamia 4、E2B、3N 等),實際使用時需確認正確的模型版本與名稱,以免下載錯誤檔案。
硬體需求:測試環境為 32GB 記憶體,對於較大參數模型(如 31B、26B)的運行效能與記憶體需求未詳細說明,Mac 用戶需注意硬體規格是否足夠。
逐字稿辨識疑點
軟體名稱不一致:逐字稿中交替出現 "Google AI Android Gallery"、"AI Android Gallery"、"AI Engine Gallery"、"Android Gallery"。需查證該軟體在 macOS 上的正式名稱是否確實包含 "Android" 字樣,或為口誤。
模型名稱拼寫:
- "GEMLA 4"、"Gamia 4"、"Gama 4":應查證是否為 Google 的 "Gemma" 系列模型。
- "E2B"、"ERB":應查證是否為 Gemma 系列中的特定參數版本(如 2B)或聽寫錯誤。
- "3N":應查證是否為 "3B" 或其他參數。
下載平台名稱:"AVSTART":應查證是否為 "App Store" 的聽寫錯誤。
推理框架名稱:"amac.cpp"、"MM Studio":應查證是否分別為 "llama.cpp" 及 "Open WebUI" 或 "Text Generation WebUI" 等常見本地模型運行工具的聽寫錯誤。
Skill 名稱:"Kircode"、"Catalina":應查證是否分別為 "QR Code" 和 "Calendar" 的聽寫錯誤。
模型參數重複:影片口語中多次重複 "12B 14B 12B",疑點:是否為口誤或特定版本劃分。
功能支援範圍:影片口語中關於影音支援的模型範圍描述為 "12B 14B 和 12B",語意不清,需查證具體哪些參數規模支援影音功能。
可延伸追問
該軟體在 macOS 上的正式官方名稱為何?是否真的包含 "Android" 字樣?
Gemma 4 系列中,31B 和 26B 模型是否支援影片與音訊功能?具體的硬體需求(如記憶體、GPU)為何?
"E2B"、"ERB"、"3N" 等模型參數名稱的正確拼寫為何?它們對應的是 Gemma 系列的哪個具體版本?
Skill 功能中呼叫 Python 環境失敗的原因為何?是否有已知的解決方案或更新?
該軟體是否支援更多類型的本地模型(如 Llama 系列),還是僅限於 Google 的 Gemma 系列?
逐字稿時間軸
右側可一路往下捲;左側影片框會固定。點擊時間戳會讓左側影片跳到對應秒數。