20260621-01 | Mac 也能本地跑 Gemma!Google AI Edge Gallery 完整体验
來源:Youtube | 建立:2026-06-21T16:55:48 | HTML:2026-06-21T20:48:53
開啟原始影片 note.md transcript.txt transcript.vtt

影片筆記:Mac 也能本地跑 Gemma!Google AI Edge Gallery 完整体验

YouTube 影片框會固定在左上方;點擊右側逐字稿時間戳可跳到對應時間。

一句話總結

本影片實測了 Google 推出的 Google AI Android Gallery 軟體的 macOS 版本,演示了如何在 Mac 筆記型電腦上本地運行開源模型(如 Gemma 4 系列),並實際測試了圖片識別、語音轉錄及透過 Skill 呼叫外部工具(如維基百科)的功能,證實該軟體在 Mac 上具備快速運行速度與多模態處理能力。

核心重點

跨平台支援:該軟體提供 Android、iOS 與 macOS 三端相同的介面與體驗,讓 Mac 用戶也能運行原本僅限行動裝置的本地大語言模型。

模型規格:支援 Gemma 4 系列模型,包含 12B、14B、31B、26B 等參數規模。其中文本與圖片功能為所有模型支援,而影片與音訊功能僅限於 12B、14B 等較小參數模型。

安裝流程簡便:透過 GitHub 或官網下載 .dmg 檔案,拖曳至應用程式資料夾即可安裝,並透過內建 Model Manager 下載與管理模型。

多模態能力實測

詳細大綱

一、 軟體介紹與背景

二、 模型規格說明 (Gemma 4)

三、 安裝與設定流程

下載途徑

安裝步驟

初始設定

模型下載

四、 功能實測 (以 14B 模型為例)

工具 / 模型 / 名詞整理

| 類別 | 名稱/專有名詞 | 備註/疑點 |

| :--- | :--- | :--- |

| 軟體名稱 | Google AI Android Gallery | 影片口語中亦稱為 "AI Android Gallery"、"AI Engine Gallery"、"AI Chat"、"Android Gallery"。 |

| 軟體名稱 | Gemma 4 | 影片口語中亦稱為 "GEMLA 4"、"Gamia 4"、"Gama 4"。 |

| 模型參數 | 12B, 14B, 31B, 26B | 影片口語中提及 "12B 14B 12B",疑點:重複提及 12B 或為口誤。 |

| 模型參數 | 3N | 影片口語中提及 "3N",疑點:可能為 3B 或其他參數的聽寫錯誤。 |

| 模型參數 | E2B | 影片口語中提及 "E2B"、"ERB",疑點:可能為 Gemma 系列中的某個特定版本或聽寫錯誤。 |

| 作業系統 | macOS | |

| 作業系統 | Android | |

| 作業系統 | iOS | 影片口語中稱為 "蘋果商店"、"AVSTART"(疑點:應為 App Store)。 |

| 功能模組 | Ask Image | 圖片諮詢功能。 |

| 功能模組 | Audio | 音訊處理功能。 |

| 功能模組 | AI Chat | AI 聊天功能。 |

| 功能模組 | Skill / Agent Skill | 技能呼叫功能。 |

| 功能模組 | Model Manager | 模型管理工具。 |

| 外部工具 | Python | 軟體嘗試呼叫 Python 環境執行 Skill。 |

| 外部服務 | 維基百科 (Wikipedia) | Skill 中用於查詢的來源。 |

| 檔案格式 | DMG | macOS 安裝檔格式。 |

| 其他專有名詞 | AMac.cpp | 影片口語中提及 "amac.cpp",疑點:可能指 llama.cpp 或其他推理框架。 |

| 其他專有名詞 | MM Studio | 影片口語中提及 "MM Studio",疑點:可能指 Open WebUI 或其他介面。 |

| 其他專有名詞 | AVSTART | 影片口語中提及 "AVSTART",疑點:應為 App Store。 |

| 其他專有名詞 | Catalina | 影片口語中提及 "Catalina" 作為 Skill 名稱,疑點:可能指 Calendar(日曆)功能。 |

| 其他專有名詞 | Kircode | 影片口語中提及 "Kircode",疑點:可能指 QR Code(二維碼)解碼功能。 |

操作流程整理

下載與安裝

初始設定與模型下載

圖片識別測試

語音處理測試

工具呼叫測試 (Skill)

值得注意的限制或風險

功能支援限制:影片口語提及影片與音訊功能僅限於 12B、14B 等特定較小參數模型支援,較大參數模型(如 31B、26B)的功能支援範圍未明確說明,可能存在限制。

Skill 呼叫穩定性:在測試維基百科查詢時,軟體嘗試呼叫 Python 環境但疑似失敗,導致軟體基於自身知識庫回答而非外部查詢結果,顯示 Skill 呼叫可能存在 Bug 或不穩定。

模型名稱辨識:影片中多次出現模型名稱與軟體名稱的口語變體(如 GEMLA 4、Gamia 4、E2B、3N 等),實際使用時需確認正確的模型版本與名稱,以免下載錯誤檔案。

硬體需求:測試環境為 32GB 記憶體,對於較大參數模型(如 31B、26B)的運行效能與記憶體需求未詳細說明,Mac 用戶需注意硬體規格是否足夠。

逐字稿辨識疑點

軟體名稱不一致:逐字稿中交替出現 "Google AI Android Gallery"、"AI Android Gallery"、"AI Engine Gallery"、"Android Gallery"。需查證該軟體在 macOS 上的正式名稱是否確實包含 "Android" 字樣,或為口誤。

模型名稱拼寫

下載平台名稱:"AVSTART":應查證是否為 "App Store" 的聽寫錯誤。

推理框架名稱:"amac.cpp"、"MM Studio":應查證是否分別為 "llama.cpp" 及 "Open WebUI" 或 "Text Generation WebUI" 等常見本地模型運行工具的聽寫錯誤。

Skill 名稱:"Kircode"、"Catalina":應查證是否分別為 "QR Code" 和 "Calendar" 的聽寫錯誤。

模型參數重複:影片口語中多次重複 "12B 14B 12B",疑點:是否為口誤或特定版本劃分。

功能支援範圍:影片口語中關於影音支援的模型範圍描述為 "12B 14B 和 12B",語意不清,需查證具體哪些參數規模支援影音功能。

可延伸追問

該軟體在 macOS 上的正式官方名稱為何?是否真的包含 "Android" 字樣?

Gemma 4 系列中,31B 和 26B 模型是否支援影片與音訊功能?具體的硬體需求(如記憶體、GPU)為何?

"E2B"、"ERB"、"3N" 等模型參數名稱的正確拼寫為何?它們對應的是 Gemma 系列的哪個具體版本?

Skill 功能中呼叫 Python 環境失敗的原因為何?是否有已知的解決方案或更新?

該軟體是否支援更多類型的本地模型(如 Llama 系列),還是僅限於 Google 的 Gemma 系列?

逐字稿時間軸

右側可一路往下捲;左側影片框會固定。點擊時間戳會讓左側影片跳到對應秒數。

00:00.000 → 00:02.240
大家好 这里是搞进具体
00:02.240 → 00:04.360
今天给大家分享一个
00:04.560 → 00:05.440
google的一个
00:05.440 → 00:06.760
Gallery这个软件
00:06.880 → 00:09.960
它现在提供了我们的一个macOS
00:09.960 → 00:14.000
也就是说我们可以在我们的一个macOS上
00:14.120 → 00:15.360
笔记本上来运行
00:15.360 → 00:19.000
我们之前可以只能在移动端运行的这些
00:19.040 → 00:20.480
M4的这些软件
00:20.480 → 00:23.600
也就是说它现在终于支持我们三端了
00:23.600 → 00:27.040
我们可以在安卓的一个google play上
00:27.040 → 00:30.360
AVSTART的一个我们的一个苹果商店上去下载
00:30.360 → 00:31.760
我们的一个AI Android Gallery
00:31.760 → 00:35.080
现在又提供了我们一个macOS的一个版本
00:35.160 → 00:37.160
首先给大家说下google
00:37.360 → 00:40.120
AI Android Gallery这个软件它是个什么东西
00:40.200 → 00:43.120
它相当于说它是google内置的一套
00:43.120 → 00:45.840
我们让我们可以一下子在三端
00:45.840 → 00:48.480
比如说在苹果在安卓在macOS上
00:48.480 → 00:50.520
一样的界面一样的体验
00:50.520 → 00:53.840
运行同样的模型的开源模型的一个框架
00:53.840 → 00:56.400
以往来说我们运行一些三方的框架
00:56.400 → 00:59.720
我们在电脑上一般来说我们是有哪些软件
00:59.720 → 01:01.720
一般来说我们要使用一些amac.cpp
01:02.280 → 01:04.840
还有我们用的最多的还有就是MM Studio
01:04.840 → 01:08.400
那么其实现在google推出它这个google
01:08.400 → 01:09.720
AI Android Gallery的这个软件
01:09.720 → 01:13.560
其实它也可以运行一些第三方的这些模型
01:13.560 → 01:15.720
而且主要是它现在提供了手机端运行
01:15.720 → 01:20.720
也就是说我们手机端也可以跑我们本地的大模型
01:20.720 → 01:25.080
它最近推出了一个AI Android Gallery的一个macOS一个版本
01:25.080 → 01:30.400
今天带大家体验一下如何去运行我们本地的模型
01:30.400 → 01:33.520
以及我们一个运行我们本地的GEMLA 4
01:33.520 → 01:35.840
那么GEMLA 4给各位小朋友说下
01:35.840 → 01:40.960
GEMLA 4是Google前段时间刚推出的一个高性能的一个模型版本
01:40.960 → 01:44.280
它这个模型总共提提了五种猜数
01:44.280 → 01:49.400
12B 14B 12B 31B还有我们的一个26B
01:49.400 → 01:55.040
而且它现在所有的模型都支持处理文本和图片
01:55.040 → 01:56.320
这个是所有的
01:56.320 → 02:03.240
视频和音频的功能是在12B 14B和12B的几个模型上支持的
02:03.240 → 02:08.560
也就是说前面也就是说处理文本和图片的所有的模型
02:08.560 → 02:10.920
就是GEMLA 4 4的模型都支持
02:10.920 → 02:14.240
但是如果说要加上视频和音频的支持
02:14.240 → 02:20.000
那么只有在12B 14B和12B这几个模型上它才支持
02:20.000 → 02:24.560
今天就带大家来体验一下我们12B的一个模型能力
02:24.560 → 02:28.400
而且通过我们一个AI Android Gallery这个软件来运行
02:28.400 → 02:29.480
大家可以体验一下
02:29.480 → 02:31.320
好 那么有两种下载方式
02:31.320 → 02:34.800
第一种你可以通过一个Github上AI Android Gallery这个软件
02:34.800 → 02:36.000
这个地方直接点击下载
02:36.000 → 02:39.840
第二种我们可以进行它的一个官网去下载这个软件
02:39.840 → 02:42.800
这里我就随便选择一个这里下载就可以了
02:42.800 → 02:45.760
下载完毕之后你打开你的下载文件
02:45.760 → 02:47.800
它是一个DMG的
02:47.800 → 02:49.120
好 我们双击一下
02:49.120 → 02:52.880
好 双击之后我们将Google AI Android Gallery这个软件
02:52.880 → 02:54.880
拖到我们一个Application里面过去
02:54.880 → 02:58.440
好 拖了之后我们在下面过一会儿就可以看到
02:58.440 → 03:02.080
我们的一个Android Gallery的软件的一个图标
03:02.080 → 03:05.800
好 我们就在我们的仿达应用里面就可以看到我们快点方式了
03:05.800 → 03:07.640
这时候我们双击启动它
03:07.640 → 03:09.000
好 我们选择打开
03:09.000 → 03:13.280
OK 这时候进入到我们一个Google Android Gallery的一个软件
03:13.280 → 03:16.680
我们点击Accept and Continue 继续
03:16.680 → 03:20.640
好 点击完毕之后我们在电脑上的右上角这里
03:20.640 → 03:25.800
我们就可以看到现在Google它自带的一个Jama这几个模型都是带了
03:25.800 → 03:27.560
比如说我们E2B 是吧
03:27.560 → 03:31.240
还有我们一个12B 14B 3N的
03:31.240 → 03:34.080
刚才给大家看模型的时候也就说过了
03:34.080 → 03:38.280
这几个模型能力都是支持我们的一个文本图片的
03:38.280 → 03:40.640
后面几个还支持我们视频和音频的
03:40.640 → 03:41.440
我们可以切到
03:41.440 → 03:43.840
比如说我这里选了一个12B
03:43.840 → 03:48.440
好 这时候选完之后我们需要进行一个下载
03:48.440 → 03:50.000
我们点击再点击Download
03:50.000 → 03:53.080
这时候你就可以看到它这里会进行一个下载
03:53.080 → 03:54.800
这时候我们就先不关它
03:54.800 → 03:57.000
我给大家看一下这几个设置界面
03:57.000 → 04:02.360
我们可以看到左边其实和我们的一个手机版的一个AI Engine Gallery
04:02.360 → 04:03.680
它是差不多的
04:03.680 → 04:05.080
给大家看一下它手机版
04:05.080 → 04:08.400
我们可以看到它其实手机版这里也有一些
04:08.400 → 04:11.200
就是Ask AI Engine带一些Skull
04:11.200 → 04:12.520
我们接到左边来
04:12.520 → 04:13.560
我们比如说选了Setting
04:13.560 → 04:15.200
然后Setting这里有Lens这些东西
04:15.200 → 04:16.960
目前说这里面倒没有太多的
04:16.960 → 04:18.760
我们点击比如说Ask Image
04:18.760 → 04:24.040
它这里会显示出当前支持我们图片的这些
04:24.040 → 04:26.320
就是咨询图片的模型
04:26.320 → 04:28.120
可以看到ERB这些对不对
04:28.120 → 04:32.840
Audio也就是说支持我们这些音频识别的AIChat
04:32.840 → 04:34.040
就是支持我们一个
04:34.040 → 04:37.360
AIChat就是我们整体的一个AI聊天功能的
04:37.360 → 04:39.920
当然还有支持我们一些Cure功能的
04:39.920 → 04:44.960
也就是说我们支持我们这些下载一些执行一些Skull的一些功能的
04:44.960 → 04:46.560
我们这里就可以简单看到这
04:46.560 → 04:48.120
这里还可以点击Model Manager
04:48.120 → 04:49.400
这里可以看到一个下载
04:50.680 → 04:51.960
但是我们可以看到这里
04:51.960 → 04:54.520
它这里只有12B和14B
04:57.560 → 05:00.680
这里就选择是12B8 14B8
05:00.680 → 05:03.600
这里我不知道为什么我们这里选择12B
05:03.600 → 05:06.920
有什么这么强大模型它并没有列到中间
05:06.920 → 05:08.200
我们先把这个停止的
05:08.200 → 05:09.480
我们先下载其他的
05:09.480 → 05:13.080
我们就选择一个看看都包含的12B
05:14.000 → 05:15.520
我们都选择14B下载
05:15.520 → 05:16.920
下载14B这个模型
05:16.920 → 05:18.720
我们这里都选择14B
05:18.720 → 05:20.240
我们这里都选择一个14B
05:20.240 → 05:21.240
因为AI插头也可以
05:21.240 → 05:22.680
AiSQ也可以是可以的
05:22.800 → 05:24.600
我们等待下载完毕
05:24.600 → 05:26.400
整体来说AIGallery
05:26.400 → 05:27.680
这个MacOS软件
05:27.680 → 05:29.920
基本上它的布局就这么简单
05:29.920 → 05:31.320
没那么复杂
05:31.320 → 05:32.600
我们看的就这么简单
05:32.600 → 05:33.920
我们等待一下下载
05:33.920 → 05:35.040
我们在左下角
05:35.040 → 05:35.880
这个Automatter里面
05:35.880 → 05:38.240
我们也可以看到每个模型的它一个大小
05:38.240 → 05:40.680
还有它的一个下载的一个速度
05:41.400 → 05:42.640
这东西我们都是可以看到
05:42.640 → 05:43.720
但是它软件这里
05:43.720 → 05:45.360
现在支持这几个
05:45.360 → 05:47.240
Gamia 4的一个12B
05:49.160 → 05:51.040
还有一个3N的这几个模型
05:51.040 → 05:51.960
现在是这样子的
05:52.480 → 05:54.160
我们模型下载完毕之后
05:54.160 → 05:56.360
我们这里就可以看到它已经下载完毕了
05:56.360 → 05:57.600
而且我们在这里就可以
05:57.600 → 05:59.640
方便的定位到你模型下载
05:59.640 → 06:01.240
这个文件夹的一个位置
06:01.240 → 06:01.960
也就是下载位置
06:01.960 → 06:03.040
方便不以后进行删除
06:03.040 → 06:04.280
如果说你这个模型
06:04.280 → 06:05.320
你后面不想用了
06:05.320 → 06:05.920
想要删除了
06:05.920 → 06:07.920
你直接这里点击Delete就可以了
06:07.920 → 06:09.680
我们测试一下ECB
06:09.680 → 06:11.440
我们看看左边这几个Tab栏
06:11.440 → 06:12.160
我们如何使用
06:12.160 → 06:13.480
比如说ask image
06:13.480 → 06:14.440
这么说我们点击来之后
06:14.440 → 06:16.560
它会load这个模型进行一个加载
06:16.560 → 06:18.520
这个是针对一些模型的配置
06:18.520 → 06:20.720
默认我们就选择一个GPU
06:20.720 → 06:22.120
是否需要开启思考
06:22.120 → 06:23.920
我这里就不开启思考了
06:23.920 → 06:25.200
我们点击Cancel
06:25.200 → 06:27.440
这里选择你聊天的一个历史记录
06:27.440 → 06:29.600
你这里可以看到你之前的历史记录
06:30.080 → 06:31.200
我们在这里
06:31.200 → 06:32.280
它是写的很清楚
06:33.280 → 06:33.680
按照的时候
06:33.680 → 06:35.320
它这里要支持我们图片的访问
06:35.320 → 06:37.800
我正在我本地电脑上下载了一个图片
06:37.800 → 06:38.760
我们选择这个image
06:39.560 → 06:42.640
那么这个图片是一个中文的内容
06:42.640 → 06:45.040
我们看它图片的识别能力怎么样
06:45.040 → 06:47.800
我问一下它图片上的内容
06:49.640 → 06:50.560
它现在正在
06:51.360 → 06:53.840
基本上来说它速度还是非常快的
06:53.840 → 06:56.120
我的内存是32G的
06:56.120 → 06:56.840
我们可以看到
06:56.840 → 06:59.200
基本上它的token速度还是非常快的
06:59.200 → 07:01.560
而且这张我们通过它输出
07:01.560 → 07:04.040
我们一看到它输出的图片上的内容
07:04.040 → 07:06.440
一般还是比较准确的
07:06.440 → 07:07.760
而且是一个繁体字
07:07.760 → 07:09.160
它都识别出来的
07:09.160 → 07:10.280
比如左上角的人物
07:10.280 → 07:12.520
左下方的人物
07:12.520 → 07:16.040
看一读的中文的文言文学习教材
07:16.040 → 07:16.680
我们看一下
07:16.680 → 07:18.040
是不是没有任何问题
07:18.040 → 07:19.800
而且这个图片还比较模糊
07:19.800 → 07:21.400
它这里都已经识别出来了
07:21.400 → 07:23.880
那么这个模型的才是14B的
07:23.880 → 07:26.200
它的模型能力就达到了这么强大
07:26.200 → 07:27.440
原来将文言文识别的
07:27.440 → 07:29.120
就基本来说很厉害了
07:29.120 → 07:30.560
观看第二个
07:30.560 → 07:32.440
就是它的一个音频能力
07:32.440 → 07:33.640
我们还是用14P
07:33.640 → 07:35.240
它这里支持我们一个audio
07:35.240 → 07:36.720
audio这里我们选择一个
07:36.720 → 07:38.040
比如说你可以选择文本
07:38.040 → 07:39.320
你也可以选择一个
07:39.320 → 07:41.480
比如说你有这种音频文件
07:41.480 → 07:43.320
其实音频文件就可以针对我们
07:43.720 → 07:45.840
文语音转字幕了
07:45.840 → 07:47.840
这个就可以跑你本地的
07:47.840 → 07:49.200
语音转字幕的功能了
07:49.200 → 07:50.560
我们这里选择一个
07:51.400 → 07:52.360
我们就写在这里
07:52.760 → 07:54.000
我们点这里了
07:54.000 → 07:54.840
我们麦克风
07:54.840 → 07:57.000
你好我现在后面说的话
07:57.000 → 08:00.120
请帮我转译成一个中文
08:00.120 → 08:02.840
我是稿经理稿基邻居
08:02.840 → 08:04.600
欢迎点注关赞
08:04.600 → 08:06.080
好我们点在点击发送
08:06.840 → 08:08.080
后面有几句话说的
08:08.080 → 08:09.120
可能不太清楚你看
08:09.120 → 08:11.200
也就说证明它确实可以
08:11.200 → 08:14.280
进行一个译文的翻译
08:14.280 → 08:15.760
而且还没看吗
08:15.760 → 08:17.800
很高兴是各位欢迎点赞
08:17.800 → 08:19.000
关注对不对
08:19.000 → 08:21.320
也说这个也可以用字幕的一些翻译
08:21.320 → 08:22.840
本地的一个字幕翻译
08:22.840 → 08:24.280
应该还是可以的
08:24.280 → 08:26.680
也就是音频转字幕的功能也是可以的
08:27.240 → 08:28.680
AI chart就不给大家测试了
08:28.680 → 08:30.520
AI chart正常的聊天的功能
08:30.520 → 08:31.560
多毛泰的功能
08:31.560 → 08:32.600
那么还有一个就是
08:33.560 → 08:34.960
也就是说它调用一些
08:34.960 → 08:35.760
skill的功能
08:35.760 → 08:36.480
我们点这里
08:36.480 → 08:38.120
我们可以看它内置的哪些skill
08:38.120 → 08:39.880
我们可以看内置的一些
08:41.160 → 08:42.440
识别二维码
08:42.920 → 08:43.800
还有一些什么
08:45.160 → 08:46.120
等等这些东西
08:46.120 → 08:47.960
当然这里我就用还有什么
08:47.960 → 08:49.240
查询维基百科
08:49.560 → 08:50.840
我就使用维基百科
08:50.840 → 08:51.800
比如说这里怎么使用
08:51.800 → 08:53.560
你就是通过关键字就可以了
08:54.840 → 08:59.080
在维基百科上查询一下成龙
09:03.480 → 09:05.640
它这个时候应该会去通过
09:05.640 → 09:07.240
调用skill去查询
09:07.240 → 09:09.480
我们的一个维基百科
09:09.480 → 09:11.320
并且返回维基百科里面
09:11.320 → 09:12.360
所给它的信息
09:12.360 → 09:14.360
我们这里选择一个
09:14.360 → 09:15.160
再等一会儿
09:15.160 → 09:16.000
这个弹窗会弹出
09:16.000 → 09:16.920
朋友们可以看到
09:16.920 → 09:18.960
它现在正在调用我们
09:18.960 → 09:20.120
Python的一些功能
09:20.120 → 09:21.000
我们点击cancel
09:21.000 → 09:21.840
它查出来了
09:21.840 → 09:23.160
但是是英文的
09:23.160 → 09:24.040
我们现在中文
09:29.400 → 09:30.600
我们让它做中文回答
09:32.040 → 09:33.840
它这里不知道为什么
09:33.840 → 09:35.880
Python环境调用失败了
09:35.880 → 09:37.560
但是它基于它自己的一个
09:37.560 → 09:39.280
知识库进行回答了
09:39.280 → 09:41.160
这个可能是它软件的一些bug
09:41.160 → 09:42.800
但是它可以触发这些skill
09:42.800 → 09:44.000
而是没有问题的
09:45.960 → 09:46.840
它这个模型能力
09:46.840 → 09:47.600
还是非常强大
09:47.600 → 09:49.840
而且这里只是使用那么一个14B
09:49.840 → 09:52.000
如果说你换成12B的话
09:52.880 → 09:55.080
整体来说还是非常的不错的
09:55.400 → 09:56.800
今天就给大家简单分享一下
09:56.800 → 09:58.840
我们Google AI Android Gallery
09:59.520 → 10:01.040
在我们一个MacOS
10:01.040 → 10:02.920
运行的一个简单的测试
10:02.920 → 10:04.280
如果大家有什么疑问
10:04.280 → 10:05.760
欢迎在视频先方给我留言