影片筆記：Mac 也能本地跑 Gemma！Google AI Edge Gallery 完整体验

YouTube 影片框會固定在左上方；點擊右側逐字稿時間戳可跳到對應時間。

一句話總結

本影片實測了 Google 推出的 Google AI Android Gallery 軟體的 macOS 版本，演示了如何在 Mac 筆記型電腦上本地運行開源模型（如 Gemma 4 系列），並實際測試了圖片識別、語音轉錄及透過 Skill 呼叫外部工具（如維基百科）的功能，證實該軟體在 Mac 上具備快速運行速度與多模態處理能力。

核心重點

跨平台支援：該軟體提供 Android、iOS 與 macOS 三端相同的介面與體驗，讓 Mac 用戶也能運行原本僅限行動裝置的本地大語言模型。

模型規格：支援 Gemma 4 系列模型，包含 12B、14B、31B、26B 等參數規模。其中文本與圖片功能為所有模型支援，而影片與音訊功能僅限於 12B、14B 等較小參數模型。

安裝流程簡便：透過 GitHub 或官網下載 .dmg 檔案，拖曳至應用程式資料夾即可安裝，並透過內建 Model Manager 下載與管理模型。

多模態能力實測：

圖片識別：14B 模型能快速識別圖片中的繁體中文及模糊內容（如文言文教材）。
語音處理：支援麥克風錄音並進行語音轉字幕及翻譯。
工具呼叫：具備 Skill 功能，可嘗試呼叫 Python 環境執行查詢（如維基百科），但可能存在環境呼叫失敗的 Bug。

詳細大綱

一、軟體介紹與背景

軟體名稱：Google AI Android Gallery（影片口語中亦提及 "AI Android Gallery"、"AI Engine Gallery"、"AI Chat" 等變體）。
核心功能：提供一套在三端（Android、iOS、macOS）擁有相同介面與體驗的框架，用於運行開源模型。
支援平台：
Android（Google Play）
iOS（App Store）
macOS（新增支援，此前僅限行動端）。
優勢：讓手機端也能運行本地大模型，現在 Mac 用戶也可體驗。

二、模型規格說明 (Gemma 4)

模型系列：Gemma 4（影片口語中亦稱為 "GEMLA 4"、"Gamia 4"、"Gama 4"）。
參數規模：提供 12B、14B、31B、26B 五種參數規模（影片口語中提及 "五種猜數"，疑為聽誤）。
功能支援範圍：
文本與圖片：所有 Gemma 4 模型皆支援。
影片與音訊：僅限於 12B、14B 等特定較小參數模型支援（影片口語提及 "12B 14B 和 12B"，疑點：31B/26B 是否支援未明確說明，僅強調小模型支援影音）。
本次測試對象：12B 或 14B 模型（實際演示主要使用 14B）。

三、安裝與設定流程

下載途徑：

GitHub 直接下載。
官網下載。

安裝步驟：

下載檔案為 .dmg 格式。
雙擊安裝，將軟體拖曳至 Application（應用程式）資料夾。
在 Launchpad 或應用程式列表中找到圖示並啟動。

初始設定：

點擊 "Accept and Continue"（接受並繼續）。
介面右上角顯示內建模型列表（如 E2B、12B、14B、3N 等，疑點：模型名稱拼寫）。

模型下載：

選擇模型（如 12B 或 14B）並點擊 "Download"。
左下角顯示下載進度、速度及模型大小。
下載完成後，可透過 "Model Manager" 管理或刪除模型。

四、功能實測 (以 14B 模型為例)

介面結構：
左側選單包含：Settings（設定）、Ask Image（圖片諮詢）、Audio（音訊）、AI Chat（聊天）、Skill（技能/工具）。
右側為對話與功能區。
測試 1：圖片識別 (Ask Image)
操作：上傳一張包含中文繁體字、內容模糊的圖片（文言文學習教材）。
結果：
載入模型速度快，Token 生成速度快（測試環境記憶體 32GB）。
識別準確，能正確讀出左上角與左下角人物及文言文內容。
證明 14B 模型具備強大的圖片文字識別能力。
測試 2：音訊處理 (Audio)
功能：支援音訊檔案上傳或麥克風錄音，進行語音轉字幕/翻譯。
操作：使用麥克風錄製一段歡迎詞，要求轉譯為中文。
結果：成功將語音轉錄並翻譯，證明本地語音轉字幕功能可行。
測試 3：AI Chat
一般聊天功能，影片未詳細測試。
測試 4：Agent Skill (技能呼叫)
內建 Skill：Kircode（疑點：可能指 QR Code 解碼）、Catalina（疑點：可能指 Calendar 日曆）、查詢維基百科等。
操作：使用 "查詢維基百科" Skill，輸入關鍵字 "成龍"。
結果：
軟體嘗試呼叫 Python 環境執行查詢。
初期返回英文結果，要求中文回答後，軟體基於自身知識庫回答（因 Python 環境呼叫失敗，疑似軟體 Bug）。
確認軟體具備觸發 Skill 的能力。

工具 / 模型 / 名詞整理

| 類別 | 名稱/專有名詞 | 備註/疑點 |

| :--- | :--- | :--- |

| 軟體名稱 | Google AI Android Gallery | 影片口語中亦稱為 "AI Android Gallery"、"AI Engine Gallery"、"AI Chat"、"Android Gallery"。 |

| 軟體名稱 | Gemma 4 | 影片口語中亦稱為 "GEMLA 4"、"Gamia 4"、"Gama 4"。 |

| 模型參數 | 12B, 14B, 31B, 26B | 影片口語中提及 "12B 14B 12B"，疑點：重複提及 12B 或為口誤。 |

| 模型參數 | 3N | 影片口語中提及 "3N"，疑點：可能為 3B 或其他參數的聽寫錯誤。 |

| 模型參數 | E2B | 影片口語中提及 "E2B"、"ERB"，疑點：可能為 Gemma 系列中的某個特定版本或聽寫錯誤。 |

| 作業系統 | macOS | |

| 作業系統 | Android | |

| 作業系統 | iOS | 影片口語中稱為 "蘋果商店"、"AVSTART"（疑點：應為 App Store）。 |

| 功能模組 | Ask Image | 圖片諮詢功能。 |

| 功能模組 | Audio | 音訊處理功能。 |

| 功能模組 | AI Chat | AI 聊天功能。 |

| 功能模組 | Skill / Agent Skill | 技能呼叫功能。 |

| 功能模組 | Model Manager | 模型管理工具。 |

| 外部工具 | Python | 軟體嘗試呼叫 Python 環境執行 Skill。 |

| 外部服務 | 維基百科 (Wikipedia) | Skill 中用於查詢的來源。 |

| 檔案格式 | DMG | macOS 安裝檔格式。 |

| 其他專有名詞 | AMac.cpp | 影片口語中提及 "amac.cpp"，疑點：可能指 llama.cpp 或其他推理框架。 |

| 其他專有名詞 | MM Studio | 影片口語中提及 "MM Studio"，疑點：可能指 Open WebUI 或其他介面。 |

| 其他專有名詞 | AVSTART | 影片口語中提及 "AVSTART"，疑點：應為 App Store。 |

| 其他專有名詞 | Catalina | 影片口語中提及 "Catalina" 作為 Skill 名稱，疑點：可能指 Calendar（日曆）功能。 |

| 其他專有名詞 | Kircode | 影片口語中提及 "Kircode"，疑點：可能指 QR Code（二維碼）解碼功能。 |

操作流程整理

下載與安裝：

從 GitHub 或官網下載 .dmg 安裝檔。
雙擊安裝，將應用程式拖曳至 Application 資料夾。
從 Launchpad 啟動軟體。

初始設定與模型下載：

點擊 "Accept and Continue"。
在介面右上角選擇模型（如 12B 或 14B）。
點擊 "Download" 下載模型，等待進度條完成。

圖片識別測試：

進入 "Ask Image" 功能。
上傳包含文字或複雜內容的圖片。
觀察模型對圖片內容的識別與文字生成速度。

語音處理測試：

進入 "Audio" 功能。
使用麥克風錄音或上傳音訊檔案。
設定語言（如中文），執行語音轉字幕或翻譯。

工具呼叫測試 (Skill)：

進入 "Skill" 或 "Agent Skill" 功能。
選擇內建技能（如 "查詢維基百科"）。
輸入查詢關鍵字（如 "成龍"）。
觀察軟體是否成功呼叫 Python 環境或返回基於知識庫的回答。

值得注意的限制或風險

功能支援限制：影片口語提及影片與音訊功能僅限於 12B、14B 等特定較小參數模型支援，較大參數模型（如 31B、26B）的功能支援範圍未明確說明，可能存在限制。

Skill 呼叫穩定性：在測試維基百科查詢時，軟體嘗試呼叫 Python 環境但疑似失敗，導致軟體基於自身知識庫回答而非外部查詢結果，顯示 Skill 呼叫可能存在 Bug 或不穩定。

模型名稱辨識：影片中多次出現模型名稱與軟體名稱的口語變體（如 GEMLA 4、Gamia 4、E2B、3N 等），實際使用時需確認正確的模型版本與名稱，以免下載錯誤檔案。

硬體需求：測試環境為 32GB 記憶體，對於較大參數模型（如 31B、26B）的運行效能與記憶體需求未詳細說明，Mac 用戶需注意硬體規格是否足夠。

逐字稿辨識疑點

軟體名稱不一致：逐字稿中交替出現 "Google AI Android Gallery"、"AI Android Gallery"、"AI Engine Gallery"、"Android Gallery"。需查證該軟體在 macOS 上的正式名稱是否確實包含 "Android" 字樣，或為口誤。

模型名稱拼寫：

"GEMLA 4"、"Gamia 4"、"Gama 4"：應查證是否為 Google 的 "Gemma" 系列模型。
"E2B"、"ERB"：應查證是否為 Gemma 系列中的特定參數版本（如 2B）或聽寫錯誤。
"3N"：應查證是否為 "3B" 或其他參數。

下載平台名稱："AVSTART"：應查證是否為 "App Store" 的聽寫錯誤。

推理框架名稱："amac.cpp"、"MM Studio"：應查證是否分別為 "llama.cpp" 及 "Open WebUI" 或 "Text Generation WebUI" 等常見本地模型運行工具的聽寫錯誤。

Skill 名稱："Kircode"、"Catalina"：應查證是否分別為 "QR Code" 和 "Calendar" 的聽寫錯誤。

模型參數重複：影片口語中多次重複 "12B 14B 12B"，疑點：是否為口誤或特定版本劃分。

功能支援範圍：影片口語中關於影音支援的模型範圍描述為 "12B 14B 和 12B"，語意不清，需查證具體哪些參數規模支援影音功能。

可延伸追問

該軟體在 macOS 上的正式官方名稱為何？是否真的包含 "Android" 字樣？

Gemma 4 系列中，31B 和 26B 模型是否支援影片與音訊功能？具體的硬體需求（如記憶體、GPU）為何？

"E2B"、"ERB"、"3N" 等模型參數名稱的正確拼寫為何？它們對應的是 Gemma 系列的哪個具體版本？

Skill 功能中呼叫 Python 環境失敗的原因為何？是否有已知的解決方案或更新？

該軟體是否支援更多類型的本地模型（如 Llama 系列），還是僅限於 Google 的 Gemma 系列？

逐字稿時間軸

右側可一路往下捲；左側影片框會固定。點擊時間戳會讓左側影片跳到對應秒數。

00:00.000 → 00:02.240

大家好这里是搞进具体

00:02.240 → 00:04.360

今天给大家分享一个

00:04.560 → 00:05.440

google的一个

00:05.440 → 00:06.760

Gallery这个软件

00:06.880 → 00:09.960

它现在提供了我们的一个macOS

00:09.960 → 00:14.000

也就是说我们可以在我们的一个macOS上

00:14.120 → 00:15.360

笔记本上来运行

00:15.360 → 00:19.000

我们之前可以只能在移动端运行的这些

00:19.040 → 00:20.480

M4的这些软件

00:20.480 → 00:23.600

也就是说它现在终于支持我们三端了

00:23.600 → 00:27.040

我们可以在安卓的一个google play上

00:27.040 → 00:30.360

AVSTART的一个我们的一个苹果商店上去下载

00:30.360 → 00:31.760

我们的一个AI Android Gallery

00:31.760 → 00:35.080

现在又提供了我们一个macOS的一个版本

00:35.160 → 00:37.160

首先给大家说下google

00:37.360 → 00:40.120

AI Android Gallery这个软件它是个什么东西

00:40.200 → 00:43.120

它相当于说它是google内置的一套

00:43.120 → 00:45.840

我们让我们可以一下子在三端

00:45.840 → 00:48.480

比如说在苹果在安卓在macOS上

00:48.480 → 00:50.520

一样的界面一样的体验

00:50.520 → 00:53.840

运行同样的模型的开源模型的一个框架

00:53.840 → 00:56.400

以往来说我们运行一些三方的框架

00:56.400 → 00:59.720

我们在电脑上一般来说我们是有哪些软件

00:59.720 → 01:01.720

一般来说我们要使用一些amac.cpp

01:01.720 → 01:02.280

对不对

01:02.280 → 01:04.840

还有我们用的最多的还有就是MM Studio

01:04.840 → 01:08.400

那么其实现在google推出它这个google

01:08.400 → 01:09.720

AI Android Gallery的这个软件

01:09.720 → 01:13.560

其实它也可以运行一些第三方的这些模型

01:13.560 → 01:15.720

而且主要是它现在提供了手机端运行

01:15.720 → 01:20.720

也就是说我们手机端也可以跑我们本地的大模型

01:20.720 → 01:25.080

它最近推出了一个AI Android Gallery的一个macOS一个版本

01:25.080 → 01:30.400

今天带大家体验一下如何去运行我们本地的模型

01:30.400 → 01:33.520

以及我们一个运行我们本地的GEMLA 4

01:33.520 → 01:35.840

那么GEMLA 4给各位小朋友说下

01:35.840 → 01:40.960

GEMLA 4是Google前段时间刚推出的一个高性能的一个模型版本

01:40.960 → 01:44.280

它这个模型总共提提了五种猜数

01:44.280 → 01:49.400

12B 14B 12B 31B还有我们的一个26B

01:49.400 → 01:55.040

而且它现在所有的模型都支持处理文本和图片

01:55.040 → 01:56.320

这个是所有的

01:56.320 → 02:03.240

视频和音频的功能是在12B 14B和12B的几个模型上支持的

02:03.240 → 02:08.560

也就是说前面也就是说处理文本和图片的所有的模型

02:08.560 → 02:10.920

就是GEMLA 4 4的模型都支持

02:10.920 → 02:14.240

但是如果说要加上视频和音频的支持

02:14.240 → 02:20.000

那么只有在12B 14B和12B这几个模型上它才支持

02:20.000 → 02:24.560

今天就带大家来体验一下我们12B的一个模型能力

02:24.560 → 02:28.400

而且通过我们一个AI Android Gallery这个软件来运行

02:28.400 → 02:29.480

大家可以体验一下

02:29.480 → 02:31.320

好那么有两种下载方式

02:31.320 → 02:34.800

第一种你可以通过一个Github上AI Android Gallery这个软件

02:34.800 → 02:36.000

这个地方直接点击下载

02:36.000 → 02:39.840

第二种我们可以进行它的一个官网去下载这个软件

02:39.840 → 02:42.800

这里我就随便选择一个这里下载就可以了

02:42.800 → 02:45.760

下载完毕之后你打开你的下载文件

02:45.760 → 02:47.800

它是一个DMG的

02:47.800 → 02:49.120

好我们双击一下

02:49.120 → 02:52.880

好双击之后我们将Google AI Android Gallery这个软件

02:52.880 → 02:54.880

拖到我们一个Application里面过去

02:54.880 → 02:58.440

好拖了之后我们在下面过一会儿就可以看到

02:58.440 → 03:02.080

我们的一个Android Gallery的软件的一个图标

03:02.080 → 03:05.800

好我们就在我们的仿达应用里面就可以看到我们快点方式了

03:05.800 → 03:07.640

这时候我们双击启动它

03:07.640 → 03:09.000

好我们选择打开

03:09.000 → 03:13.280

OK 这时候进入到我们一个Google Android Gallery的一个软件

03:13.280 → 03:16.680

我们点击Accept and Continue 继续

03:16.680 → 03:20.640

好点击完毕之后我们在电脑上的右上角这里

03:20.640 → 03:25.800

我们就可以看到现在Google它自带的一个Jama这几个模型都是带了

03:25.800 → 03:27.560

比如说我们E2B 是吧

03:27.560 → 03:31.240

还有我们一个12B 14B 3N的

03:31.240 → 03:34.080

刚才给大家看模型的时候也就说过了

03:34.080 → 03:38.280

这几个模型能力都是支持我们的一个文本图片的

03:38.280 → 03:40.640

后面几个还支持我们视频和音频的

03:40.640 → 03:41.440

我们可以切到

03:41.440 → 03:43.840

比如说我这里选了一个12B

03:43.840 → 03:48.440

好这时候选完之后我们需要进行一个下载

03:48.440 → 03:50.000

我们点击再点击Download

03:50.000 → 03:53.080

这时候你就可以看到它这里会进行一个下载

03:53.080 → 03:54.800

这时候我们就先不关它

03:54.800 → 03:57.000

我给大家看一下这几个设置界面

03:57.000 → 04:02.360

我们可以看到左边其实和我们的一个手机版的一个AI Engine Gallery

04:02.360 → 04:03.680

它是差不多的

04:03.680 → 04:05.080

给大家看一下它手机版

04:05.080 → 04:08.400

我们可以看到它其实手机版这里也有一些

04:08.400 → 04:11.200

就是Ask AI Engine带一些Skull

04:11.200 → 04:12.520

我们接到左边来

04:12.520 → 04:13.560

我们比如说选了Setting

04:13.560 → 04:15.200

然后Setting这里有Lens这些东西

04:15.200 → 04:16.960

目前说这里面倒没有太多的

04:16.960 → 04:18.760

我们点击比如说Ask Image

04:18.760 → 04:24.040

它这里会显示出当前支持我们图片的这些

04:24.040 → 04:26.320

就是咨询图片的模型

04:26.320 → 04:28.120

可以看到ERB这些对不对

04:28.120 → 04:32.840

Audio也就是说支持我们这些音频识别的AIChat

04:32.840 → 04:34.040

就是支持我们一个

04:34.040 → 04:37.360

AIChat就是我们整体的一个AI聊天功能的

04:37.360 → 04:39.920

当然还有支持我们一些Cure功能的

04:39.920 → 04:44.960

也就是说我们支持我们这些下载一些执行一些Skull的一些功能的

04:44.960 → 04:46.560

我们这里就可以简单看到这

04:46.560 → 04:48.120

这里还可以点击Model Manager

04:48.120 → 04:49.400

这里可以看到一个下载

04:50.680 → 04:51.960

但是我们可以看到这里

04:51.960 → 04:54.520

它这里只有12B和14B

04:54.520 → 04:56.000

12B8

04:56.000 → 04:57.560

但是14B8

04:57.560 → 05:00.680

这里就选择是12B8 14B8

05:00.680 → 05:03.600

这里我不知道为什么我们这里选择12B

05:03.600 → 05:06.920

有什么这么强大模型它并没有列到中间

05:06.920 → 05:08.200

我们先把这个停止的

05:08.200 → 05:09.480

我们先下载其他的

05:09.480 → 05:13.080

我们就选择一个看看都包含的12B

05:13.080 → 05:14.000

我选择14B

05:14.000 → 05:15.520

我们都选择14B下载

05:15.520 → 05:16.920

下载14B这个模型

05:16.920 → 05:18.720

我们这里都选择14B

05:18.720 → 05:20.240

我们这里都选择一个14B

05:20.240 → 05:21.240

因为AI插头也可以

05:21.240 → 05:22.680

AiSQ也可以是可以的

05:22.680 → 05:22.800

好

05:22.800 → 05:24.600

我们等待下载完毕

05:24.600 → 05:26.400

整体来说AIGallery

05:26.400 → 05:27.680

这个MacOS软件

05:27.680 → 05:29.920

基本上它的布局就这么简单

05:29.920 → 05:31.320

没那么复杂

05:31.320 → 05:32.600

我们看的就这么简单

05:32.600 → 05:33.920

我们等待一下下载

05:33.920 → 05:35.040

我们在左下角

05:35.040 → 05:35.880

这个Automatter里面

05:35.880 → 05:38.240

我们也可以看到每个模型的它一个大小

05:38.240 → 05:40.680

还有它的一个下载的一个速度

05:40.680 → 05:41.400

进度

05:41.400 → 05:42.640

这东西我们都是可以看到

05:42.640 → 05:43.720

但是它软件这里

05:43.720 → 05:45.360

现在支持这几个

05:45.360 → 05:47.240

Gamia 4的一个12B

05:47.240 → 05:49.160

12B 14B 12B

05:49.160 → 05:51.040

还有一个3N的这几个模型

05:51.040 → 05:51.960

现在是这样子的

05:51.960 → 05:52.480

好

05:52.480 → 05:54.160

我们模型下载完毕之后

05:54.160 → 05:56.360

我们这里就可以看到它已经下载完毕了

05:56.360 → 05:57.600

而且我们在这里就可以

05:57.600 → 05:59.640

方便的定位到你模型下载

05:59.640 → 06:01.240

这个文件夹的一个位置

06:01.240 → 06:01.960

也就是下载位置

06:01.960 → 06:03.040

方便不以后进行删除

06:03.040 → 06:04.280

如果说你这个模型

06:04.280 → 06:05.320

你后面不想用了

06:05.320 → 06:05.920

想要删除了

06:05.920 → 06:07.920

你直接这里点击Delete就可以了

06:07.920 → 06:09.680

我们测试一下ECB

06:09.680 → 06:11.440

我们看看左边这几个Tab栏

06:11.440 → 06:12.160

我们如何使用

06:12.160 → 06:13.480

比如说ask image

06:13.480 → 06:14.440

这么说我们点击来之后

06:14.440 → 06:16.560

它会load这个模型进行一个加载

06:16.560 → 06:18.520

这个是针对一些模型的配置

06:18.520 → 06:20.720

默认我们就选择一个GPU

06:20.720 → 06:22.120

是否需要开启思考

06:22.120 → 06:23.920

我这里就不开启思考了

06:23.920 → 06:25.200

我们点击Cancel

06:25.200 → 06:27.440

这里选择你聊天的一个历史记录

06:27.440 → 06:29.600

你这里可以看到你之前的历史记录

06:29.600 → 06:30.080

好

06:30.080 → 06:31.200

我们在这里

06:31.200 → 06:32.280

它是写的很清楚

06:32.280 → 06:32.560

是吧

06:32.560 → 06:33.280

ask image

06:33.280 → 06:33.680

按照的时候

06:33.680 → 06:35.320

它这里要支持我们图片的访问

06:35.320 → 06:37.800

我正在我本地电脑上下载了一个图片

06:37.800 → 06:38.760

我们选择这个image

06:38.760 → 06:39.560

选择open

06:39.560 → 06:42.640

那么这个图片是一个中文的内容

06:42.640 → 06:45.040

我们看它图片的识别能力怎么样

06:45.040 → 06:47.800

我问一下它图片上的内容

06:47.800 → 06:49.320

我们回车

06:49.320 → 06:49.640

好

06:49.640 → 06:50.560

它现在正在

06:50.560 → 06:51.360

你看

06:51.360 → 06:53.840

基本上来说它速度还是非常快的

06:53.840 → 06:56.120

我的内存是32G的

06:56.120 → 06:56.840

我们可以看到

06:56.840 → 06:59.200

基本上它的token速度还是非常快的

06:59.200 → 07:01.560

而且这张我们通过它输出

07:01.560 → 07:04.040

我们一看到它输出的图片上的内容

07:04.040 → 07:06.440

一般还是比较准确的

07:06.440 → 07:07.760

而且是一个繁体字

07:07.760 → 07:09.160

它都识别出来的

07:09.160 → 07:10.280

比如左上角的人物

07:10.280 → 07:12.520

左下方的人物

07:12.520 → 07:16.040

看一读的中文的文言文学习教材

07:16.040 → 07:16.680

我们看一下

07:16.680 → 07:18.040

是不是没有任何问题

07:18.040 → 07:19.800

而且这个图片还比较模糊

07:19.800 → 07:21.400

它这里都已经识别出来了

07:21.400 → 07:23.880

那么这个模型的才是14B的

07:23.880 → 07:26.200

它的模型能力就达到了这么强大

07:26.200 → 07:27.440

原来将文言文识别的

07:27.440 → 07:29.120

就基本来说很厉害了

07:29.120 → 07:30.560

观看第二个

07:30.560 → 07:32.440

就是它的一个音频能力

07:32.440 → 07:33.640

我们还是用14P

07:33.640 → 07:35.240

它这里支持我们一个audio

07:35.240 → 07:36.720

audio这里我们选择一个

07:36.720 → 07:38.040

比如说你可以选择文本

07:38.040 → 07:39.320

你也可以选择一个

07:39.320 → 07:41.480

比如说你有这种音频文件

07:41.480 → 07:43.320

其实音频文件就可以针对我们

07:43.320 → 07:43.720

怎么说

07:43.720 → 07:45.840

文语音转字幕了

07:45.840 → 07:47.840

这个就可以跑你本地的

07:47.840 → 07:49.200

语音转字幕的功能了

07:49.200 → 07:50.560

我们这里选择一个

07:50.560 → 07:51.400

record audio

07:51.400 → 07:52.360

我们就写在这里

07:52.360 → 07:52.760

好

07:52.760 → 07:54.000

我们点这里了

07:54.000 → 07:54.840

我们麦克风

07:54.840 → 07:57.000

你好我现在后面说的话

07:57.000 → 08:00.120

请帮我转译成一个中文

08:00.120 → 08:02.840

我是稿经理稿基邻居

08:02.840 → 08:04.600

欢迎点注关赞

08:04.600 → 08:06.080

好我们点在点击发送

08:06.080 → 08:06.840

好

08:06.840 → 08:08.080

后面有几句话说的

08:08.080 → 08:09.120

可能不太清楚你看

08:09.120 → 08:11.200

也就说证明它确实可以

08:11.200 → 08:14.280

进行一个译文的翻译

08:14.280 → 08:15.760

而且还没看吗

08:15.760 → 08:17.800

很高兴是各位欢迎点赞

08:17.800 → 08:19.000

关注对不对

08:19.000 → 08:21.320

也说这个也可以用字幕的一些翻译

08:21.320 → 08:22.840

本地的一个字幕翻译

08:22.840 → 08:24.280

应该还是可以的

08:24.280 → 08:26.680

也就是音频转字幕的功能也是可以的

08:26.680 → 08:27.240

那么

08:27.240 → 08:28.680

AI chart就不给大家测试了

08:28.680 → 08:30.520

AI chart正常的聊天的功能

08:30.520 → 08:31.560

多毛泰的功能

08:31.560 → 08:32.600

那么还有一个就是

08:32.600 → 08:33.560

Agent skill

08:33.560 → 08:34.960

也就是说它调用一些

08:34.960 → 08:35.760

skill的功能

08:35.760 → 08:36.480

我们点这里

08:36.480 → 08:38.120

我们可以看它内置的哪些skill

08:38.120 → 08:39.880

我们可以看内置的一些

08:39.880 → 08:40.600

有什么

08:40.600 → 08:41.160

kircode

08:41.160 → 08:42.440

识别二维码

08:42.440 → 08:42.920

对不对

08:42.920 → 08:43.800

还有一些什么

08:43.800 → 08:44.360

Catalina

08:44.360 → 08:45.160

创建日历

08:45.160 → 08:46.120

等等这些东西

08:46.120 → 08:47.960

当然这里我就用还有什么

08:47.960 → 08:49.240

查询维基百科

08:49.240 → 08:49.560

对不对

08:49.560 → 08:50.840

我就使用维基百科

08:50.840 → 08:51.800

比如说这里怎么使用

08:51.800 → 08:53.560

你就是通过关键字就可以了

08:53.560 → 08:54.280

比如说

08:54.840 → 08:59.080

在维基百科上查询一下成龙

09:00.200 → 09:00.680

好

09:00.680 → 09:01.720

成龙

09:02.520 → 09:03.480

我们回撤

09:03.480 → 09:05.640

它这个时候应该会去通过

09:05.640 → 09:07.240

调用skill去查询

09:07.240 → 09:09.480

我们的一个维基百科

09:09.480 → 09:11.320

并且返回维基百科里面

09:11.320 → 09:12.360

所给它的信息

09:12.360 → 09:14.360

我们这里选择一个

09:14.360 → 09:15.160

再等一会儿

09:15.160 → 09:16.000

这个弹窗会弹出

09:16.000 → 09:16.920

朋友们可以看到

09:16.920 → 09:18.960

它现在正在调用我们

09:18.960 → 09:20.120

Python的一些功能

09:20.120 → 09:21.000

我们点击cancel

09:21.000 → 09:21.840

它查出来了

09:21.840 → 09:23.160

但是是英文的

09:23.160 → 09:24.040

我们现在中文

09:24.040 → 09:24.840

使用

09:27.640 → 09:28.680

中文回答

09:28.680 → 09:29.400

好

09:29.400 → 09:30.600

我们让它做中文回答

09:30.600 → 09:31.600

再问一下

09:31.600 → 09:32.040

好

09:32.040 → 09:33.840

它这里不知道为什么

09:33.840 → 09:35.880

Python环境调用失败了

09:35.880 → 09:37.560

但是它基于它自己的一个

09:37.560 → 09:39.280

知识库进行回答了

09:39.280 → 09:41.160

这个可能是它软件的一些bug

09:41.160 → 09:42.800

但是它可以触发这些skill

09:42.800 → 09:44.000

而是没有问题的

09:45.200 → 09:45.960

整体来说

09:45.960 → 09:46.840

它这个模型能力

09:46.840 → 09:47.600

还是非常强大

09:47.600 → 09:49.840

而且这里只是使用那么一个14B

09:49.840 → 09:52.000

如果说你换成12B的话

09:52.880 → 09:55.080

整体来说还是非常的不错的

09:55.080 → 09:55.400

好

09:55.400 → 09:56.800

今天就给大家简单分享一下

09:56.800 → 09:58.840

我们Google AI Android Gallery

09:58.840 → 09:59.520

这么一个

09:59.520 → 10:01.040

在我们一个MacOS

10:01.040 → 10:02.920

运行的一个简单的测试

10:02.920 → 10:04.280

如果大家有什么疑问

10:04.280 → 10:05.760

欢迎在视频先方给我留言

10:05.760 → 10:06.320

谢谢