WEBVTT

00:00.000 --> 00:02.240
大家好 这里是搞进具体

00:02.240 --> 00:04.360
今天给大家分享一个

00:04.560 --> 00:05.440
google的一个

00:05.440 --> 00:06.760
Gallery这个软件

00:06.880 --> 00:09.960
它现在提供了我们的一个macOS

00:09.960 --> 00:14.000
也就是说我们可以在我们的一个macOS上

00:14.120 --> 00:15.360
笔记本上来运行

00:15.360 --> 00:19.000
我们之前可以只能在移动端运行的这些

00:19.040 --> 00:20.480
M4的这些软件

00:20.480 --> 00:23.600
也就是说它现在终于支持我们三端了

00:23.600 --> 00:27.040
我们可以在安卓的一个google play上

00:27.040 --> 00:30.360
AVSTART的一个我们的一个苹果商店上去下载

00:30.360 --> 00:31.760
我们的一个AI Android Gallery

00:31.760 --> 00:35.080
现在又提供了我们一个macOS的一个版本

00:35.160 --> 00:37.160
首先给大家说下google

00:37.360 --> 00:40.120
AI Android Gallery这个软件它是个什么东西

00:40.200 --> 00:43.120
它相当于说它是google内置的一套

00:43.120 --> 00:45.840
我们让我们可以一下子在三端

00:45.840 --> 00:48.480
比如说在苹果在安卓在macOS上

00:48.480 --> 00:50.520
一样的界面一样的体验

00:50.520 --> 00:53.840
运行同样的模型的开源模型的一个框架

00:53.840 --> 00:56.400
以往来说我们运行一些三方的框架

00:56.400 --> 00:59.720
我们在电脑上一般来说我们是有哪些软件

00:59.720 --> 01:01.720
一般来说我们要使用一些amac.cpp

01:01.720 --> 01:02.280
对不对

01:02.280 --> 01:04.840
还有我们用的最多的还有就是MM Studio

01:04.840 --> 01:08.400
那么其实现在google推出它这个google

01:08.400 --> 01:09.720
AI Android Gallery的这个软件

01:09.720 --> 01:13.560
其实它也可以运行一些第三方的这些模型

01:13.560 --> 01:15.720
而且主要是它现在提供了手机端运行

01:15.720 --> 01:20.720
也就是说我们手机端也可以跑我们本地的大模型

01:20.720 --> 01:25.080
它最近推出了一个AI Android Gallery的一个macOS一个版本

01:25.080 --> 01:30.400
今天带大家体验一下如何去运行我们本地的模型

01:30.400 --> 01:33.520
以及我们一个运行我们本地的GEMLA 4

01:33.520 --> 01:35.840
那么GEMLA 4给各位小朋友说下

01:35.840 --> 01:40.960
GEMLA 4是Google前段时间刚推出的一个高性能的一个模型版本

01:40.960 --> 01:44.280
它这个模型总共提提了五种猜数

01:44.280 --> 01:49.400
12B 14B 12B 31B还有我们的一个26B

01:49.400 --> 01:55.040
而且它现在所有的模型都支持处理文本和图片

01:55.040 --> 01:56.320
这个是所有的

01:56.320 --> 02:03.240
视频和音频的功能是在12B 14B和12B的几个模型上支持的

02:03.240 --> 02:08.560
也就是说前面也就是说处理文本和图片的所有的模型

02:08.560 --> 02:10.920
就是GEMLA 4 4的模型都支持

02:10.920 --> 02:14.240
但是如果说要加上视频和音频的支持

02:14.240 --> 02:20.000
那么只有在12B 14B和12B这几个模型上它才支持

02:20.000 --> 02:24.560
今天就带大家来体验一下我们12B的一个模型能力

02:24.560 --> 02:28.400
而且通过我们一个AI Android Gallery这个软件来运行

02:28.400 --> 02:29.480
大家可以体验一下

02:29.480 --> 02:31.320
好 那么有两种下载方式

02:31.320 --> 02:34.800
第一种你可以通过一个Github上AI Android Gallery这个软件

02:34.800 --> 02:36.000
这个地方直接点击下载

02:36.000 --> 02:39.840
第二种我们可以进行它的一个官网去下载这个软件

02:39.840 --> 02:42.800
这里我就随便选择一个这里下载就可以了

02:42.800 --> 02:45.760
下载完毕之后你打开你的下载文件

02:45.760 --> 02:47.800
它是一个DMG的

02:47.800 --> 02:49.120
好 我们双击一下

02:49.120 --> 02:52.880
好 双击之后我们将Google AI Android Gallery这个软件

02:52.880 --> 02:54.880
拖到我们一个Application里面过去

02:54.880 --> 02:58.440
好 拖了之后我们在下面过一会儿就可以看到

02:58.440 --> 03:02.080
我们的一个Android Gallery的软件的一个图标

03:02.080 --> 03:05.800
好 我们就在我们的仿达应用里面就可以看到我们快点方式了

03:05.800 --> 03:07.640
这时候我们双击启动它

03:07.640 --> 03:09.000
好 我们选择打开

03:09.000 --> 03:13.280
OK 这时候进入到我们一个Google Android Gallery的一个软件

03:13.280 --> 03:16.680
我们点击Accept and Continue 继续

03:16.680 --> 03:20.640
好 点击完毕之后我们在电脑上的右上角这里

03:20.640 --> 03:25.800
我们就可以看到现在Google它自带的一个Jama这几个模型都是带了

03:25.800 --> 03:27.560
比如说我们E2B 是吧

03:27.560 --> 03:31.240
还有我们一个12B 14B 3N的

03:31.240 --> 03:34.080
刚才给大家看模型的时候也就说过了

03:34.080 --> 03:38.280
这几个模型能力都是支持我们的一个文本图片的

03:38.280 --> 03:40.640
后面几个还支持我们视频和音频的

03:40.640 --> 03:41.440
我们可以切到

03:41.440 --> 03:43.840
比如说我这里选了一个12B

03:43.840 --> 03:48.440
好 这时候选完之后我们需要进行一个下载

03:48.440 --> 03:50.000
我们点击再点击Download

03:50.000 --> 03:53.080
这时候你就可以看到它这里会进行一个下载

03:53.080 --> 03:54.800
这时候我们就先不关它

03:54.800 --> 03:57.000
我给大家看一下这几个设置界面

03:57.000 --> 04:02.360
我们可以看到左边其实和我们的一个手机版的一个AI Engine Gallery

04:02.360 --> 04:03.680
它是差不多的

04:03.680 --> 04:05.080
给大家看一下它手机版

04:05.080 --> 04:08.400
我们可以看到它其实手机版这里也有一些

04:08.400 --> 04:11.200
就是Ask AI Engine带一些Skull

04:11.200 --> 04:12.520
我们接到左边来

04:12.520 --> 04:13.560
我们比如说选了Setting

04:13.560 --> 04:15.200
然后Setting这里有Lens这些东西

04:15.200 --> 04:16.960
目前说这里面倒没有太多的

04:16.960 --> 04:18.760
我们点击比如说Ask Image

04:18.760 --> 04:24.040
它这里会显示出当前支持我们图片的这些

04:24.040 --> 04:26.320
就是咨询图片的模型

04:26.320 --> 04:28.120
可以看到ERB这些对不对

04:28.120 --> 04:32.840
Audio也就是说支持我们这些音频识别的AIChat

04:32.840 --> 04:34.040
就是支持我们一个

04:34.040 --> 04:37.360
AIChat就是我们整体的一个AI聊天功能的

04:37.360 --> 04:39.920
当然还有支持我们一些Cure功能的

04:39.920 --> 04:44.960
也就是说我们支持我们这些下载一些执行一些Skull的一些功能的

04:44.960 --> 04:46.560
我们这里就可以简单看到这

04:46.560 --> 04:48.120
这里还可以点击Model Manager

04:48.120 --> 04:49.400
这里可以看到一个下载

04:50.680 --> 04:51.960
但是我们可以看到这里

04:51.960 --> 04:54.520
它这里只有12B和14B

04:54.520 --> 04:56.000
12B8

04:56.000 --> 04:57.560
但是14B8

04:57.560 --> 05:00.680
这里就选择是12B8 14B8

05:00.680 --> 05:03.600
这里我不知道为什么我们这里选择12B

05:03.600 --> 05:06.920
有什么这么强大模型它并没有列到中间

05:06.920 --> 05:08.200
我们先把这个停止的

05:08.200 --> 05:09.480
我们先下载其他的

05:09.480 --> 05:13.080
我们就选择一个看看都包含的12B

05:13.080 --> 05:14.000
我选择14B

05:14.000 --> 05:15.520
我们都选择14B下载

05:15.520 --> 05:16.920
下载14B这个模型

05:16.920 --> 05:18.720
我们这里都选择14B

05:18.720 --> 05:20.240
我们这里都选择一个14B

05:20.240 --> 05:21.240
因为AI插头也可以

05:21.240 --> 05:22.680
AiSQ也可以是可以的

05:22.680 --> 05:22.800
好

05:22.800 --> 05:24.600
我们等待下载完毕

05:24.600 --> 05:26.400
整体来说AIGallery

05:26.400 --> 05:27.680
这个MacOS软件

05:27.680 --> 05:29.920
基本上它的布局就这么简单

05:29.920 --> 05:31.320
没那么复杂

05:31.320 --> 05:32.600
我们看的就这么简单

05:32.600 --> 05:33.920
我们等待一下下载

05:33.920 --> 05:35.040
我们在左下角

05:35.040 --> 05:35.880
这个Automatter里面

05:35.880 --> 05:38.240
我们也可以看到每个模型的它一个大小

05:38.240 --> 05:40.680
还有它的一个下载的一个速度

05:40.680 --> 05:41.400
进度

05:41.400 --> 05:42.640
这东西我们都是可以看到

05:42.640 --> 05:43.720
但是它软件这里

05:43.720 --> 05:45.360
现在支持这几个

05:45.360 --> 05:47.240
Gamia 4的一个12B

05:47.240 --> 05:49.160
12B 14B 12B

05:49.160 --> 05:51.040
还有一个3N的这几个模型

05:51.040 --> 05:51.960
现在是这样子的

05:51.960 --> 05:52.480
好

05:52.480 --> 05:54.160
我们模型下载完毕之后

05:54.160 --> 05:56.360
我们这里就可以看到它已经下载完毕了

05:56.360 --> 05:57.600
而且我们在这里就可以

05:57.600 --> 05:59.640
方便的定位到你模型下载

05:59.640 --> 06:01.240
这个文件夹的一个位置

06:01.240 --> 06:01.960
也就是下载位置

06:01.960 --> 06:03.040
方便不以后进行删除

06:03.040 --> 06:04.280
如果说你这个模型

06:04.280 --> 06:05.320
你后面不想用了

06:05.320 --> 06:05.920
想要删除了

06:05.920 --> 06:07.920
你直接这里点击Delete就可以了

06:07.920 --> 06:09.680
我们测试一下ECB

06:09.680 --> 06:11.440
我们看看左边这几个Tab栏

06:11.440 --> 06:12.160
我们如何使用

06:12.160 --> 06:13.480
比如说ask image

06:13.480 --> 06:14.440
这么说我们点击来之后

06:14.440 --> 06:16.560
它会load这个模型进行一个加载

06:16.560 --> 06:18.520
这个是针对一些模型的配置

06:18.520 --> 06:20.720
默认我们就选择一个GPU

06:20.720 --> 06:22.120
是否需要开启思考

06:22.120 --> 06:23.920
我这里就不开启思考了

06:23.920 --> 06:25.200
我们点击Cancel

06:25.200 --> 06:27.440
这里选择你聊天的一个历史记录

06:27.440 --> 06:29.600
你这里可以看到你之前的历史记录

06:29.600 --> 06:30.080
好

06:30.080 --> 06:31.200
我们在这里

06:31.200 --> 06:32.280
它是写的很清楚

06:32.280 --> 06:32.560
是吧

06:32.560 --> 06:33.280
ask image

06:33.280 --> 06:33.680
按照的时候

06:33.680 --> 06:35.320
它这里要支持我们图片的访问

06:35.320 --> 06:37.800
我正在我本地电脑上下载了一个图片

06:37.800 --> 06:38.760
我们选择这个image

06:38.760 --> 06:39.560
选择open

06:39.560 --> 06:42.640
那么这个图片是一个中文的内容

06:42.640 --> 06:45.040
我们看它图片的识别能力怎么样

06:45.040 --> 06:47.800
我问一下它图片上的内容

06:47.800 --> 06:49.320
我们回车

06:49.320 --> 06:49.640
好

06:49.640 --> 06:50.560
它现在正在

06:50.560 --> 06:51.360
你看

06:51.360 --> 06:53.840
基本上来说它速度还是非常快的

06:53.840 --> 06:56.120
我的内存是32G的

06:56.120 --> 06:56.840
我们可以看到

06:56.840 --> 06:59.200
基本上它的token速度还是非常快的

06:59.200 --> 07:01.560
而且这张我们通过它输出

07:01.560 --> 07:04.040
我们一看到它输出的图片上的内容

07:04.040 --> 07:06.440
一般还是比较准确的

07:06.440 --> 07:07.760
而且是一个繁体字

07:07.760 --> 07:09.160
它都识别出来的

07:09.160 --> 07:10.280
比如左上角的人物

07:10.280 --> 07:12.520
左下方的人物

07:12.520 --> 07:16.040
看一读的中文的文言文学习教材

07:16.040 --> 07:16.680
我们看一下

07:16.680 --> 07:18.040
是不是没有任何问题

07:18.040 --> 07:19.800
而且这个图片还比较模糊

07:19.800 --> 07:21.400
它这里都已经识别出来了

07:21.400 --> 07:23.880
那么这个模型的才是14B的

07:23.880 --> 07:26.200
它的模型能力就达到了这么强大

07:26.200 --> 07:27.440
原来将文言文识别的

07:27.440 --> 07:29.120
就基本来说很厉害了

07:29.120 --> 07:30.560
观看第二个

07:30.560 --> 07:32.440
就是它的一个音频能力

07:32.440 --> 07:33.640
我们还是用14P

07:33.640 --> 07:35.240
它这里支持我们一个audio

07:35.240 --> 07:36.720
audio这里我们选择一个

07:36.720 --> 07:38.040
比如说你可以选择文本

07:38.040 --> 07:39.320
你也可以选择一个

07:39.320 --> 07:41.480
比如说你有这种音频文件

07:41.480 --> 07:43.320
其实音频文件就可以针对我们

07:43.320 --> 07:43.720
怎么说

07:43.720 --> 07:45.840
文语音转字幕了

07:45.840 --> 07:47.840
这个就可以跑你本地的

07:47.840 --> 07:49.200
语音转字幕的功能了

07:49.200 --> 07:50.560
我们这里选择一个

07:50.560 --> 07:51.400
record audio

07:51.400 --> 07:52.360
我们就写在这里

07:52.360 --> 07:52.760
好

07:52.760 --> 07:54.000
我们点这里了

07:54.000 --> 07:54.840
我们麦克风

07:54.840 --> 07:57.000
你好我现在后面说的话

07:57.000 --> 08:00.120
请帮我转译成一个中文

08:00.120 --> 08:02.840
我是稿经理稿基邻居

08:02.840 --> 08:04.600
欢迎点注关赞

08:04.600 --> 08:06.080
好我们点在点击发送

08:06.080 --> 08:06.840
好

08:06.840 --> 08:08.080
后面有几句话说的

08:08.080 --> 08:09.120
可能不太清楚你看

08:09.120 --> 08:11.200
也就说证明它确实可以

08:11.200 --> 08:14.280
进行一个译文的翻译

08:14.280 --> 08:15.760
而且还没看吗

08:15.760 --> 08:17.800
很高兴是各位欢迎点赞

08:17.800 --> 08:19.000
关注对不对

08:19.000 --> 08:21.320
也说这个也可以用字幕的一些翻译

08:21.320 --> 08:22.840
本地的一个字幕翻译

08:22.840 --> 08:24.280
应该还是可以的

08:24.280 --> 08:26.680
也就是音频转字幕的功能也是可以的

08:26.680 --> 08:27.240
那么

08:27.240 --> 08:28.680
AI chart就不给大家测试了

08:28.680 --> 08:30.520
AI chart正常的聊天的功能

08:30.520 --> 08:31.560
多毛泰的功能

08:31.560 --> 08:32.600
那么还有一个就是

08:32.600 --> 08:33.560
Agent skill

08:33.560 --> 08:34.960
也就是说它调用一些

08:34.960 --> 08:35.760
skill的功能

08:35.760 --> 08:36.480
我们点这里

08:36.480 --> 08:38.120
我们可以看它内置的哪些skill

08:38.120 --> 08:39.880
我们可以看内置的一些

08:39.880 --> 08:40.600
有什么

08:40.600 --> 08:41.160
kircode

08:41.160 --> 08:42.440
识别二维码

08:42.440 --> 08:42.920
对不对

08:42.920 --> 08:43.800
还有一些什么

08:43.800 --> 08:44.360
Catalina

08:44.360 --> 08:45.160
创建日历

08:45.160 --> 08:46.120
等等这些东西

08:46.120 --> 08:47.960
当然这里我就用还有什么

08:47.960 --> 08:49.240
查询维基百科

08:49.240 --> 08:49.560
对不对

08:49.560 --> 08:50.840
我就使用维基百科

08:50.840 --> 08:51.800
比如说这里怎么使用

08:51.800 --> 08:53.560
你就是通过关键字就可以了

08:53.560 --> 08:54.280
比如说

08:54.840 --> 08:59.080
在维基百科上查询一下成龙

09:00.200 --> 09:00.680
好

09:00.680 --> 09:01.720
成龙

09:02.520 --> 09:03.480
我们回撤

09:03.480 --> 09:05.640
它这个时候应该会去通过

09:05.640 --> 09:07.240
调用skill去查询

09:07.240 --> 09:09.480
我们的一个维基百科

09:09.480 --> 09:11.320
并且返回维基百科里面

09:11.320 --> 09:12.360
所给它的信息

09:12.360 --> 09:14.360
我们这里选择一个

09:14.360 --> 09:15.160
再等一会儿

09:15.160 --> 09:16.000
这个弹窗会弹出

09:16.000 --> 09:16.920
朋友们可以看到

09:16.920 --> 09:18.960
它现在正在调用我们

09:18.960 --> 09:20.120
Python的一些功能

09:20.120 --> 09:21.000
我们点击cancel

09:21.000 --> 09:21.840
它查出来了

09:21.840 --> 09:23.160
但是是英文的

09:23.160 --> 09:24.040
我们现在中文

09:24.040 --> 09:24.840
使用

09:27.640 --> 09:28.680
中文回答

09:28.680 --> 09:29.400
好

09:29.400 --> 09:30.600
我们让它做中文回答

09:30.600 --> 09:31.600
再问一下

09:31.600 --> 09:32.040
好

09:32.040 --> 09:33.840
它这里不知道为什么

09:33.840 --> 09:35.880
Python环境调用失败了

09:35.880 --> 09:37.560
但是它基于它自己的一个

09:37.560 --> 09:39.280
知识库进行回答了

09:39.280 --> 09:41.160
这个可能是它软件的一些bug

09:41.160 --> 09:42.800
但是它可以触发这些skill

09:42.800 --> 09:44.000
而是没有问题的

09:45.200 --> 09:45.960
整体来说

09:45.960 --> 09:46.840
它这个模型能力

09:46.840 --> 09:47.600
还是非常强大

09:47.600 --> 09:49.840
而且这里只是使用那么一个14B

09:49.840 --> 09:52.000
如果说你换成12B的话

09:52.880 --> 09:55.080
整体来说还是非常的不错的

09:55.080 --> 09:55.400
好

09:55.400 --> 09:56.800
今天就给大家简单分享一下

09:56.800 --> 09:58.840
我们Google AI Android Gallery

09:58.840 --> 09:59.520
这么一个

09:59.520 --> 10:01.040
在我们一个MacOS

10:01.040 --> 10:02.920
运行的一个简单的测试

10:02.920 --> 10:04.280
如果大家有什么疑问

10:04.280 --> 10:05.760
欢迎在视频先方给我留言

10:05.760 --> 10:06.320
谢谢