全球主机交流论坛备用站

 找回密码
 立即注册

QQ登录

只需一步,快速开始

全球云38元起免备案V2EX搬瓦工VPS
SEO查询超级PING网站测速
Virmach特价鸡乌云漏洞吾爱破解
查看: 235|回复: 16

开启核显跑AI后,显存大小不是问题了,32B都满足不了我了!

[复制链接]

268

主题

309

回帖

1600

积分

金牌会员

Rank: 6Rank: 6

积分
1600
发表于 2025-4-12 11:45:57 | 显示全部楼层 |阅读模式
20230417
跑个20G的模型,都是家常便饭

以前8G显卡 只能跑个6G的模型,再大就用内存了,速度就和核显没区别了。

MJJ,你的签名掉了~~~
回复

使用道具 举报

381

主题

1942

回帖

6263

积分

论坛元老

Rank: 8Rank: 8

积分
6263
发表于 2025-4-12 12:18:22 | 显示全部楼层
有教程吗
MJJ,你的签名掉了~~~
回复 支持 反对

使用道具 举报

18

主题

299

回帖

934

积分

高级会员

Rank: 4

积分
934
发表于 2025-4-12 12:31:57 | 显示全部楼层
恩,知道你动作慢了
MJJ,你的签名掉了~~~
回复 支持 反对

使用道具 举报

17

主题

93

回帖

327

积分

中级会员

Rank: 3Rank: 3

积分
327
发表于 2025-4-12 13:55:29 | 显示全部楼层
同求教程。
不过我试P106-100 6G显卡+48G内存也可以跑32B啊,只是很慢
MJJ,你的签名掉了~~~
回复 支持 反对

使用道具 举报

46

主题

470

回帖

1386

积分

金牌会员

Rank: 6Rank: 6

积分
1386
发表于 2025-4-12 13:57:09 | 显示全部楼层
楼主是只有核显,还是有独显再开核显?
MJJ,你的签名掉了~~~
回复 支持 反对

使用道具 举报

10

主题

326

回帖

1154

积分

金牌会员

Rank: 6Rank: 6

积分
1154
发表于 2025-4-12 14:25:06 | 显示全部楼层
780m?  intel的核显好像不能共享内存
MJJ,你的签名掉了~~~
回复 支持 反对

使用道具 举报

268

主题

309

回帖

1600

积分

金牌会员

Rank: 6Rank: 6

积分
1600
 楼主| 发表于 2025-4-12 14:28:50 | 显示全部楼层
杜甫 发表于 2025-4-12 13:55
同求教程。
不过我试P106-100 6G显卡+48G内存也可以跑32B啊,只是很慢

你比我还慢。。。准确的说慢多了。
pcie, 你矿卡才1.1*16,你理论值才4GB/s  比我慢多了。双通道内存带宽理论值有51.2GB/s, 实际算36GB。 跑24G大小的模型,我的速度有36/24=1.5token/s  你最多0.3.  --------当然你要是跑小模型,几GB的那种,你的速度就吊打我了。

我也有矿卡,7B Q4的模型,核显只有5个token, 矿卡有好几十
MJJ,你的签名掉了~~~
回复 支持 反对

使用道具 举报

268

主题

309

回帖

1600

积分

金牌会员

Rank: 6Rank: 6

积分
1600
 楼主| 发表于 2025-4-12 13:55:00 | 显示全部楼层
本帖最后由 吊打华伪 于 2025-4-12 14:36 编辑
shc 发表于 2025-4-12 13:57
楼主是只有核显,还是有独显再开核显?


香菇肥牛,有印象    记得以前看过你博客的一篇教程。

没有独显,纯核显。

你可能不了解,现代AI构架都已经支持异步了,就是总时间=计算和传输的最大,而不是二者之和。独显算力比核显强再多,只要传输的时间多,算力就毫无意义。
MJJ,你的签名掉了~~~
回复 支持 反对

使用道具 举报

17

主题

93

回帖

327

积分

中级会员

Rank: 3Rank: 3

积分
327
发表于 2025-4-12 14:35:25 | 显示全部楼层
吊打华伪 发表于 2025-4-12 14:28
你比我还慢。。。准确的说慢多了。
pcie, 你矿卡才1.1*16,你理论值才4GB/s  比我慢多了。双通道内存带宽 ...

刚试了下,
跑deepseek-coder-v2 16B 这个模型
速度有9token/秒,不知道把P106拔下来后有多少
MJJ,你的签名掉了~~~
回复 支持 反对

使用道具 举报

17

主题

93

回帖

327

积分

中级会员

Rank: 3Rank: 3

积分
327
发表于 2025-4-12 13:57:00 | 显示全部楼层
杜甫 发表于 2025-4-12 14:43
刚试了下,
跑deepseek-coder-v2 16B 这个模型
速度有9token/秒,不知道把P106拔下来后有多少

你跑的时最小的吧,几GB的那种。 单凡你跑个10GB的, 就不可能有这个速度。

理论最好的情况10-6=4GB要传输。 至少1秒。

--------------以上针对密集模型,比如qwq32和llama以及deepseek微调的那些。---------------

啊,想起来了, 你这个deepseek原生是moe模型,每次加载一小部分。所以速度还行。但是仅限于moe的才有这个速度,其他的绝大部分模型都不行。
杜甫 发表于 2025-4-12 14:43
刚试了下,
跑deepseek-coder-v2 16B 这个模型
速度有9token/秒,不知道把P106拔下来后有多少

我之前用这个https://hostloc.com/thread-1399611-1-1.html
生成文章的效果不是一般的差。

不知道你这个coder版本质量怎么样。
MJJ,你的签名掉了~~~
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

展开

QQ|Archiver|手机版|小黑屋|全球主机交流论坛备用站

GMT+8, 2025-4-20 07:40 , Processed in 0.066643 second(s), 26 queries , Gzip On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表