全球主机交流论坛备用站

 找回密码
 立即注册

QQ登录

只需一步,快速开始

全球云38元起免备案V2EX搬瓦工VPS
SEO查询超级PING网站测速
Virmach特价鸡乌云漏洞吾爱破解
123
返回列表 发新帖
楼主: lonefly

deepseek怎么看怎么像是当年的砂纸磨出来的芯片梗

[复制链接]

5

主题

25

回帖

115

积分

注册会员

Rank: 2

积分
115
发表于 2025-2-18 07:08:05 | 显示全部楼层
20230417
笑嘻了,宁这砂纸论是拿pr循环灵车的破母鸡CPU搓出来的吧?但凡抢过一回甲骨文arm都不会把分布式训练和五金店diy混成浆糊嗷!建议宁把A100改造成角磨机,反正对宁这种脑回路降级到php5.2的mjj来说,nvlink和砂带传动也没区别
MJJ,你的签名掉了~~~
回复 支持 反对

使用道具 举报

268

主题

309

回帖

1600

积分

金牌会员

Rank: 6Rank: 6

积分
1600
发表于 2025-2-18 08:14:35 | 显示全部楼层
01801l 发表于 2025-2-18 08:24
你们1450能不能先了解一下再开喷,论文也给你了,训练方法也给你了,结果也给你了,你训不出来怪别人?另 ...

全世界谁都训练不出来,又不是我一个!我给你1万张GPU你照样也整不出来!
论文那些虚头八脑的玩意,和金三胖为你指明了前进方向差不多!

最重要的是:他是不是真按照论文弄出来的,你都不知道!
全世界谁都没有重现过一个R1, 当然有不少在尝试,全是通过逆向猜测在做尝试!
MJJ,你的签名掉了~~~
回复 支持 反对

使用道具 举报

0

主题

1

回帖

4

积分

新手上路

Rank: 1

积分
4
发表于 2025-2-18 08:11:34 | 显示全部楼层
脑瘫
显然deepseek是假新闻,世界上不存在deepseek这玩意 别的不知道,反正越南这边dk应该市场霸榜第一
MJJ,你的签名掉了~~~
回复 支持 反对

使用道具 举报

0

主题

40

回帖

150

积分

注册会员

Rank: 2

积分
150
发表于 2025-2-18 08:15:07 | 显示全部楼层
吊打华伪 发表于 2025-2-17 22:21
全世界谁都训练不出来,又不是我一个!我给你1万张GPU你照样也整不出来!
论文那些虚头八脑的玩意, ...

蒸馏出来的宝贝怎么能给你看?
MJJ,你的签名掉了~~~
回复 支持 反对

使用道具 举报

0

主题

32

回帖

86

积分

注册会员

Rank: 2

积分
86
发表于 2025-2-18 08:24:36 | 显示全部楼层
好了好了 台巴子说是什么就是什么吧!
MJJ,你的签名掉了~~~
回复 支持 反对

使用道具 举报

0

主题

1

回帖

4

积分

新手上路

Rank: 1

积分
4
发表于 2025-2-17 23:20:00 | 显示全部楼层
1450 台巴子现在都自带**了
MJJ,你的签名掉了~~~
回复 支持 反对

使用道具 举报

0

主题

980

回帖

2360

积分

金牌会员

Rank: 6Rank: 6

积分
2360
发表于 2025-2-18 08:38:22 | 显示全部楼层
你能说这话,就跟傻逼一样。
动点脑子,DS要是个垃圾,能引起这么大的动静? 抱脸上那么多模型,你见过哪个能火成这样?
你脑子了不行,看战线结果也不会看吗?
MJJ,你的签名掉了~~~
回复 支持 反对

使用道具 举报

4

主题

211

回帖

608

积分

高级会员

Rank: 4

积分
608
发表于 2025-2-18 08:47:01 | 显示全部楼层
是的,你说的对,deepseek r1是套壳的gpt o1
我们偷了openai的源码拿来给你开源了
MJJ,你的签名掉了~~~
回复 支持 反对

使用道具 举报

8

主题

637

回帖

1968

积分

金牌会员

Rank: 6Rank: 6

积分
1968
发表于 2025-2-18 09:04:35 | 显示全部楼层
01801l 发表于 2025-2-18 08:24
你们1450能不能先了解一下再开喷,论文也给你了,训练方法也给你了,结果也给你了,你训不出来怪别人?另 ...

他說的其實有道理,目前訓練數據集,數據集收集完整過程,模型訓練代碼,訓練參數都沒有公開,只給模型權重和推理代碼,其實跟開源一半差不多,不然怎麼那麼多人在嘗試寫訓練代碼。像你說的論文給了,訓練方法也給,很多閉源模型也有,在沒有訓練代碼情況,要完整復現難度,其實跟deepseek一樣,舉個例子,你看到食品上有標示配料表和營養成分,你就能做出一樣味道?
目前最多人關注復現就是Open-R1,最後能不能訓練出來不知道。deepseek宣稱低成本,其實說的是訓練一次過程的花費,要訓練幾次才能達到那水平未知,數據集收集的花費未知。不管在機器學習還是深度學習,數據集乾淨程度,其實很大程度影響模型性能,所以才有Garbage In, Garbage Out說法,這也是最多人想知道,到底是數據集乾淨造成影響,還是模型本身牛逼。
像deepseek會吐出chatgpt結果,所以有不少人懷疑是使用openai輸出進行學習,這就是目前最大爭議。我個人認為其實用了也沒關係,在論文說明就好,有些開源項目,其實也有註明。
就像我上面說的,很多人質疑模型本身其實不怎麼厲害,是靠學習別人輸出才有高指標。如果真是學習對方輸出造成優勢,在多數情況是很難超過對方模型,這也是蒸餾模型最常見缺陷。
不過我是滿看好deepseek,至少有開源模型權重,讓很多企業能直接用,至少對他們來說,根本不在乎訓練過程。
MJJ,你的签名掉了~~~
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

展开

QQ|Archiver|手机版|小黑屋|全球主机交流论坛备用站

GMT+8, 2025-4-29 15:51 , Processed in 0.055499 second(s), 24 queries , Gzip On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表