deepseek怎么看怎么像是当年的砂纸磨出来的芯片梗 - 第3页 - VPS综合讨论 - 全球主机交流论坛备用站

上药三品 发表于 2025-2-18 07:08:05

笑嘻了，宁这砂纸论是拿pr循环灵车的破母鸡CPU搓出来的吧？但凡抢过一回甲骨文arm都不会把分布式训练和五金店diy混成浆糊嗷！建议宁把A100改造成角磨机，反正对宁这种脑回路降级到php5.2的mjj来说，nvlink和砂带传动也没区别

吊打华伪 发表于 2025-2-18 08:14:35

registerDacoo 发表于 2025-2-18 08:11:34

脑瘫 
显然deepseek是假新闻，世界上不存在deepseek这玩意 <img src="https://hostloc.com/static/image/smiley/default/lol.gif" smilieid="12" border="0" alt="" /><img src="https://hostloc.com/static/image/smiley/default/lol.gif" smilieid="12" border="0" alt="" />别的不知道，反正越南这边dk应该市场霸榜第一

jinxin1967 发表于 2025-2-18 08:15:07

<div class="quote"><blockquote><a href="https://hostloc.com/forum.php?mod=redirect&goto=findpost&pid=16239979&ptid=1389847" target="_blank">吊打华伪发表于 2025-2-17 22:21</a> 
全世界谁都训练不出来，又不是我一个！我给你1万张GPU你照样也整不出来！ 
论文那些虚头八脑的玩意， ...</blockquote></div> 
蒸馏出来的宝贝怎么能给你看？

男人三十 发表于 2025-2-18 08:24:36

好了好了台巴子说是什么就是什么吧！

wywb610 发表于 2025-2-17 23:20:00

1450 台巴子现在都自带**了<img src="https://hostloc.com/static/image/smiley/default/lol.gif" smilieid="12" border="0" alt="" /><img src="https://hostloc.com/static/image/smiley/default/lol.gif" smilieid="12" border="0" alt="" /><img src="https://hostloc.com/static/image/smiley/default/lol.gif" smilieid="12" border="0" alt="" /><img src="https://hostloc.com/static/image/smiley/default/lol.gif" smilieid="12" border="0" alt="" /><img src="https://hostloc.com/static/image/smiley/default/lol.gif" smilieid="12" border="0" alt="" />

pykane 发表于 2025-2-18 08:38:22

你能说这话，就跟傻逼一样。 
动点脑子，DS要是个垃圾，能引起这么大的动静？抱脸上那么多模型，你见过哪个能火成这样？ 
你脑子了不行，看战线结果也不会看吗？

elgt 发表于 2025-2-18 08:47:01

是的，你说的对，deepseek r1是套壳的gpt o1 
我们偷了openai的源码拿来给你开源了

u104b230 发表于 2025-2-18 09:04:35

<div class="quote"><blockquote><a href="https://hostloc.com/forum.php?mod=redirect&goto=findpost&pid=16239284&ptid=1389847" target="_blank">01801l 发表于 2025-2-18 08:24</a> 
你们1450能不能先了解一下再开喷，论文也给你了，训练方法也给你了，结果也给你了，你训不出来怪别人？另 ...</blockquote></div> 
他說的其實有道理，目前訓練數據集，數據集收集完整過程，模型訓練代碼，訓練參數都沒有公開，只給模型權重和推理代碼，其實跟開源一半差不多，不然怎麼那麼多人在嘗試寫訓練代碼。像你說的論文給了，訓練方法也給，很多閉源模型也有，在沒有訓練代碼情況，要完整復現難度，其實跟deepseek一樣，舉個例子，你看到食品上有標示配料表和營養成分，你就能做出一樣味道？ 
目前最多人關注復現就是Open-R1，最後能不能訓練出來不知道。deepseek宣稱低成本，其實說的是訓練一次過程的花費，要訓練幾次才能達到那水平未知，數據集收集的花費未知。不管在機器學習還是深度學習，數據集乾淨程度，其實很大程度影響模型性能，所以才有Garbage In, Garbage Out說法，這也是最多人想知道，到底是數據集乾淨造成影響，還是模型本身牛逼。 
像deepseek會吐出chatgpt結果，所以有不少人懷疑是使用openai輸出進行學習，這就是目前最大爭議。我個人認為其實用了也沒關係，在論文說明就好，有些開源項目，其實也有註明。 
就像我上面說的，很多人質疑模型本身其實不怎麼厲害，是靠學習別人輸出才有高指標。如果真是學習對方輸出造成優勢，在多數情況是很難超過對方模型，這也是蒸餾模型最常見缺陷。 
不過我是滿看好deepseek，至少有開源模型權重，讓很多企業能直接用，至少對他們來說，根本不在乎訓練過程。

页: 1 2 [3]

全球主机交流论坛备用站's Archiver