深度求索(DeepSeek)的v3模型简介

作者:国华B  于 2025-1-27 22:56 发表于 最热闹的华人社交网络--贝壳村

通用分类:政经军事|已有12评论

深度求索(DeepSeek)最新r1模型是Davos经济论坛的热门话题,也是今天(星期一)美国股市科技股大幅跳水的原因。笔者月初的一篇博文曾介绍过深度求索的DeepSeekv3模型,对感兴趣读者了解DeepSeek的背景有一定帮助。以下为题名“普京、施密特和雷蒙多瞄准中国AI”的博文原文。 ------

2025年第一天,克里姆林宫网站刊载了俄罗斯总统普京的指示,要俄罗斯政府和最大银行“确保与中华人民共和国在人工智能领域的技术研发方面进一步合作。” (下图 KAOHOOINTERNATIONAL)换句话说,普京要求俄政府和最大的联邦储蓄银行通过“合作”来习中国大陆在AI领域的专长。估计普京的这一指示会让许多俄罗斯人,尤其是精英阶层人士汗颜。毕竟,联邦储蓄银行在俄罗斯人工智能领域处于领先位置。更重要的是,中华人民共和国自建国伊始,便是俄罗斯的前身苏联的小老弟,一直接受苏联的援助,在苏联的支持下发展壮大的。曾经有这么一句流传甚广的话“苏联的今天,就是我们(中国)的明天。”就在30多年前的20世纪90年代,俄罗斯的战斗机和驱逐舰还被中国军迷视为需要追赶的先进大杀器。要知道自沙俄以来,俄罗斯、前苏联和接替苏联的俄罗斯的人民 – 从普通老百姓到社会精英乃至皇亲国戚 – 都对自己生产的物品充满信心,除非同类物品来自西边:西欧和美国。可现在得屈尊向昔日压根儿瞧不上眼的小弟学习,你让曾经的老大哥情何以堪?但形势比人强。自己技不如人,美国西方又进行制裁,转向中国对俄罗斯来说不失为一项最好的选择。普京能如此谦恭地要俄政府和领先的企业学习中国大陆的人工智能还有一个原因,那就是美国人都承认中国大陆的AI优秀,且对中国人在AI领域取得突飞猛进的发展感到忌惮。

笔者曾在不久前讨论美中人工智能竞争的博文中提到,前谷歌董事长和首席执行官、前人工智能国家安全委员会主席施密特(Eric Schmidt)在哈佛大学和电视专访中均对中国大陆AI的迅猛发展势头大喊“狼来了。” 2024年12月下旬接受ABC的斯蒂芬诺普洛斯(George Stephanopoulos)采访时,施密特更警告美国政府和AI业界中国人正以“惊人的速度”赶上美国的领先AI技术。

施密特有理由对中国大陆在人工智能领域的进步感到压力 – 大陆AI公司深度求索2024年12月26日新发布的DeepSeek 3 大语言模型的性能与其竞争对手相当甚至更胜一筹,但成本更低,而且免费使用。CNBC的技术平台专题主持博萨(Deirdre Bosa 下图 CNBC)报道说,

基准测试结果显示DeepSeek 3 大语言模型与美国同类facebook的Llama3.1、OpenAI的ChatGPT4和Anthropic的Claude 3.5 Sonnet的表现难分伯仲,而DeepSeek 3在某些地方还胜过Llama3.1和ChatGPT4,如逻辑推理、数学能力、代码生成及软件工程能力等的细分领域(下图 huxiu)。

这里有必要进一步分析DeepSeek 3.0大语言模型的性能,以更好理解中国大陆在AI突破的重大意义。通过下面这张测试结果图表,可以发现DeepSeek 3.0(蓝柱)与Qwen2.5大模型(阿里巴巴的通义千问2.5)、Anthropic的Claude 3.5 Sonnet大模型、Meta的Llama3.1大模型、及OpenAI的ChatGPT4大模型之间的差距(下图 21jingji)。除了在英文(English)的6个子项,代码(Code)的2个子项和中文(Chinese)的1个子项外,DeepSeek 3.0在执行大多数任务时的表现都要优于其它大模型。当DeepSeek 3.0执行数学和程序编码时,它的表现更为突出,有时可以说是“遥遥领先”。如在执行数学任务时,无论是美国数学邀请赛(AIME 2024, MATH)和数学基准500题(MATH-500),还是中国北方数学奥林匹克(CNMO 2024),DeepSeek-V3都大幅超过了其他所有开源(Llama3.1和Qwen2.5)和闭源模型(Claude 3.5 Sonnet和ChatGPT4)。在编码测试中,DeepSeek 3.0也在7个子项中胜出5项(三哥要着急了,因为许多外包给三哥的基本编码任务,现在可由AI代行,且既快又省还清晰准确)。

尤其难能可贵的是,DeepSeek 3取得如此令人咂舌的突破,仅用了不到600万美元(官方文件说是557.6万美元),使用的是英伟达特供中国大陆的H800阉割版GPU芯片(下图 CNBC)。而Llama3.1和ChatGPT4则耗资上亿乃至几亿美元,使用的更是英伟达(当时)最强芯片。就这样,DeepSeek 3硬是仅用了2048块H800 GPU芯片,耗时2个月总计278万GPU小时取得了对其它主流大模型的赶超。与此相对照,Meta则用了3080万GPU完成对Llama3.1的训练。由于成本低,DeepSeek 3的使用费用也属最低之列 – 每100万Token(字)0.48美元,远低于主流大模型,质量却不相伯仲。DeepSeek 3这是要将AI的应用做成白菜价啊。英伟达对其GPU芯片有了危机感,因为DeepSeek 3通过数据和算法的优化,而非增加硬件算力(GPU芯片)的投入,就实现了较好的模型效果。当然,DeepSeek 3也有一些短板,如比其他主流大模型的响应时间要慢(约0.9秒)。DeepSeek 3的一个主要短板就是还不能创作图片,制作PPT等。此外,DeepSeek 3的上下文窗口为13万Token(字),要小于平均水平。这意味着当13万Token(字)用完时,用户得重新开启一个窗口,继续中段的工作。更通俗的说,一段问答对话或一项编码任务在进行中忽然中断了,因为13万Token(字)用完已耗尽。于是,得重新开启窗口以便完成对话或编码任务。盘古智库学术委员、未来实验室首席专家胡延平认为,DeepSeek 3体现了“非常中国”的工程能力,通过穿小路走捷径实现了追赶,但尚无底层原理创新。好吧,咱接着说说这与雷蒙多女士有何关系。

正是看到中国大陆在美国的严密封锁制裁下取得的惊人突破,对华科技制裁鹰派代表、即将卸任的商务部长雷蒙多(Gina Raimondo)对《华尔街日报》说,美国对中国大陆的半导体芯片封禁是“徒劳的”,出口管制只能暂时降低中国赶超美国的速度。(下图 X)她(雷蒙多)终于发现,“打败中国的唯一方法就是保持领先,…… 我们必须跑得更快,创新超逾他们。”

不在其位,不谋其政。在行将解甲归田之际,其言也善啊。笔者非常同意雷蒙多部长的话,并且在过去发出的多篇博文中均提倡美国高科技企业应当走良性循环的路 – 将已有的高科技产品高价出口到别的国家,再用获得的丰厚利润研发出更新更好的产品。美国得靠自身的真本事,靠不断创新来保持对包括中国大陆在内的世界领先。不思进取贪图享受生活又希望别人永远安于贫困落后,想要不付出努力或偷奸耍滑的躺赢,或许短时间内能行。但时间长了,乌龟都能超兔子,更别说本身就速度不慢、每年毕业那么多STEM专业的中国大陆了。为了美好生活,这些理工生的卷可是名闻遐迩。中国《易经》里有句话是这么说的:“天行健,君子以自强不息;地势坤,君子以厚德载物”。与中国大陆过招4年,咱雷蒙多部长算是悟透了。嗨,政府应当让我进入智囊团,或者某智库应收我入库 – 咱几年前就提出了商务部长刚刚认清的形势。(smile)

参考资料

胡延平. (2025). 胡延平:为什么DeepSeek-V3的火爆不宜过高评价? 新浪财经. 链接 https://finance.sina.cn/stock/ggyj/2025-01-02/detail-inecqsvs9677357.d.html?oid=%E7%9A%87%E5%86%A0%E7%99%BB3%E7%AE%A1%E7%90%86%E7%B3%BB%E7%BB%9F%E2%86%92TG%E5%BE%AE%E4%BF%A1hga1199%E2%86%925rIn&vt=4

Haski, P. (2025). DeepSeek 3: How China's New AI Is Challenging U.S. Tech Dominance. WORLDCRUNCH. 链接 https://worldcrunch.com/tech-science/deepseek-chatgpt-china-response 

Mehrara, M. (2025). China and Russia forge major tech collaboration to challenge US. Newsweek. 链接 https://www.newsweek.com/china-russia-forge-major-tech-collaboration-challenge-us-2008502 

Mowshowitz, Z. (2025). DeepSeek v3: The Six million dollar model. thezvi. 链接 https://thezvi.substack.com/p/deekseek-v3-the-six-million-dollar 

Reuters. (2025). Putin orders Russian government and top bank to develop AI cooperation with China. 链接 https://www.reuters.com/technology/artificial-intelligence/putin-orders-russian-government-top-bank-develop-ai-cooperation-with-china-2025-01-01/ 


高兴

感动

同情

搞笑

难过

拍砖

支持

鲜花

发表评论 评论 (12 个评论)

1 回复 浮平 2025-1-28 00:00
【美国得靠自身的真本事,靠不断创新来保持对包括中国大陆在内的世界领先。不思进取贪图享受生活又希望别人永远安于贫困落后,想要不付出努力或偷奸耍滑的躺赢,或许短时间内能行。但时间长了,乌龟都能超兔子,更别说本身就速度不慢、每年毕业那么多STEM专业的中国大陆了。为了美好生活,这些理工生的卷可是名闻遐迩。中国《易经》里有句话是这么说的:“天行健,君子以自强不息;地势坤,君子以厚德载物”。与中国大陆过招4年,咱雷蒙多部长算是悟透了。】

中国科学家真了不起,祝贺!DeepSeek 加油啊,逻辑推理功能强大,尽快建立一致的是非善恶伦理道德言行底线判断依据,解决社会道德崩溃和贫富及各方面两级分化的社会矛盾,比如,现在的医药改革和持续的腐败问题,朝社会的平等公正,提升人权保障方向进步,帮助管理阶层事先分析出政策的利弊概率,减少误判和自相矛盾的错误,以及在国际上被道德批评的问题。 避免 AI 被集权者过于应用在收放自如控制民众自由,降低人权标准的方面,或者控制民众平等使用 AI 进行创新发明。

别光顾着和雷女士较劲儿。
1 回复 浮平 2025-1-28 00:48
AI 会带来一场价值观革命。政治至上 vs 人权至上。 前者是为等级观的特权阶层服务;后者是为平等观整体人性利益服务。也是在判断依据上主客观程度之别的方法革命, 人治与法治的根本区别。
2 回复 Wuming123 2025-1-28 01:00
浮平: 【美国得靠自身的真本事,靠不断创新来保持对包括中国大陆在内的世界领先。不思进取贪图享受生活又希望别人永远安于贫困落后,想要不付出努力或偷奸耍滑的躺赢,
我还以为你的账号被盗了,原来还是狗改不了吃X!Deepseek你也能扯到中国政治!
1 回复 浮平 2025-1-28 01:02
Wuming123: 我还以为你的账号被盗了,原来还是狗改不了吃X!Deepseek你也能扯到中国政治!
AI 会告诉你人身攻击是不道德的恶行。政治影响到每个人生活的方方面面,AI 的大数据模型更是建立在人的社会行为基础上,依然会影响到每个人生活的方方面面。但有文明政治与流氓政治之别,能认清这个区别就超越了政治领域而进入了哲学价值观应用的领域。

政治是与利益相关的领域,哲学是与政治方法相关的言行规范领域。马列毛的教育从小就混淆了这两个领域而进入哲政混合,德政混合的主观政治高于一切的降维洗脑空间。优秀的 AI 任务艰巨,得从这种混合混乱态逆向分类,不够优秀的 AI 同时也会面临被淘汰的风险。各自的思维方式更会被触动和推动,也可能会感觉被淘汰,依 IQ, EQ, AQ 的综合指数而定。

可以通过价值观一致的 ChatGPT 提升对政治和哲学领域区别的认知。
2 回复 rfw1972 2025-1-28 01:21
浮平: 【美国得靠自身的真本事,靠不断创新来保持对包括中国大陆在内的世界领先。不思进取贪图享受生活又希望别人永远安于贫困落后,想要不付出努力或偷奸耍滑的躺赢,
全世界的中国人都为中国的进步和发展高兴,以浮萍为代表的入籍美人抑郁焦虑愤懑
1 回复 浮平 2025-1-28 01:38
rfw1972: 全世界的中国人都为中国的进步和发展高兴,以浮萍为代表的入籍美人抑郁焦虑愤懑
任何人能表达真实的高兴都是好事,包括自嗨。

而不断采用变化马甲的手段,负面攻击贬低他人的逻辑理性观点,恰好表达出自身不自信的情绪和认知层次不够的 frustration。

玩弄小聪明,投机取巧,自私虚假的恶意政治动机和行为 ---- 将本人依据你长期攻击人的言论事实而提供给你参考的心理咨询内容中的语言抄搬几个字反过来凭空乱用,都反应出你自身的综合问题。

self-destructive behavior.

考取了重点大学,在业务上拼不过其他人,被淘汰之后不服气不平衡,想借助于集体主义和政治偏见来找到实现自我的价值得到尊重,但用的是损人害己的自毁方法,这样就会因为不道德的行为而更得不到尊重。只要动机是想损害他人的恶意,无论手段如何变换,都会大概率的产生负反馈效应。
2 回复 rfw1972 2025-1-28 01:53
浮平: 任何人能表达真实的高兴都是好事,包括自嗨。

而不断采用变化马甲的手段,负面攻击贬低他人的逻辑理性观点,恰好表达出自身不自信的情绪和认知层次不够的 frust
我说你吃屎了么,怎么又攻击你了泥
2 回复 浮平 2025-1-28 02:00
rfw1972: 我说你吃屎了么,怎么又攻击你了泥
你的言行反应出你长期损人利己的恶意动机和手段。你在想方设法死缠乱打,长期用人身攻击来针对言论者,毁坏他人,而不是理性文明的,依据事实和逻辑来分析讨论公事议题。这是文革余毒的行为。不要为了个人ego或者政治目的去败坏堕落自己的品德,那样你什么都得不到,即争夺不了话语权(网民都已经有了平等表达观点的权利,不需要争夺),即使你是大外宣的代理人,也得不到尊重,只会不断被本人批评教育,因为这是在文明社会。

当你脱掉马甲之后,露出你的真实身份时,你知道自己的言行哪些是出自恶意,故意攻击侮辱人,扭曲夸大事实的不道德,不应该的行为。不要利用马甲掩盖这种虚伪个人品质。
2 回复 七把叉Archie 2025-1-28 08:26
软硬件相辅相成,哪一方都不能太弱。中国优秀的软件工程人员,发挥聪明才智,将软件开发做到极致。但由此认为,中国将一骑绝尘,彻底超前,恐怕是过于乐观了。就如同一条高速公路,可以承载200公里车速的车辆(硬件),可是汽车最快只能跑120公里。那么需要发展汽车本身速度。而当汽车技术已经达到250公里,那么显然道路质量需要提高。美国只是托大,以为芯片够好就足够,忽略了语言的精简快捷,
回复 rfw1972 2025-1-28 20:57
浮平: 你的言行反应出你长期损人利己的恶意动机和手段。你在想方设法死缠乱打,长期用人身攻击来针对言论者,毁坏他人,而不是理性文明的,依据事实和逻辑来分析讨论公
你太夸张了吧,你总象个斗鸡反应出什么,死缠乱打的应该是你,不信往下看。
回复 浮平 2025-1-28 22:50
rfw1972: 你太夸张了吧,你总象个斗鸡反应出什么,死缠乱打的应该是你,不信往下看。
你不是科大理工男喜欢写诗吗,干嘛总在改行?

今天过春节了,原创打油诗 ----

新年到,凑热闹,
春联滚滚歌如潮,
饺子年年香喷喷,
文化传承世人晓。

原创对联:浅滩蛇舞添新奇   深海龙腾献大礼

祝你蛇年吉祥安康!
回复 rfw1972 2025-1-28 22:55
浮平: 你不是科大理工男喜欢写诗吗,干嘛总在改行?

今天过春节了,原创打油诗 ----

新年到,凑热闹,
春联滚滚歌如潮,
饺子年年香喷喷,
文化传承世人晓。

原创对
满满的正能量,你也新年快乐

facelist doodle 涂鸦板

您需要登录后才可以评论 登录 | 注册

关于本站 | 隐私政策 | 免责条款 | 版权声明 | 联络我们 | 刊登广告 | 转手机版 | APP下载

Copyright © 2001-2025 海外华人中文门户:倍可亲 (http://www.backchina.com) All Rights Reserved.

程序系统基于 Discuz! X3.1 商业版 优化 Discuz! © 2001-2013 Comsenz Inc. 更新:GMT+8, 2025-1-28 22:56

倍可亲服务器位于美国圣何塞、西雅图和达拉斯顶级数据中心,为更好服务全球网友特统一使用京港台时间

返回顶部