- 放荡警官梅甘·霍尔 [2023/01]
- 中共五位有潜力的70后接班人 [2022/10]
- 华为最新极紫外光刻(EUV)技术专利泛涟漪 [2023/01]
- 2023年全球最佳10国 [2023/09]
- 盖伊辞职的后面 [2024/01]
- 第三次世界大战导火索 [2024/06]
- 大陆疫苗管用吗? [2023/01]
- 美国名品,中国制造 [2023/11]
- 一场攸关美、中国运的战争 [2023/07]
- 令拜登总统棘手的川普案 [2023/09]
- 25岁的华裔亿万富翁 [2022/11]
- 世界最具前瞻性10国 (上) [2022/09]
- 你的收入达标吗? [2023/09]
- 华为芯片突破的意义 [2023/10]
- 华为新手机发布的意义 [2023/09]
- 华为是如何做到的? [2023/10]
- 专家学者看大陆经济超美 (图 smh) [2023/12]
- 大陆放软身段的后面 [2023/12]
- 一带一路与债务陷阱 [2023/10]
- 中国实体经济危机 [2024/09]
- 台海真正可信的威慑 [2024/01]
- 俄乌和加沙战争与美中关系 [2023/11]
- 川普总统为何胜选 [2024/11]
- 人工智能竞赛管控 [2023/10]
- 创新基金会:大陆创新能力正超美 [2023/03]
对DeepSeek的指控
在DeepSeek发布其惊世骇俗的DeepSeek v3, 尤其是其1月20日发布的r1模型引发美国股市狂泻后,美国朝野政治和科技界开始了“反思”。回溯DeepSeek的发展史,人们似乎发现了猫腻(下图 digit)。
微软和OpenAI调查DeepSeek是否从ChatGPT非法获取数据(OPENTOOLs/Yahoo)。偏保守的《纽约邮报》(New York Post)在昨天(1月29日)的一篇题为“OpenAI says it has proof DeepSeek used its technology to develop its AI model”的文章中说,特朗普总统的人工智能和加密货币顾问萨克斯(David Sacks)认为,DeepSeek可能窃取了OpenAI的技术(下图 threads)。
萨克斯在接受福克斯新闻采访时表示:“人工智能中有一种技术(即蒸馏distillation 下图 yahoo),一个模型通过复制其知识从另一个模型中学习。有强有力的证据表明,DeepSeek对OpenAI的模型做到了这一点。”但《纽约邮报》注意到萨克斯并未“没有提供具体的证据”。 同时,《纽约邮报》还指出,“专家表示,中国和美国的人工智能初创企业经常使用已建立的人工智能模型的结果来改进自己的系统。”(Experts say it is common for AI start-ups in China and the US to use results from established AI models to improve their own systems.)
AI中的”fair use”
谷歌发明了变压器(transformer)架构,OpenAI在transformer的基础上将其扩展了(scale it up),成就了后来蜚声全球的ChatGPT语言大模型。但是,《纽约时报》起诉OpenAI和微软未经许可使用《纽约时报》文章来训练大语言模型(下图 RubyMediaGroup)。
《纽约时报》的核心指控是,OpenAI在训练模型期间未经许可和授权使用和复制(数百万)《纽约时报》作品,作为大语言模型的训练材料,侵犯了版权。《纽约时报》列举的例子中包括一篇发表于2012年关于苹果全球产业链的文章。ChatGPT几乎是将《纽约时报》的文章一字不漏的生成出来。《纽约时报》认为,OpenAI的行为对高质量新闻报道构成重大威胁 (下图 SBSTamil)。
OpenAI的律师在答辩时称,用于其训练人工智能机器人的大量数据受到“合理使用”(fair use)规则的保护。所谓“fair use”是美国法律中的一项原则,允许将受版权保护的材料用于教育、研究或评注等目的。OpenAI的最大投资者微软的律师提出,OpenAI采用《纽约时报》的新闻文本并不违法,因为版权法对大语言模型(LLM)的适用性应该比照录像机(VCR),或复印机、个人电脑、互联网、搜索引擎或钢琴。目前《纽约时报》与OpenAI/微软的官司仍在继续当中。另谷歌的Gemini大语言模型也是用百度的文心一言大模型数据来训练其中文的。在2023年12月18日的一次对Gemini-Pro的测试中,有人问它“你是谁”,Gemini-Pro答称:我是百度文心大模型。
由总部位于纽约市的Recurrent Ventures媒体公司出版的电子刊物Futurism在1月29日一期中有一篇题为“OpenAI hit with wave of ockery for crying that someone stole its work without permission to build a competiting product”( OpenAI因有人未经许可窃取其作品以构建竞争产品而受到嘲笑 下图 Futurism)。
文中有一段引用人工智能评论家Ed Zitron的这么一段话:“OpenAI这家靠窃取整个互联网而成立的公司正在哭泣,因为DeepSeek可能已经接受了ChatGPT的输出训练。”文章还引用了另一位Bluesky用户的更为激进的观点:“如果你窃取了全世界所有的艺术,来制造出欺骗性和不能进行算术运算的技术,并为此收取200美元/每月的费用。而有人窃取了你的技术,然后免费提供这项技术。也许,你并非真正的受害者。”人工智能评论家Gary Marcus在他的推特X上表示, OpenAI可能也未经许可窃取了YouTube、纽约时报以及无数艺术家和作家的产权。是不是有点尴尬?(下图 CHANNEL)
笔者看来,DeepSeek与OpenAI现在是一损俱损,一荣俱荣的关系。如果OpenAI输了与《纽约时报》的官司,DeepSeek的“合理使用”也就不成立,我是说如果有确凿证据证明DeepSeek在训练中蒸馏了ChatGPT的数据的话。如果OpenAI的“合理使用”得到法官的支持,那OpenAI/Microsoft没有理由只许州官放火,不让百姓点灯。己所不欲,勿施于人。OpenAI CEO曾经说过,如果没有剽窃受版权保护的材料,就不会有OpenAI。现在OpenAI已经闭源,这话是否对别的开源公司更合适呢?你说呢?
参考资料
巴比特. (2024). AI new horizon | daily must-read: Gemini revealed that it used Baidu Wenxin Yiyuan for Chinese language training. AiCoin. 链接 https://www.aicoin.com/en/article/380285
Allyn, B. (2025). 'The New York Times' takes OpenAI to court. ChatGPT's future could be on the line. npr radio. 链接 https://www.npr.org/2025/01/14/nx-s1-5258952/new-york-times-openai-microsoft