PEPE0.00 -15.32%
SUI3.75 -9.01%
TON4.93 -2.53%
TRX0.24 -3.13%
DOGE0.32 -8.04%
XRP2.94 -5.83%
SOL230.45 -9.83%
BNB664.41 -2.83%
ETH3092.49 -6.76%
BTC100047.70 -4.70%
PEPE0.00 -15.32%
SUI3.75 -9.01%
TON4.93 -2.53%
TRX0.24 -3.13%
DOGE0.32 -8.04%
XRP2.94 -5.83%
SOL230.45 -9.83%
BNB664.41 -2.83%
ETH3092.49 -6.76%
BTC100047.70 -4.70%
ETH Gas14.42 Gwei
贪婪 71
作者:Carl Franzen
编译:深潮 TechFlow
就在几天前,只有最专业的极客们(作为其中一员,我这样说)才听说过 DeepSeek,这是一家中国 AI 公司,是同样具有独特名字的 High-Flyer Capital Management(一家于 2015 年成立的量化分析公司)的子公司。然而在过去的几天里,它可能成为了硅谷最受关注的公司。
这主要归功于 DeepSeek-R1 的发布,这是一个新的大语言模型(LLM),它能够进行类似于 OpenAI 当前最佳模型 o1 的“推理”——在回答困难问题和解决复杂问题时需要花费数秒或数分钟,通过步骤式或“思维链”的方式对自身的分析进行反思。
不仅如此,DeepSeek-R1 在各种第三方基准测试(用于测量 AI 在各种主题上回答问题的性能的测试)中的得分与 OpenAI 的 o1 持平或更高,而且据报道其训练成本仅为约 500 万美元,使用的图形处理器(GPU)数量也远远少于美国(OpenAI 的大本营)严格禁运的数量。
但与 o1 不同的是,o1 只向付费的 ChatGPT Plus 级别订阅者(每月 20 美元)和更高级别的订阅者(如每月 200 美元的 Pro 级别)开放,而 DeepSeek-R1 是作为完全开源模型发布的,这也解释了为什么它迅速攀升至 AI 代码共享社区 Hugging Face 最受欢迎和最活跃模型的榜首。
而且,由于它是完全开源的,人们已经对该模型进行了多种微调和训练,以适应不同的特定任务,比如使其小到可以在移动设备上运行,或者与其他开源模型结合使用。即使你想将其用于开发目的,DeepSeek 的 API 成本也比 OpenAI 的同等 o1 模型低 90%以上。
最令人印象深刻的是,你甚至不需要是软件工程师就能使用它:DeepSeek 为美国用户提供了免费的网站和移动应用,其 R1 驱动的聊天机器人界面与 OpenAI 的 ChatGPT 非常相似。不过,DeepSeek 再次通过将这个强大的推理模型与网络搜索连接起来超越了 OpenAI——这是OpenAI目前还没有实现的(网络搜索目前只在功能较弱的GPT系列模型上可用)。
考虑到 OpenAI 最初致力于为大众民主化 AI 的目标,这里存在着一个相当有趣,或者说令人不安的讽刺。正如 Nvidia 高级研究经理 Jim Fan 在 X 上所说:“我们正生活在这样一个时间线里:一家非美国公司正在延续着 OpenAI 的原始使命——真正开放的前沿研究,赋能所有人。这说不通。但最有趣的结果往往就是最可能发生的。”
又如 X 用户@SuspendedRobot 所说(引用了有关 DeepSeek 似乎是在 ChatGPT 生成的问答输出和其他数据上训练的报道):“OpenAI 从整个互联网窃取数据来让自己变得更富有,而 DeepSeek 从他们那里窃取后又免费回馈给大众,这让我想起了一个英国民间故事。”
但不只是 Fan 注意到了 DeepSeek 的成功。基于我与各种工程师、思想家和领导者的交谈和阅读,DeepSeek-R1 的开源可用性、其高性能表现,以及它似乎“突然冒出来”就挑战了前生成式 AI 领导者的事实,在整个硅谷及其他地方引起了震动。如果不是像我夸张的标题所说的"所有人"都在为之疯狂,它至少是科技和商业圈子里的热门话题。
一条发布在 Blind(硅谷匿名八卦分享应用)上的消息正在广泛传播,暗示 Meta 因 DeepSeek 的成功而陷入危机,因为它如此迅速地超越了 Meta 自身通过 Llama 模型成为开源 AI 之王的努力。
X 用户@tphuang 发表了令人信服的观点:“DeepSeek 已经在最顶级之外实现了 AI 的商品化。第一张图片让我豁然开朗。R1 比美国的劳动力成本低得多,这意味着未来 5 年内许多工作将被自动化取代。”他后来还指出了为什么 DeepSeek 的 R1 比 OpenAI 的 o1 对用户更具吸引力:
“o1 有 3 个巨大问题:
1) 太慢
2) 太贵
3) 最终用户缺乏控制权/过度依赖 OpenAI。
R1 解决了所有这些问题。公司可以购买自己的 Nvidia GPU 来运行这些模型,不用担心额外成本或 OpenAI 服务器反应慢/不响应的问题。"
@tphaung 还提出了一个发人深省的类比问题:"DeepSeek 会成为 LLM 领域的 Android 吗?”
网络企业家 Arnaud Bertrand 在 X 上直言不讳地谈到了 DeepSeek 成功的惊人影响:“这对整个游戏规则的改变程度怎么强调都不过分。这不仅关系到 AI,也是对美国试图阻止中国技术发展这一误导性尝试的巨大讽刺,如果没有这种限制,DeepSeek 可能就不会出现(正如谚语所说,需求是发明之母)。”
然而,也有人对 DeepSeek 的快速崛起提出警告,认为作为一家在中国运营的初创公司,它必然要遵守该国的法律和内容审查要求。事实上,在我本人在美国使用 iOS 版 DeepSeek 时就发现,它不会回答某些问题。
作为新闻媒体的一员,我当然非常重视言论和表达自由,这是我坚定支持的最基本的理念之一。
然而,我也不得不指出,OpenAI 的模型和产品(包括 ChatGPT)同样会拒绝回答一系列问题——特别是涉及人类性行为和成人/NSFW内容的问题,即使这些问题很普通。
当然,这不是一个完全对等的比较。对某些人来说,对依赖外国技术的抵触会让他们对 DeepSeek 的最终价值和实用性持怀疑态度。但其性能和低成本是无可否认的。
在美国 16.5%的商品都从中国进口的时代,我很难仅仅基于审查担忧或安全风险来警告不要使用 DeepSeek-R1——特别是当模型代码可以免费下载、离线使用、在安全环境中设备上运行,并且可以随意微调的情况下。
我确实察觉到围绕 DeepSeek 的热烈讨论中有一些关于“西方衰落”和“中国崛起”的存在主义危机思维。有人已经将此与美国用户在 TikTok 短暂被禁时加入小红书(Xiaohongshu)app 的情况联系起来,当时他们对在那里分享的视频中展示的中国生活质量感到惊讶。DeepSeek-R1 的出现就发生在这样的叙事背景下——在这个背景下,中国看起来(且在许多指标上确实)正在崛起,而美国看起来(且在许多指标上也确实)在衰落。
这也不会是最后一个威胁硅谷巨头主导地位的中国 AI 模型——即使这些巨头像OpenAI一样,正在为其开发通用人工智能(AGI,即在大多数具有经济价值的工作中超越人类的程序)筹集比以往更多的资金。
就在昨天,另一个来自 TikTok 母公司字节跳动的中国模型——Doubao-1.5-pro发布,其在第三方基准测试中的表现与OpenAI的非推理型GPT-4o模型相当,但成本仅为后者的1/50。
中国模型发展得如此之快、如此之好,以至于连科技行业之外的人也注意到了:《经济学人》杂志刚刚发表了一篇关于 DeepSeek 的成功和其他中国 AI 努力的文章,政治评论员 Matt Bruenig 在 X 上发文称:“我已经使用 Gemini、ChatGPT 和 Claude 进行 NLRB 文档总结将近一年了。Deepseek 在这方面比它们都要好。它的聊天机器人版本是免费的。使用其 API 的价格比 OpenAI 的 API 低 99.5%。[耸肩表情]”
难怪 OpenAI 联合创始人兼 CEO Sam Altman 今天表示,公司将把尚未发布的第二代推理模型系列 o3 引入 ChatGPT,甚至免费用户也可以使用。OpenAI 似乎仍在通过更专有和先进的模型开辟自己的道路——设定行业标准。
但问题在于:随着 DeepSeek、字节跳动和其他中国 AI 公司紧随其后,OpenAI 还能在制作和发布新的前沿 AI 模型方面保持领先多久?如果它真的落后了,其衰落会有多快、多严重?
不过,OpenAI 确实有另一个历史先例可以借鉴。如果 DeepSeek 和中国 AI 模型确实像谷歌的开源 Android 之于移动领域那样——在一段时间内占据了市场的大部分份额——你只需要看看苹果iPhone是如何通过其封闭、专有、全内部的方法占据了市场的高端部分,并从那里稳步向下扩张,特别是在美国,以至于现在拥有近60%的国内智能手机市场份额。
尽管如此,对于所有正在花大价钱使用领先实验室 AI 模型的人来说,DeepSeek 表明,相同的功能可能以更低的价格获得,并且能获得更大的控制权。在企业环境中,这可能足以赢得胜利。
欢迎加入深潮TechFlow官方社群
2025.01.27
2025.01.27
2025.01.27
2025.01.27