今日运势评分

-1

本月运势

戊寅月

震荡偏多

丙火为用,子午相冲
乙不栽植千株不长
巳不远行财物伏藏

作灶,解除,平治道涂

栽种,出行,祈福,行丧,纳畜,安葬,安门,伐木,作梁,牧养

月相

上弦

冲顶回落

日冲

Powered by RitMEX

PEPE0.00 0.57%

SUI3.43 -4.40%

TON3.87 1.43%

TRX0.23 0.42%

DOGE0.26 -0.74%

XRP2.44 -2.85%

SOL201.74 -1.35%

BNB577.70 0.95%

ETH2837.96 2.74%

BTC98112.72 0.32%

ETH Gas0.96 Gwei

中性
54

Deep Research 发布,AI 不再是简单的搜索引擎,转而成为你的研究搭档

搜索的结束,研究的开始。

作者:One Useful Thing

编译:深潮 TechFlow

在刚刚过去的周末,我们看到了未来的一些端倪。长期以来,我一直在探讨 AI 的两场重要革命:自主智能体 (Autonomous Agents) 的崛起,以及自 OpenAI 推出 o1 模型以来强大推理系统 (Reasoners) 的发展。这两条技术路径如今终于走向融合,催生出了一种令人惊叹的成果——AI 系统不仅能够以人类专家的深度和细致程度开展研究,还能以机器般的速度完成。这一融合的代表便是 OpenAI 的 Deep Research,它为我们描绘了未来的图景。然而,要理解这一切为何重要,我们需要从基础说起:推理系统与智能体。

推理系统 (Reasoners)

过去几年中,当你使用聊天机器人时,它的工作方式通常非常简单:你输入问题后,系统会逐字(或更准确地说是逐 Token)生成回应。由于 AI 只能在生成这些 Token 的同时“思考”,研究人员开发了许多技巧来提升其推理能力。例如,通过提示 AI “在回答之前逐步推理”,这被称为链式思维提示 (Chain-of-Thought Prompting),显著提高了 AI 的表现。

推理系统的出现将这一过程自动化。在回答问题之前,系统会先生成“思考 Token”(即推理步骤),然后再给出最终答案。这种方法带来了两个重要的突破。

首先,AI 公司可以通过优秀问题解决者的示例训练推理系统,从而让 AI 的“思考”过程更加高效。这种训练方式能够生成比人类提示更高质量的推理链,使推理系统能够解决更复杂的问题,尤其是在数学和逻辑等传统聊天机器人表现不佳的领域。

其次,推理系统的一个显著特点是:它“思考”得越久,答案的质量就越高(尽管随着时间延长,改进的速度会逐渐减缓)。这一点尤为重要,因为过去提升 AI 性能的唯一方法是训练更大规模的模型,而这需要大量的数据和资金。而推理系统表明,只需在回答问题时(即推理时计算)让 AI 生成更多推理步骤,就能显著提升性能,无需增加模型训练资源。

研究生级别的无谷歌问答测试 (GPQA) 是一组多选题,旨在评估 AI 的推理能力。即使是拥有互联网访问权限的博士生,在非专业领域的正确率也仅为 34%,而在专业领域则可达到 81%。这一测试展示了推理模型如何加速 AI 能力的提升(数据来源)。

由于推理系统仍是新兴技术,其能力正在快速提升。仅在几个月内,我们就见证了 OpenAI 的 o1 系列向新 o3 模型的显著跃升。同时,中国的 DeepSeek r1 通过创新方法提升性能并降低成本,而 Google 也推出了其首个推理系统。这仅仅是开始——未来,我们将看到更多强大的推理系统问世,并且可能比预期更快。

智能体 (Agents)

关于 AI 智能体的定义,专家们至今尚未达成一致。不过,我们可以简单地将其理解为“被赋予目标并能够自主完成目标的 AI 系统”。目前,各大 AI 实验室正在激烈竞争,试图研发出通用型智能体——一种可以应对任何任务的系统。我曾提到过一些早期的例子,比如 Devin 和 Claude,它们具备一定的计算机操作能力。而最近,OpenAI 刚刚推出了 Operator,这或许是迄今为止最完善的通用型智能体。

以下视频(经过 16 倍速处理)展示了通用型智能体的巨大潜力以及当前的局限性。我给 Operator 下达了一个任务:阅读我在 OneUsefulThing 平台上的最新 Substack 帖子,然后访问 Google ImageFX,设计一张合适的图片,下载后交给我发布。最初,Operator 的表现非常出色——它准确地找到我的网站,阅读文章,导航到 ImageFX(期间暂停让我输入登录信息),并成功创建了一张图片。然而,问题接踵而至,主要体现在两个方面:一是 Operator 被 OpenAI 的安全限制阻止下载文件,二是在任务执行过程中出现了混乱。智能体尝试了各种解决方法,比如复制到剪贴板、生成直接链接,甚至深入到网站的源代码。然而,这些尝试无一成功——有些因为 OpenAI 的浏览器限制,有些则因为智能体对任务的理解产生了偏差。观察这一执着却最终失败的尝试过程,不仅揭示了当前系统的局限性,也引发了关于智能体在现实世界中遇到障碍时将如何应对的思考。

虽然 Operator 暴露了通用型智能体的不足,但这并不意味着智能体毫无价值。目前,专注于特定任务的窄领域智能体已经展现出显著的经济价值。这些智能体依托当前的大语言模型 (LLM) 技术,在特定领域内能够实现令人惊叹的成果。例如,OpenAI 的新产品 Deep Research 就是一个专注型智能体的典范。

深度研究 (Deep Research)

OpenAI 的 Deep Research(需注意,不要与 Google 的 Deep Research 混淆,后续会详细介绍)是一个专注于研究领域的窄领域智能体。它基于 OpenAI 尚未发布的 o3 推理系统 (Reasoner),并配备了专用工具和功能。这是我近期见过的最令人印象深刻的 AI 应用之一。

为了展示其能力,我为它设置了一个主题:在初创公司发展过程中,应该在何时停止探索并开始扩展?这是一个在我研究领域内颇具技术性且争议性的问题。我要求 Deep Research 调查相关的学术研究,重点分析高质量论文和随机对照试验 (RCTs),并处理其中可能存在的定义争议,以及常识与研究结论之间的矛盾。最终,它需要为研究生级别的讨论呈现一份详尽的结果。

在任务开始时,AI 提出了几个非常有见地的问题,我也进一步明确了我的需求。随后,OpenAI 的 o3 推理系统 (Reasoner) 开始工作。在整个过程中,你可以清楚地看到它的进展以及“思考”过程。以下展示了几个关键的样本,值得花点时间仔细看看。你会发现,这个 AI 系统的行为非常接近一位研究人员:它会主动探索发现,深入挖掘那些“引起它兴趣”的内容,并尝试解决问题(例如寻找绕过付费墙文章的方法)。整个过程持续了大约五分钟。

最终,我收到了一份十三页、三千七百七十八字的草稿,包含六个引用和一些额外的参考文献。整体质量令人满意,尽管引用来源的数量还有提升空间。这篇文章成功地将复杂且矛盾的概念有机地整合在一起,还发现了一些我未曾预料到的新联系。它只引用了高质量的学术来源,并且引用中包含了准确的引文内容。尽管我无法完全保证其中的内容都无误(但我并未发现明显错误),但如果这是一位刚入门的博士生的作品,我会对其表现感到满意。以下是几个摘录片段,足以说明为何我对它的表现如此印象深刻(完整结果参考此处)。

这次 AI 的引用质量标志着一个显著的进步。引用不再是常见的 AI“幻觉”或错误引用的论文,而是合法的、高质量的学术来源,包括我同事 Saerom (Ronnie) Lee 和 Daniel Kim 的开创性研究。当我点击引用链接时,它们不仅指向相关论文,还经常直接跳转到具体的高亮引文部分。尽管当前仍存在一些限制——AI 只能访问它在几分钟内能够找到和阅读的内容,而付费墙文章仍然无法获取——但这已经代表了 AI 在处理学术文献方面的一次根本性飞跃。首次,一个 AI 不仅仅是总结研究,而是以接近人类学术研究的方式主动参与其中。

值得注意的是,Google 上个月也推出了一个同名产品 Deep Research(无奈叹气)。Google 的系统提供了更多的引用,但引用来源的质量参差不齐,常常是各种网站的混合体(无法访问付费信息和书籍对所有智能体来说都是一个难题)。与 OpenAI 的研究智能体不同,Google 的系统似乎一次性收集所有文档,而不是通过探索式发现逐步获取。此外,由于 Google 的产品目前基于旧版 Gemini 1.5 模型(不具备推理能力),其总结内容更加表面化,尽管整体上仍然扎实且没有明显错误。可以说,它的表现更像是一个非常优秀的本科生的作品。

为了更直观地理解这一点:OpenAI 和 Google 的研究智能体都能完成通常需要人类数小时才能完成的工作。区别在于,OpenAI 的系统达到了接近博士研究水平的分析,而 Google 的系统则更像是优秀本科生的作品。在 OpenAI 的官方声明中,他们提出了一些大胆的主张,并用图表展示了他们的智能体可以处理 15% 的高经济价值研究项目以及 9% 的极高价值研究项目。虽然这些数据的具体方法论并未公开,值得保留一定的怀疑态度,但从我的实际使用体验来看,这些说法并非完全夸大。Deep Research 确实能够在几分钟内完成复杂且有价值的分析,而不是耗费数小时。考虑到技术进步的速度,我相信 Google 不会让这一差距维持太久。在未来几个月中,我们可能会看到研究智能体的能力迅速提升。

技术协同发展

从当前的发展趋势来看,各大 AI 实验室正在构建的技术不仅是简单地拼接在一起,而是通过相互作用实现更高的效率。推理系统 (Reasoners) 提供了强大的逻辑分析能力,而智能体系统则赋予了这些推理能力以实际行动的能力。目前,我们正处于窄领域智能体的时代,例如 Deep Research,它们专注于特定任务,因为即使是现阶段最先进的推理系统,也尚未达到通用型自主能力的要求。然而,“窄领域”并不意味着受限——这些系统已经能够完成曾经需要高薪专家团队或专业咨询公司才能完成的复杂工作。

当然,这并不意味着专家和咨询公司会因此被取代。相反,随着他们从直接执行工作转向协调和验证 AI 系统的成果,他们的专业判断力将变得更加重要。但 AI 实验室的目标远不止于此。他们希望通过更强大的模型,破解通用型智能体的难题,使其超越窄领域任务,成为真正的自主数字劳动力。这些智能体不仅能够自主浏览网络,还可以处理多种形式的数据(如文本、图像和音频),并在现实世界中采取有意义的行动。尽管 Operator 的表现表明我们还未完全达到这一目标,但 Deep Research 的成功已经显示,我们正在朝着这一方向稳步前进。

欢迎加入深潮TechFlow官方社群

Telegram订阅群:https://t.me/TechFlowDaily
Twitter官方账号:https://x.com/TechFlowPost
Twitter英文账号:https://x.com/DeFlow_Intern
作者One Useful Thing
相关文章
2025.02.06 - 7 小时前
为什么说 AI + Crypto 是某个市场拐点的必然选择?
尽管当前无秩序的速通和内幕发行方式横行,诱发了 AI Agent 链上市场持续的不稳定性(PVP),但其透明、贴近用户、可追溯的内核没变。
AI
2025.01.27 - 10 天前
Deepseek 对加密 AI 赛道形成叙事打击,普跌之下哪些项目进展值得关注?
或许是时候关注那些被低估的潜力项目,抓住机会布局了。
AI
2025.01.26 - 11 天前
从特朗普 5000 亿基建到 90% 链上交易智能化,Web3 正迎来 AI 革命元年
展望下周,市场将重点关注美联储FOMC会议、PCE物价指数及科技股财报等重要事件。
AI
2025.01.26 - 11 天前
中美 AI 竞速迈向 2027 临界点,WHY Monad?
Monad 是区块链 AI 项目 Build 的不二选择。
2025.01.23 - 14 天前
Mantle 2025 直播回顾:将加密带入日常金融,AI 将成为重要工具
展望2025年,Mantle将继续推动DeFi、AI、游戏、消费等领域与区块链的结合。
2025.01.23 - 14 天前
特朗普宣布 5000 亿美元 AI 基础设施计划 Stargate,AI 确立今年市场主旋律地位
软银、OpenAI、 Oracle 将联合成立一家新 AI 公司 Stargate,特朗普说道,这是历史上最大的 AI 基础设施项目。
2025.01.23 - 14 天前
解读 Anon 与 Automate:DeFAI 赛道新贵,AI 驱动的链上金融交互新模式
在 Automate 和 Hey Anon 的支持下,DeFAI 正在为一个全新的 AI 驱动金融交易时代铺平道路。
2025.01.22 - 15 天前
今日 AI Agent 市场总结:Fartcoin 和 AIXBT 占据主导地位,AI 项目迎来普涨
或许资本正在 AI 领域内重新流动。
AI
2025.01.21 - 16 天前
AI 板块上周总结:ElizaOS 白皮书发布,Virtuals 推出4000 万美元的代币回购计划
去中心化在 AI 领域中扮演着至关重要的角色,它可以防止垄断和滥用。
AI
2025.01.17 - 20 天前
实测 7 款主流 AI 大模型,隐私裸奔成通病
期待各大模型厂商能积极响应,主动优化产品设计与隐私政策,以更加开放、透明的姿态,向用户清晰阐释数据的来龙去脉,让用户能够放心地使用大模型技术。
AI