PEPE0.00 -3.18%
SUI4.70 2.44%
TON5.17 -1.60%
TRX0.24 -3.66%
DOGE0.32 -4.58%
XRP2.28 -1.74%
SOL186.26 -4.36%
BNB681.97 -0.89%
ETH3209.88 -2.02%
BTC92211.98 -1.75%
PEPE0.00 -3.18%
SUI4.70 2.44%
TON5.17 -1.60%
TRX0.24 -3.66%
DOGE0.32 -4.58%
XRP2.28 -1.74%
SOL186.26 -4.36%
BNB681.97 -0.89%
ETH3209.88 -2.02%
BTC92211.98 -1.75%
ETH Gas6.70 Gwei
贪婪 69
深潮 TechFlow 消息,1 月 9 日,据 TechCrunch 报道,马斯克在与 Stagwell 董事长 Mark Penn 的直播对话中表示,人类知识总和作为 AI 训练数据已在 2024 年基本耗尽,这一观点呼应了 OpenAI 前首席科学家 Ilya Sutskever 在 12 月 NeurIPS 会议上提出的“数据峰值”理论。
马斯克认为,合成数据将成为未来 AI 发展的关键路径。目前,Microsoft、Meta、OpenAI 和 Anthropic 等科技巨头已在其旗舰 AI 模型中采用合成数据训练方案。其中,Microsoft 新开源的 Phi-4、Google 的 Gemma 模型、Anthropic 的 Claude 3.5 Sonnet 以及 Meta 最新的 Llama 系列模型均采用了合成数据进行训练或微调。
从成本角度看,AI 初创公司 Writer 使用近乎全部合成数据开发的 Palmyra X 004 模型仅花费 70 万美元,显著低于 OpenAI 同等规模模型 460 万美元的开发成本。然而研究显示,合成数据可能导致模型坍塌问题,使模型输出更不具创造性且偏见加剧,这源于原始训练数据中的偏见和局限性会在合成过程中被放大。根据 Gartner 统计,2024 年 AI 和分析项目中约 60% 的数据为合成生成。
2025.01.09
2025.01.07