今日运势评分

1

本月运势

戊寅月

震荡偏多

乙克己,巳火为用
甲不开仓财物耗散
辰不哭泣必主重丧

嫁娶,开光,求嗣,会亲友,安床,牧养,塑绘,针灸

入宅,移徙,出火,分居,安香,作灶,开市,交易,立券,安葬,动土,伐木

月相

上弦

冲顶回落

日冲

Powered by RitMEX

PEPE0.00 -2.09%

SUI3.59 2.68%

TON3.89 -0.61%

TRX0.23 1.06%

DOGE0.27 -2.68%

XRP2.55 -3.98%

SOL205.76 -3.12%

BNB576.09 -2.49%

ETH2790.15 -0.50%

BTC98520.93 -1.06%

ETH Gas1.23 Gwei

贪婪
72

Variant Li Jin:克服 AI 数据墙,数据 DAO 正当时

数据DAO代表了一条生成新高质量数据集并克服AI数据墙的潜在有希望的路径。

作者:Li Jin

编译:深潮TechFlow

数据 DAO 代表了生成新的高质量数据集和克服 AI 数据墙的一条途径。

随着OpenAI与News CorpReddit之间的高调数据许可协议的达成,凸显了高质量数据在AI中的重要性。如今,前沿模型已在大量互联网数据上进行了训练,例如,Common Crawl 索引了大约10% 的网页,用于LLM训练并包含超过 100 万亿个令牌。

进一步改进人工智能模型的一个途径是扩大和增强它们可以训练的数据。我们一直在讨论如何聚合数据的机制,特别是以去中心化的方式。我们尤其感兴趣的是探索分散式方法如何帮助生成新的数据集,并从经济上奖励贡献者和创造者。

在过去几年中,加密货币内部讨论的一个话题是数据 DAO 的概念,即创建、组织和管理数据的个人集体。Multicoin和其他公司已经涵盖了这个话题,但人工智能的快速发展是数据DAO新的“为什么是现在”的催化剂。

当今 AI 中的数据

如今,人工智能模型都是通过新闻集团和 Reddit 交易等合作方式,或通过在开放互联网上搜索数据,在公共数据上进行训练的。例如,Meta 的 Llama 3 就是在 15 万亿个公开来源的代币上训练出来的。这些方法都能有效地快速聚合大量数据,但它们在收集数据的内容和方式上都有局限性。

首先是 "什么":人工智能的发展受到数据质量和数量的瓶颈制约。Leopold Aschenbrenner 曾撰文指出,"数据墙 "限制了算法的进一步改进: "很快,在更多废旧数据上预训大型语言模型的天真方法就会开始遭遇严重瓶颈"。

推倒数据墙的方法之一是开放新数据集的可用性。例如,模型公司无法在不违反大多数网站服务条款的情况下获取登录数据,而且顾名思义,它们也无法获取尚未汇总的数据。此外,还有大量私人数据是目前人工智能训练无法触及的:比如企业的 Google Drives、公司的 Slacks、个人健康数据或私人信息。

第二,如何: 在现有模式下,汇集数据的公司获取了大部分价值。Reddit 的 S-1 将数据授权作为主要的预期收入来源: "我们预计,我们不断增长的数据优势和知识产权将继续成为未来法律硕士培训的关键要素。产生实际内容的最终用户并没有从这些许可交易或人工智能模型本身中获得任何经济利益。这种错位可能会扼杀人们的参与--现在已经出现了起诉生成式人工智能公司或选择退出训练数据集的运动。更不用说将收入集中在模型公司或平台手中,而不分给最终用户的社会经济影响了。

数据DAO的影响

上述数据问题有一个共同点:它们受益于来自多样化、代表性用户群的大规模贡献。任何单个数据点对模型性能的价值可能微不足道,但集体上,一个大型用户群体可以聚合出对AI训练有价值的新数据集。这正是数据DAO的用武之地。通过数据DAO,数据贡献者不仅可以看到经济收益,还可以管理这些数据的使用和货币化。

数据DAO可以解决当前数据领域的一些空白,包括但不限于以下几个方面:

现实世界数据

在去中心化物理基础设施(DEPIN)领域,类似Hivemapper的网络通过激励行车记录仪所有者贡献他们的数据来收集世界最新的全球地图数据,并通过应用程序激励用户贡献数据(例如道路封闭或维修信息)。DEPIN可以被视为现实世界的数据DAO,数据集由硬件设备和/或用户网络生成。这些数据对各种公司具有商业价值,收入以代币奖励的形式返还给贡献者。

个人健康数据

生物黑客是一种社会运动,个人和社区通过自我实验研究生物学。例如,个人可能会消费不同的脑功能增强药物,或测试不同的治疗方法或环境变化以改善睡眠,甚至自我注射实验药物。

数据DAO可以为这些生物黑客活动带来结构和激励,通过组织参与者进行共同实验并系统地收集结果。个人健康DAO通过研究实验室或制药公司的收入可以以代币奖励的形式返还给贡献结果的参与者。

人类反馈强化学习

通过人类反馈进行AI模型的微调(RLHF)涉及利用人类输入来提高AI系统的性能。通常,反馈提供者需要是其领域的专家,能够有效评估模型的输出。例如,实验室可能会寻求数学博士来提高其LLM的数学能力。代币奖励可以通过其投机性收益来吸引和激励专家参与,并通过使用加密支付轨道提供全球访问权限。像 SapienFractionSahara 这样的公司正在这个领域工作。

私有数据

随着用于AI训练的公开数据逐渐枯竭,竞争的基础可能会转向专有数据集,包括私有用户数据。大量高质量数据仍然在登录墙和直接消息、私人文档等后面无法访问。这些数据不仅可以有效地训练个人AI,还包含公共网络上无法访问的有价值信息。

然而,访问和利用这些数据面临重大挑战,包括法律和道德方面。数据DAO可以通过允许愿意的参与者上传和货币化他们的数据并管理其使用方式来提供解决方案。例如,Reddit数据DAO允许用户上传从平台导出的Reddit数据,包括评论、帖子和投票历史,进入一个数据库,可以以隐私保护的方式出售或出租给AI公司。代币激励允许用户不仅通过一次性交易获得收入,还可以基于AI模型使用其数据所创造的价值获得收益。

开放问题与挑战

虽然数据DAO的潜在好处显著,但也存在一些考虑和挑战。

激励的扭曲影响

从加密领域使用代币激励的历史中可以看出,外在激励会改变用户行为。这直接影响到利用代币激励进行数据收集的方式:激励可能会扭曲参与者基础和所贡献的数据类型。

引入代币激励还可能导致参与者试图通过提交低质量或伪造数据来最大化收益。这一点尤为重要,因为这些数据DAO的收入机会取决于数据质量。如果贡献数据被扭曲,将削弱数据集的价值。

数据测量和奖励

数据DAO的核心理念是通过代币激励奖励贡献者的提交,长期来看这些奖励会与DAO的收入趋同。然而,准确奖励不同数据贡献的难度较大,因为数据价值具有主观性。例如,在生物黑客的例子中:某些用户的数据是否比其他用户更有价值?如果是,决定因素是什么?对于地图数据:某些地理区域的地图信息是否比其他区域更有价值,如何量化这种差异?目前在通过计算数据对模型性能的增量贡献来衡量数据价值的研究正在进行,但这些方法可能计算量很大。

此外,建立健全的机制来验证数据的真实性和准确性至关重要。没有这些措施,系统可能容易受到欺诈性数据提交(例如创建虚假账户)或Sybil攻击的影响。DEPIN网络试图通过在硬件设备层面进行集成来解决这一问题,但其他依赖用户驱动贡献的数据DAO可能容易受到操纵。

新数据的增量性

大部分公开网络已经被用于训练,因此数据DAO运营者必须考虑通过分布式努力收集的数据集是否真正是增量的,是否对现有的公开网络数据有附加价值,以及研究人员是否可以从平台上许可这些数据或通过其他方式获取。这些想法强调了收集超越现有数据的新数据的重要性,这也引出了下一个考虑因素:影响的规模和收入机会。

收入机会的规模

本质上,数据DAO正在构建一个双边市场,将数据买家与数据贡献者连接起来。数据DAO的成功取决于吸引一个稳定且多样化的客户群体愿意为数据支付费用。

数据DAO需要识别和验证其最终需求,确保收入机会足够大,无论是总量上还是每个贡献者的收入上,以激励所需的数据数量和质量。例如,多年来一直在讨论创建一个用户数据DAO以汇集个人偏好和浏览数据用于广告目的的想法,但最终,这样一个网络能够传递给用户的收入可能是微不足道的。(作为对比,Meta在2023年底的全球ARPU为13.12美元。)随着AI公司计划花费数万亿美元进行训练,用户数据的收入可能足够诱人,以引发大规模贡献,提出了一个有趣的“为什么现在”数据DAO的机会。

克服数据墙

数据DAO代表了一条生成新高质量数据集并克服AI数据墙的潜在有希望的路径。具体如何实现尚待观察,但我们对这一领域的发展充满期待。

欢迎加入深潮TechFlow官方社群

Telegram订阅群:https://t.me/TechFlowDaily
Twitter官方账号:https://x.com/TechFlowPost
Twitter英文账号:https://x.com/DeFlow_Intern
作者Li Jin@ljin18
相关文章
2025.02.05 - 1 小时前
加密市场“发生了什么”以及“会发生什么”
Meme 如今已经是总统在玩的了,并且他还能通过不为我们所知的渠道赚钱。
2025.02.05 - 3 小时前
祛魅市场定论:理性看待 Berachain 是否能成为 DeFi 的终局?
Berachain 能实现“生生不息”吗?
2025.02.05 - 3 小时前
美 SEC 加密货币工作组网页上线:从发币到 ETF,公布十大优先事项
SEC 对加密资产的监管正在发生重大转变,从过去的「执法监管」逐步转向「引导与规范并重」。
SEC
2025.02.05 - 3 小时前
特朗普关税风波暂时平息,如何抓住 AI Agent 市场反弹?
支持真正有潜力的项目,而不是被短期炒作所驱使。
2025.02.05 - 4 小时前
加密货币市场“黑色星期一”再现,这是最后一跌还是熊市开端?
一周前,因 DeepSeek 导致投资者对人工智能芯片产业链未来需求可能降低的预期,美股市场包括英伟达、AMD 在内的股票从夜盘就开始了下跌,而近期一直跟随美股走势的比特币也被拖累。
2025.02.05 - 4 小时前
操纵市场、收割散户?Wintermute 创始人回应:我们不是慈善机构
暴躁老哥的高质量干货,揭开神秘做市商的业务逻辑和操作手法。
2025.02.05 - 4 小时前
DOGE 难题:马斯克要裁员 10%,只有 1% 的美国「公务员」接受「买断」劝退
现在只有超过 2 万名员工、约占美国联邦政府劳动者总人数的 1% 签署了辞职协议,接受政府提供约八个月薪资补偿的所谓延期退休「买断计划」。
2025.02.05 - 4 小时前
Lightspark 联创:美国应该建立比特币战略储备吗?
比特币储备的支持者们对比特币潜在的长期战略作用的看法并非错误,只是时机未到。
2025.02.05 - 5 小时前
顶级拍卖行的「加密」背水一战
随着加密货币舞台再次亮起,背水一战的拍卖行,也只能做好加入这场大戏的准备。
2025.02.05 - 6 小时前
非理性的加密市场:炒作、错误信息和被忽视的实际效用价值
投资者应关注基本面而非短期噱头,以推动行业健康发展。