今日运势评分

-6

本月运势

戊子月

震荡偏多

劫财夺财，未害子

己不破券二比并亡
未不服药毒气入肠

宜

安床,祭祀,祈福,求嗣,冠笄,伐木,架马,动土,开池,开厕,结网,入殓,除服,成服

忌

安门,栽种,作灶,治病

月相

蛾眉残

底部反弹

日冲

ONDO0.41 2.42%

TRUMP5.26 -0.08%

SUI1.51 4.41%

TON1.55 4.53%

TRX0.28 0.75%

DOGE0.13 3.13%

XRP1.93 2.45%

SOL127.90 2.70%

BNB870.87 2.77%

ETH2956.85 0.77%

BTC87664.40 2.08%

ETH Gas0.36 Gwei

极恐

首页 深潮精选 Research 项目发现 7x24h︎快讯 最新活动

让 AI 编程去干活能挣到 40 万美元？

2025.02.20 - 299 天前

AI对于程序员的替代性，目前并没有那么夸张。

作者：谭梓馨，头部科技

图片来源：由无界AI生成

大型语言模型 (LLM)正在改变软件开发方式，AI现在能不能大规模替代人类程序员成为一个备受行业关注的话题。

在短短两年时间里，AI大模型已经从解决基础计算机科学问题，发展到在国际编程竞赛中与人类高手一较高下的程度，例如OpenAI o1曾在与人类参赛者相同的条件下参加2024国际信息学奥林匹克竞赛（IOI）并成功获得金牌，展现了强大的编程潜力。

同时，AI迭代速率也在加快。在代码生成评估基准SWE-Bench Verified上，2024年8月GPT-4o的得分是33%，但到了新一代o3模型得分已翻倍为72%。

为了更好衡量AI模型在现实世界中的软件工程能力，今天，OpenAI开源推出了一个全新的评估基准SWE-Lancer，首次将模型性能与货币价值挂上了钩。

SWE-Lancer是一个包含1400多个来自Upwork平台自由软件工程任务的基准测试，这些任务在现实世界中的总报酬价值约100万美元，让AI去编程能挣到多少钱？

新基准的“特色”

SWE-Lancer基准任务价格反映真实的市场价值情况，任务越难，报酬越高。

其中既包括独立工程任务，也包括管理任务，可在技术实施方案之间进行选择，该基准不仅针对程序员，也针对整个开发团队，包括架构师和管理人员。

相较于此前的软件工程测试基准，SWE-Lancer具有多项优势，例如：

1、全部1488个任务代表了雇主向自由工程师支付的真实报酬，提供了自然的、由市场决定的难度梯度，报酬从250美元到3.2万美元不等，可谓相当可观。

其中35%的任务价值超过1000美元，34%的任务价值在500美元到1000美元之间。个体贡献者（IC）软件工程（SWE）任务这一组包含了764个任务，总价值41.4775万美元；SWE管理任务这一组包含724个任务，总价值58.5225万美元。

2、现实世界中的大规模软件工程，不仅需要具体敲代码可开发，还需要有能力的技术统筹管理，该基准测试使用真实世界的数据评估模型充当SWE“技术主管的”角色。

3、具备高级全栈工程评测能力。SWE-Lancer代表现实世界的软件工程，因为其任务来自拥有数百万真实用户的平台。

其中的任务涉及移动和网页端的工程开发、与API、浏览器和外部应用程序的交互，以及复杂问题的验证和复现。

例如，有的任务是花费250美元提高可靠性（修复双触发的API调用问题）、1000美元修复漏洞（解决权限差异问题）和1.6万美元实现新功能（在网页、iOS、安卓和桌面端添加应用内视频播放支持等）。

4、领域多样性。74%的IC SWE任务和76%的SWE管理任务都涉及应用逻辑，而17%的IC SWE任务和18%的SWE管理任务涉及UI/UX开发。

就任务难度而言，SWE-Lancer选取的任务非常具有挑战性，开源数据集中的任务平均需要26天才能在Github上解决。

此外，OpenAI表示无偏数据收集情况，它们从Upwork上选择了具有代表性的任务样本，并聘请了100名专业软件工程师为所有任务编写和验证了端到端测试。

AI编码赚钱能力PK

尽管很多科技大佬不断在宣传中声称AI模型可以取代“低级”工程师，但企业是否完全能用LLM取代人类软件工程师仍然要打个大大的问号。

首批评测结果显示，在完整的SWE-Lancer数据集上，目前被测试的AI金牌选手模型收益都远低于100万美元的潜在总报酬。

整体来看，所有模型在SWE管理任务上的表现都会优于IC SWE任务，而IC SWE任务在很大程度上仍未被AI模型充分攻克，目前受测模型表现最好是OpenAI竞争对手Anthropic开发的Claude 3.5 Sonnet。

在IC SWE任务上，所有模型单次通过率和收益率均低于30%，在SWE管理任务上，表现最佳的模型Claude 3.5 Sonnet得分是45%。

Claude 3.5 Sonnet在IC SWE和SWE管理任务上均表现出强劲性能，在IC SWE任务上比表现第二好的模型o1高出路9.7%，在SWE管理任务上高出3.4%。

如果转换成收益，表现最佳的Claude 3.5 Sonnet在完整数据集上总收入超过40万美元。

值得关注的一点是，更高的推理计算量会对“AI赚钱”大有帮助。

IC SWE任务上，研究人员对启用了深度推理工具的o1模型进行的实验表明，更高的推理计算量能将单次通过率从9.3%提升至16.5%，收益也相应从1.6万美元增至2.9万美元，收益率从6.8%提高到12.1%。

研究人员总结，最佳模型Claude 3.5 Sonnet虽然解决了26.2%的IC SWE问题，但剩下的大多数解决方案仍存在错误，想实现可靠部署还需要许多完善工作。其次是o1，然后是GPT-4o，并且管理任务的单次通过率通常是IC SWE任务单次通过率的两倍以上。

这也意味着，即便AI代理取代人类软件工程师的观点被炒作得非常火，但企业当下仍需三思而行，AI模型可以解决一些“低级”编码问题，但还不能取代“低级”软件工程师，因为它们无法理解一些代码错误存在的原因，并继续犯了更多延伸错误。

目前的评估框架尚不支持多模态输入，此外，研究人员还没有对“投资回报率”进行评估，例如完成一项任务时，对支付给自由职业者的报酬与使用API的成本进行对比，这会是该基准下一步完善的重点。

做一个“AI增强型”程序员

就目前来看，AI要真正替代人类程序员还有很长一段路要走，毕竟开发一个软件工程项目，不光是按要求生成代码那么简单。

例如，程序员常常会遇到极为复杂、抽象、模糊的客户需求问题，这需要对各种技术原理、业务逻辑和系统架构有深入理解，在优化复杂的软件架构时，人类程序员能够综合考虑系统未来的可扩展性、可维护性和性能等因素，而AI可能难以做出全面的分析判断。

此外，编程不仅仅是实现现有逻辑，还需要大量的创造力和创新思维，程序员需要构思新算法、设计独特的软件界面和交互方式等，这种真正新颖的想法和解决方案是AI的短板。

程序员通常还需要与团队成员、客户及其他利益相关者进行沟通与协作，需要理解各方需求和可实现程度，清晰表达自己的观点，并与他人协同完成项目，此外，人类程序员具备持续学习并适应新变化的能力，他们能快速掌握新知识和技能，并将其应用到实际项目中，而一款成功的AI模型还需要各种训练测试。

软件开发行业也受到各种法律和监管约束，如知识产权、数据保护和软件许可等，人工智能可能难以完全理解并遵守这些法律法规要求，从而埋下法律风险或责任纠纷。

长期来看，AI技术进步带来的程序员岗位替代性依然存在，但短期来看，“AI增强型程序员”才是主流，掌握对最新AI工具的使用是优秀程序员的核心技能之一。

欢迎加入深潮TechFlow官方社群

Telegram订阅群：https://t.me/TechFlowDaily
Twitter官方账号：https://x.com/TechFlowPost
Twitter英文账号：https://x.com/BlockFlow_News

原文链接

添加收藏

分享社交媒体

作者

头部科技

相关文章

2025.12.16 - 17 小时前

Alphabet（谷歌）：全景式剖析“全栈 AI 之王”

Alphabet 当前是一个“合理偏贵 / 轻微溢价的优质标的”，已经反映 AI 带来的云的二次增长预期，但尚未进入与基本面完全脱节的严重泡沫区间。

2025.12.15 - 前天

2025 Crypto x AI 年度复盘：哪些叙事活下来了？

整个行业正在从叙事转向基础设施，从投机转向系统化解决方案，从炒作转向实际产品。

2025.12.13 - 4 天前

甲骨文暴跌 40%，AI 过度基建会拖垮巨头吗？

成则皆大欢喜，败则可能满盘皆输。

甲骨文 AI

2025.12.12 - 5 天前

如何成为 Web3 超级个体？

AI+Crypto 时代的个人觉醒指南。

2025.12.11 - 6 天前

2026 加密投资图景：应用链崛起，AI 代理接管 DeFi

实体资产将迎来真正的链上普及。

应用链 AI DeFi 投资

2025.12.10 - 6 天前

Verse8的自述：如何在AI时代支持创作表达

创造力将在协作、再创作与共享所有权中持续增值。

2025.12.09 - 8 天前

达利欧：未来两年全球经济「岌岌可危」，不要因为 AI 估值过高就急于退出

虽然AI行业已现泡沫迹象，但他认为需要关注泡沫破裂的催化剂——货币紧缩或被迫出售资产以满足债务义务。

2025.12.08 - 8 天前

摩根大通眼中的 2026：经济分化、政策分化、AI 采用率飙升

摩根大通预测2026年将被AI超级周期、不均衡货币政策与经济结构分化主导，支撑全球股市上行并看多标普至7500点。

AI 政策摩根大通

2025.12.08 - 8 天前

罗永浩的十字路口：播客、年轻人和 AI 浪潮

「年轻人，不要怕，没什么可怕的。」

2025.12.04 - 12 天前

美银 2026 年十大重磅预测：AI 热潮延续、中美经济超预期增长

美国银行上调了对中国经济的增长预期。

AI 年度展望

7x24h 快讯︎更多

12月16日 23:39: 加密交易所Paxful：拟于明年2月出庭接受量刑并将返还用户剩余资金

12月16日 23:15: BNB Chain：将上线新稳定币，专为大规模应用打造

12月16日 23:06: Bitget Launchpool 项目 THQ 现已开放投入，锁仓 BGB 或 THQ 解锁 233 万枚 THQ

12月16日 22:58: Rainbow 或将于 2026 年 2 月 5 日进行 TGE

12月16日 22:52: 万事达卡与阿布扎比 ADI 基金会合作，扩展稳定币结算业务

12月16日 22:47: Coinbase：年轻投资者的投资组合中25%会选择加密货币等非传统资产

12月16日 22:43: Bitwise 发布 2026 年加密货币十大预测，预计 BTC 将打破四年周期创新高

12月16日 22:34: 美股三大股指低开，道指开跌0.02%，标普500指数跌0.13%，纳指跌0.19%

深潮精选更多

: 经济学人：加密货币对传统银行的真正威胁
2025.12.16

: 对话币安 CEO 何一：关于 CZ、币安崛起，以及那些只有赢家才懂的“认知差”
2025.12.16

: 2025 年，加密市场那些无法回头的改变
2025.12.16