PEPE0.00 -2.54%
SUI4.10 -0.31%
TON5.49 -3.75%
TRX0.25 -3.20%
DOGE0.31 -2.36%
XRP2.02 -6.04%
SOL187.13 -2.93%
BNB695.05 -1.32%
ETH3334.44 -0.62%
BTC92008.39 -2.02%
PEPE0.00 -2.54%
SUI4.10 -0.31%
TON5.49 -3.75%
TRX0.25 -3.20%
DOGE0.31 -2.36%
XRP2.02 -6.04%
SOL187.13 -2.93%
BNB695.05 -1.32%
ETH3334.44 -0.62%
BTC92008.39 -2.02%
ETH Gas10.01 Gwei
贪婪 65
撰文:Henry
最近,智能机器人的研究进展如火如荼,新的演示层出不穷。
特斯拉在 12 月中旬发布了第二代 Optimus。这个机器人并非工业产品,而是一个纯粹的原型,但是它的完成度很好。在演示中,这个宇航员外形的 Optimus 展示了精巧的运动能力。马斯克表示,之所以把它设计成人类的大小和形状,就是为了无缝取代人类劳动力,去执行任何人类不愿意做的事情。
特斯拉的机器人一身浓浓的科幻工业风,造价不菲的样子,也许正是这个形象带给了它「一切都理所当然」的预期。事实上,特斯拉并未展示太多它的应用场景,所以人们似乎对它也就是「哦」了一声。但是,接下来 1 月份相继公布的两个机器人则让许多人发出了情真意切的「啊?」
首先亮相的是斯坦福大学研究团队公布的 Mobile Aloha 项目。这一项目之所以能引起广泛兴趣,可能在于它给机器人找的场景比较实用:做菜、逗猫、洗衣服。实际上,这一项目的主要创新之处在于它利用低成本的硬件(三万多美元,对于家用还是超贵的)实现了一个自主移动的双手操作机器人(虽然它外形不那么像人),并且它可以学会人的技能。这个学习过程显得有点中二,以做菜为例,你得先操作它做一遍菜,然后它就记住了大概动作。此时它不可能一下子就拿得稳锅,但奇妙之处在于,它会再通过手臂上的摄像头进行几十次自主训练,就能真正拿得稳了。
紧接着,Figure 公司公布了他们的人形机器人 Figure 01 做咖啡的视频。这个机器人听到人的语音指令「给我做杯咖啡」,就能熟练使用胶囊咖啡机制作了一杯咖啡。Figure 公司把这个成就称为「人形机器人的 ChatGPT 时刻」,这倒不是因为它使用大语言模型理解了人类语音指令,而是因为这个制作咖啡的技能仅仅是通过观察人类动作而模仿学会的,这个成就带给人的震撼程度堪比 ChatGPT。Figure 01 通过视觉观察人类使用咖啡机的行为,建立了对任务行为的理解,然后通过若干次的自主训练纠错,掌握了这一技能。这展现了 AI 驱动的通用型人形机器人的广阔前景。
2007 年的第一期《科学美国人》杂志上,曾经刊登过一篇比尔盖茨的署名文章,我记得是封面头条。文章的标题是「A robot in every home」。
在文章中,比尔盖茨对机器人行业的机会表示非常激动,因为这像极了 30 年前他创办微软公司的时候:行业出现了突破性技术,但是专业级的商用机器依然被垄断在少数几个大公司手中。初创公司和极客们虽然也不断创造出来一些有趣的东西,但是高度分散,以至于没有任何通用的标准和开发工具。所以,比尔盖茨大胆预言:只要解决了这个问题,机器人必将走进千家万户。
所以,微软当时果断投资推动了这个事情,成立了 Robotics 部门,推出了 Microsoft Robotics Studio,准备复刻当年微软在 PC 时代取得的成功。
在文章中,比尔盖茨引用了经典的 DARPA 2004 越野挑战赛。对,就是发明了互联网的那个传奇 DARPA,它赞助这项比赛的目标是让完全自主导航的车辆穿越 140 多英里的莫哈维沙漠。在第一年的比赛中,最优秀的参赛者也只艰难行驶了 7 英里,第二年就有 5 辆车成功完成比赛,而且简直是一路狂奔着完成的。这项比赛极大的体现了机器人技术的进化速度。这也是比尔盖茨的信心所在。
微软当时努力的方向是开发工具层面。传感器、马达、伺服机构等硬件的能力在飞速提升,价格在不断下降,但是在开发层面,你不得不给每一个硬件专门写程序驱动它。而且,怎样让当时孱弱的处理器能实时处理多个传感器的数据也是一大挑战。微软的解决方案一是给驱动程序建立标准,二是提供多线程能力。微软甚至推出了.NET Micro Framework。了解.NET 技术的同学们应该能想到,把这样的大杀器下放到机器人开发工具里,简直是降维打击。机器人开发者甚至连内存和线程调度都不需要头疼了,直接写逻辑就行。
但是后来是事实我们已经知道了,微软在机器人领域的努力并没有成功,整个 Robotics 部门也在 2014 年的一次重组中被彻底解散。在笔者自己断断续续的观察里,感觉到的主要原因可能一是成本,二是应用。毕竟,直到今天,我们想在家里攒一个机械臂也得不少钱,而且不知道拿它来干什么。
把时间轴拉回现在,无论是 Mobile Aloha 还是 Figure 01,都展示了这样一种能力:通过传感器(不论是摄像头还是远程操作关节)来学习一种动作,并且通过自主的训练反馈来真正掌握这个动作。不仅如此,这套动作还可以形成一项技能,然后通过自然对话来调用。这样的技能可以随时复制到同类的机器人身上,完全不用编写程序。
看起来,机器人的能力果真到了一个新高度。这也让许多人不约而同的发出了惊呼:「机器人也到了 ChatGPT 那种颠覆时刻吗?」
相比十几年前比尔盖茨发出预言的时候,如今的机器人有了这样几个新的长足进展:
1。更加通用。比尔盖茨眼里的机器人可以是任何形状,只要能完成某项任务就行。笔者自己当年溜去 Robotics 组混开会的时候,见到他们的演示也都是会跑会爬就行了。但是现在的机器人已经可以拥有家用场景的技能,这些技能是可以复制传播的。而且机器人本身的设计更趋向于人形,也是为了代替人执行各种通用任务。
2。自然交互方式。有了多模态的 LLM 加持,现在的机器人技术可以理解人的语音指令,也可以从摄像头等输入进行学习,这是机器学习领域极大的进步,显著降低了开发和使用难度。
3。成本进一步降低。虽然 Mobile Aloha 公布的硬件成本仍然高达三万多美元,但这是包括了一个移动底座的。如果只算机械臂,似乎也能勉强当做一个高端家电。移动底座这个东西可能是下一个热点之一,比如近期一些投资特斯拉的逻辑就是「不要把它当做电动车,要把它当做下一代的通用移动底座」。
Jim Fan 是这个领域最大的 KOL 之一,他本人是英伟达的高级科学家,也曾是 OpenAI 的第一个实习生。他在前不久的一则推文里阐述了他为什么认为机器人将是 2024 年最大的热点。
但是即使在这篇热情洋溢的推文里,Jim 认为「通用的物理 AI 机器人」也还需要三年左右。
对此,笔者是谨慎乐观的,乐观是看到如此大的进步,谨慎则是有了微软的前车之鉴。
但是有一点是确定的,它,确实很令人振奋。
欢迎加入深潮TechFlow官方社群