“苦涩的一课”(The Bitter Lesson)这个标题源自于加拿大计算机科学家理查德·S.萨顿(Richard S. Sutton)在2019年3月13日发表的一篇Blog上。萨顿一般被认为是现代计算机强化学习领域的奠基人,对强化学习领域有着莫大的贡献,包括时序差分学习和策略梯度算法等。在2014年,他与安德鲁·巴托共同获得图灵奖。
在2019年3月的这篇博客中,萨顿的核心思想是从长达70年的人工智能发展历史中,利用计算的通用方法是最有效的,在多个领域这一点都得到了证明。与此相对的是,很多的研究致力于将人类的思维逻辑提炼为机器逻辑,并强加在机器智能代理上。虽然这种方法可能在计算能力固定的短暂时间内能取得令人欣慰的效果,但从长远来看,唯一重要的仍是利用计算。一方面,摩尔定律的存在,使得算力的飞速提升存在着可能;另一方面,研究人员的精力和时间有限,投资于一种方法的时间势必会占据投资于另一种方法的时间。因此,本不冲突的两种解决方案产生的抵触,而且从历史经验来看,基于规则的方法在一定程度上阻碍了人工智能的发展。人的思维复杂到难以想象,试图于将其提炼为规则的集合并强加于代理身上的行为是不理智的,甚至可以说是错误。我们应该做的是在代理内内置能发现和捕捉这种任意复杂性的元方法。这篇博客的内容看似有些偏激,但其中的观点却在人工智能的历史中处处得到了印证,并且这种印证正在发生在我们每个人的身边。
1997年,基于大规模深度搜索的方法让计算机在国际象棋领域击败了世界冠军卡斯帕罗夫。这一结果让当时的大多数国际象棋研究人员都十分不解,因为他们一直在追求利用人类对国际象棋结构的特殊理解去训练代理。他们认为“蛮力搜索可能赢了这一次,但这并不是通用的方法,因为人类并不是这样下棋的”。在机器围棋领域,同样的情况再次出现,不过是在近二十年后的2016年,Google的AlphaGo以4:1的比分战胜了人类围棋冠军李世石,这一次人工智能的胜利依然是基于大规模的深度搜索,即蒙特卡洛树搜索。这些案例都证明,在利用人类知识或游戏的特殊结构来避免搜索方面,我们最初付出了巨大的努力,但一旦搜索大规模有效应用,所有过往的努力都被证明是徒劳无功。
萨顿在2019年写这篇博客时,举例子时尚需寻找一些特定领域。而站在2025年末的今天,我们回头看这几年AI的发展,基于计算的通用方法优于基于规则的传统方法似乎已经成为了不争的事实。2022年11月30日,本是年底平平无奇的一天,却因为一个名叫ChatGPT的聊天软件的横空出世而变得意义非凡。ChatGPT是什么,已经不用再过多介绍,因为经过短短三年,各种AI模型井喷式出现,Google、Amazon大厂纷纷入局,Anthropic等新锐企业也已经成长为行业巨头,国内的各种大模型也是数不胜数。文生文、文生图、文生视频等各种各样的大模型已经成为未来数十年的基础设施,走进每一个人的视野当中。从模型多样性来看,LLM、VLM、VLA一系列基于大量数据以Transformer为主的各类模型层出不穷;从模型应用领域来看,大模型早已不在局限于聊天,而是在代码生成、医学、传媒、城市规划等诸多领域遍地开花。这样前所未有的人工智能发展盛况,不仅是scaling-law法则的有力验证,更是对基于计算的通用方法有效性的最佳诠释。倘若萨顿这篇博客再晚几年发表,也就不用再大篇论述能证明自己观点的案例,因为这一苦涩的教训已经足够深入人心。
正如萨顿所说,虽然很多领域已经证明了错误,但我们仍然在继续犯着同样的错误,并没有吸取教训。我最近在进行具身智能方向的研究,尽管是一个刚刚兴起的方向,但其中好像又出现了错误重演的趋势。具身智能机器人是不是应该做成人形?乍一听这个问题似乎有些拗口,但这也正是问题的矛盾所在。在具身智能概念兴起之前,纯机器人界似乎就有着这一争辩,只是在机器人和人工智能深度融合之后,这一问题便可以和人工智能中规则与计算之争联系起来。支持机器人需要做成人形的可以看作是规则一派,那么支持机器人可以是任何形态,无需做成人形的就代表计算一派。前者试图将人类的构造、行为方式迁移到机器人代理身上,而后者则是不关注具体的结构,而是试图将一种可学习的通用学习框架赋予机器人,让它们能够变换成任意适应任务环境的形态,并使用同一种学习行为范式进行行动。
人形具身机器人的代表是一些传统机器人厂家的产品,例如宇树、波士顿动力,以及一些机械技术较为先进的独立公司,如小鹏、小米等。非人形阵营的代表有亚马逊、极智嘉、优傲等。当然也有些“骑墙派”,比如波士顿动力。当前市面上的现象是,人形机器人占据了90%的媒体头条,但非人形机器人赚走了90%的实际利润。这一现象深刻体现出两种流派核心思想的巨大差异,人形机器人本质是理想主义,非人形机器人则是实用主义。然而,人形机器人却获得了资本的热捧,让大众认为不是人形的机器人就不配叫智能。在我看来,这是萨顿提出的“规则”流派错误的一次复演,并且是一次耗费巨大资源、人力,影响非常之大的一次“重蹈覆辙”。
如果剥去科幻滤镜,从工程落地和商业发展的视角来看,强行把机器人做成人形,往往是在跟物理学和经济规律对着干。人形的具身机器人是一种对具身机器人的过度定义,要求机器人在极其受限的形态下完成任务。首先是从能效的角度分析,人类的身体是生物进化的奇迹,肌肉能量密度极高且代谢高效,而机器人只能用电机和电池进行拙劣的模仿。由于双足行走在物理上是“倒立摆”模型,因此机器人需要消耗大量能量来维持身体姿态,这导致其能量利用率极低,续航极短且载重自重比远低于轮式机器人的问题。从控制的角度看,人形机器人需要有40+个自由度,相比之下轮式机械臂机器人只有6-7个自由度。自由度的倍数增长带来的是简单如行走、抓取这样简单的任务也需要高效、低延迟的计算去协调全身的电机,带来了极大的算力浪费。从成本的角度,做成人形的机器人需要昂贵的谐波减速器、力矩电机和液压系统,成本高昂。此外,越复杂的结构意味着越脆弱,摔倒是人形机器人的常态,而每一次摔倒都可能意味着精密传感器的损坏和昂贵的维修费用。
非人形机器人放弃人形设计,意味着解开了物理束缚,也遵循了“形式追随功能”这一工业设计的黄金法则。当机器人将双腿替换为滚轮或履带的时候,它们便不需要复杂的算法来维持站立,断电也不会摔倒,为上层规划和感知释放大量算力的同时,还有着平地上无可比拟的能效比与运动能力。双手也可以替换为特定场景下的工具。例如简单的拧螺丝任务,机器人的双手替换为螺丝刀后,便不再需要模仿人类进行一系列复杂的抓握、对准、旋转任务,这样的精度和速度能够快上几个数量级。另一方面,当把机器人身上的部件替换成现有的工业产品后,不仅能够大幅降低成本,提升稳定性和可靠性,还能让机器人更多地突破人类的极限。例如,机器人并不需要固定为两只手,而是可以三只、四只甚至更多,能同时并行完成多个任务;摄像头也不是一定要装在头上,可以装在后面,也可以360°无死角观测。这些突破在很多场景下是人类所无法完成的。
由两种机器人的对比可见,非人形机器人拥有非常多的优势,但它们依然被很多人冠以“不够多能”的标签。相比之下,拥有大量通用组件的人形机器人却能得到90%的关注和大量的投资。我们抛却一些炫技和资本运作的成分去分析这一现象,那就是赤裸裸的“错误”,是我们前文中提到的苦涩的教训。不过人们并没有对这一错误避而不及,反倒是在具身智能领域展现出了一些趋之若鹜的意思。当然,在2025年,我们分析问题也不能绝对地从问题本身去看,一个行业的发展和兴起离不开资本的涌入、公众的关注和政府的站台。人形机器人天然满足了大众对机器人的“最终幻想”,为机器人领域的发展博得了大量资本,也获得了政府部门的认可,其存在在当下社会是有其合理性和必要性的。
在这篇文章中,我从萨顿“苦涩的一课”这篇博客出发,介绍了萨顿对人工智能“规则”与“计算”两个流派的看法,然后以近两年热火朝天的生成式大模型对“计算”流派的印证为出发点,引入我对当前具身智能领域“人形”与“非人形”之争的一些见解。分析该问题不是为了贬低谁,也并非为了批判与否定别人的研究成果,只是希望更多的人在这个信息洪流时代可以透过表象看一些问题,去做出更加理性的抉择。具身智能如此,人工智能如此,其他领域亦如此。