Q1. 王仲远:如何看待近年来的具身智能研究热潮,这个热潮能持续多久?
赵明国:我也在不断地更新我的观念。我并非最顶尖的聪明人,不是每件事都能跟上。有些技术浪潮我能赶上,有些则不能。现在很多公司也是这样,在上一波智能技术浪潮中表现很好,但这一波就可能会慢下来。在2014年那波技术浪潮中,我们在实验室中尝试直接对实物做强化学习,但经过一番争论后放弃了。现在的机器人研究者将强化学习用得很好,但我们很晚才赶上这一波。我的感受是,发展是有阶段性的,有成本的考虑。
回顾历史,很多事情在上一个时代也做过,我认为应该把传统技术和前沿技术结合起来。以前我们在信息量很少的情况下也可以精准建模,模型是我们脑海里世界的真实反应。但这一波技术浪潮用到的知识和技术非常多,要把它们深刻理解透挺难的。即使我们取得一些很好的结果,也不见得懂得了技术背后的真正含义。我认为要非常谨慎地拥抱新技术,反复思考技术的过去、现在、未来,包括具身智能的概念。
具身智能强调的是智能。传统智能机器人强调的是机器人。随着研究的不断深入,大家对二者之间的关系会有不同的理解和思考。
王鹏:具身智能不是一个新概念,这个概念在二十年前就有了,只不过更早时是强调机器人本体加上一定的人工智能,增强的是本体本身的能力。具身智能的发展初期,移动和感知能力迅速提升,而操作能力因人工智能的限制而相对滞后。近年来,人工智能的进步推动了硬件与软件的结合,使得移动和操作能力变得更为复杂。同时,人工智能的发展也对硬件提出了更高的要求,硬件和软件的迭代相互促进。
Q2. 王仲远:半年来,整个具身智能行业发生了怎样的变化?
王鹤:在学术界和初创公司中,具身智能技术正迅速发展。初创公司面临的挑战是确定具身智能技术在哪些场景中能够实际应用,以及通用机器人是否能够比专用机器人更广泛地打开市场。过去半年,许多初创公司展示了他们在汽车制造领域的技术,如电池拾取和更复杂的操作。车厂成为了具身智能技术落地的一个主要领域,因为它们有明确的需求并且有能力支付。
然而,许多研究的演示仍然只存在于视频中,真正的挑战在于将技术整合到生产线中,确保全天无故障运行以满足车厂的期望。在零售领域也有所尝试。学术界则呈现出多样化的研究,专注于家庭服务机器人,特别是抓取和放置的基本功能。
站在工业界和学术界的交汇点,我强调需要务实的态度。在讨论技术实现时,必须明确实现的条件、训练成本和预期效果。否则,我们可能会陷入无法实现的神话或无能为力的现实之间。我们团队的理念是利用大数据来优化抓取和放置这两个基本动作,这能够解决许多实际问题,并且学术研究在这一领域还有很大的发展空间。
顾捷:今年,人形机器人行业异常火热,竞争激烈。五年前,这个领域还很孤独,参与者寥寥无几。特斯拉推出人形机器人后,公众对这一概念的接受度提高,不再需要过多解释。ChatGPT的出现预示着从固定编程向学习型算法的转变,预示着新的智能终端可能出现。然而,机器人技术尚未达到iPhone那样的突破时刻,大模型还处于早期阶段,无法精确控制机器人进行复杂操作,现实世界的理解仍有待提高。
回想七八年前,外骨骼机器人领域也有过类似的热潮,但最终只有极少数公司成功。预计人形机器人在未来几年也会面临激烈的竞争。尽管如此,行业的快速发展令人兴奋,吸引了大量人才和资金。客户开始探索人形机器人在各种场景中的应用,这为行业带来了巨大的推动力。同时,行业也存在一定的焦虑。
目前,行业分为几个部分:一些公司以大模型为核心做研发,一些则专注于机器人本体和身体制造,还有公司专注于核心零部件。目前行业还未完全进入下游应用阶段,场景尚未成熟。预计未来将有大量公司专注于下游应用和开发,而不是大脑、本体和零部件的制造。这需要整个生态系统的合作,包括车厂和各种场景的应用集成。我们对行业明年的发展保持乐观态度,但竞争将持续存在。
冷晓琨:自2016年成立以来,乐聚机器人一直致力于双足人形机器人的研发。在公司成立初期,乐聚专注于开发能够行走的机器人,很多投资人对此持怀疑态度。然而,随着特斯拉等公司对人形机器人的推广,公众的认知和接受度有了显著提升,乐聚的愿景和努力开始得到更多的认可和支持。
到了2023年,乐聚机器人的发展迎来了转折点。随着国家政策的支持,人形机器人行业开始迅速发展,从最初的几家公司增加到数百家。这一变化标志着人形机器人行业的爆发期可能比预期提前了三到五年。具身智能和大模型确实让大家看到了通用机器人和人形机器人爆发的可能性。尽管如此,技术迭代仍然按照常规速度进行,这意味着虽然大众的认知提前了,但技术发展仍需时间。
过去,人们对机器人的期望是既便宜又智能,但如何实现这一点尚不清楚。现在,虽然看到了实现这些目标的路径,但技术还未完全融合。2022年之前,研究集中在机器人的行走技术上,但随着各种行走视频的普及,人们对机器人行走的能力已不再新奇。现在,关注的焦点转移到了如何将机器人融入实际场景。
Q3.王仲远:潘家怡博士,您为何选择Agent和具身智能作为自己的研究方向?
潘家怡:随着具身智能逐渐工程化,它不再适合作为博士生的主要研究课题,因为工业界的竞争压力巨大。现在,博士生更倾向于选择更前沿的研究方向。这些领域仍有许多未探索的内容,科研人员正在逐步点亮科技树,寻找技能配方。在这种情况下,博士生有机会进行更有意义的研究工作。
Q4.王仲远:赵老师,您提到了现阶段机器人的稳定性需要进一步加强。怎么看待现在本体研发的真实状况呢?
赵明国:机器人的应用正在扩展,但面临成本与智能之间的矛盾。虽然已有扫地机器人等产品,但要实现更高级的应用,要进入工厂的生产环节存在巨大挑战。这需要巨大的投入,但若不尝试,问题无法解决。
目前,扫地机、泳池机、割草机等智能产品不断演进,但要从这些产品直接过渡到人形机器人进工厂,需要探索中间态,逐步推进技术发展,而不是一开始就追求高难度应用。
具身智能更侧重于方法论,而智能机器人则侧重于应用。企业在开发智能机器人,学术界在研究具身智能,两者的结合不一定要一开始就完全理解具身智能或立即应用,而是要找到能满足的应用场景,以此推动发展。
尽管技术尚未完善,但企业家们应寻找现有具身智能的应用机会,而学术界和研究院则应致力于解决原理、机理和方法上的未解决问题。不应只集中在工厂应用,而应探索更广泛的应用场景。
Q5.王仲远:如何看待人形机器人落地的速度?
顾捷:认同马斯克关于未来人形机器人数量超人类的愿景,但短期内应用落地速度不宜过于乐观。目前产品需迭代一到两代才能实现高频、高负载和商品化使用。仍然需要发展技术,明年全球能落地千台以上人形机器人就很不容易了,大规模应用需技术突破和商品化。与过去相比,人形机器人市场已拓展至院校科研外,尝试POC后可能带来一定需求。
Q6.王仲远:乐聚怎么看人形机器人在接下来一两年的发展?
冷晓琨:人形机器人正成为产业新热点,预计从今年下半年到明年将有显著发展。进入产业的初期,效率和成本可能不理想,但随着资源的整合和国内产业需求的推动,迭代将加速。乐聚正与一汽、蔚来等公司合作,探索工业场景应用, 逐步让人形机器人达到实际工业场景的效率需求。
尽管工业场景为人形机器人提供了一个中转点,但真正的爆发点预计将在服务家庭场景,这可能在未来10至15年内实现。目前,企业和研究机构正在探索中间阶段的应用场景,以确保在人形机器人大规模普及前能够生存下来。
Q7.王仲远:灵巧手开始从实验室进入到产业阶段了吗?灵巧手有这么多的自由度,到底多少自由度是够的?
王鹏:这波人形机器人和具身智能的热潮与特斯拉的战略及大模型的快速发展紧密相关。特斯拉的灵巧手发展迅速,从第一代的1个关节自由度和6个驱动自由度,第二代是11个关节自由度和10个驱动自由度,第三代是的22个关节自由度和17个驱动自由度。这种发展不仅体现在自由度的增加,还体现在实用性上,特斯拉的出发点是让灵巧手逐步变得可用。
我们的团队多年前就开始研发灵巧手,包括结合AI的类人灵巧手操作能力。最初,人们关注的是灵巧手能做什么,现在则更多地关注手和人形机器人的结合,以及它们在各种案例中的应用潜力。灵巧手的发展涉及硬件本体的进步,包括自由度、负载能力、寿命和成本。
灵巧手作为硬件载体,需要与大模型和AI结合以释放其能力。在特种应用领域,如遥操作抓取和放置,现在还需要人的参与。在工业领域,灵巧手需要一定的柔性和适应性,这还有一段距离。家庭中需要具有操作能力的机器人,但目前还没有类似产品。因此,无论是灵巧手还是结合AI的灵巧手,通过与全身和AI协同形成的通用操作能力产品,在技术、产业和落地方面都有很大的前景。
Q8.王仲远:您认为灵巧手的研发目前达到了什么阶段,什么时候可以进入产业界呢?
王鹤:灵巧手是最终通向C端并不可少的终端,它能覆盖很多不同的任务。从技术上来讲,我们对灵巧手的硬件和数据、智能都进行了深入研究。灵巧手是整个人形机器人里最难的硬件。因为它把极大的自由度浓缩在一个非常小的体积里,我们必须得在它的力量、自由度和价格、可靠性这四个层面做权衡。目前还没有一个方案兼具低成本、高灵巧度、高可靠性、力量。灵巧手是个典型的具身智能应用场景,它需要软硬件和数据联合迭代优化。可能在第一波具身智能的落地中,灵巧手不会扮演一个主要的角色。但是在具身智能真正大爆发来临之前,我们一定要把灵巧手技术做好,无论是软件还是智能。
Q9.王仲远:行业传说特斯拉用几百台机器人采征数据,在WeRobot的展示非常丝滑,您认为是摇操作吗?通过征集数据,真的能实现泛化智能吗?
王鹤:我认为特斯拉的Optimus Gen2表现不错,得益于其完整的供应链,特斯拉在人形机器人迭代上速度领先。控制频率和精确度令人印象深刻。对于其展示,我认为并非遥控操作。视频中,机器人在桌子上摆放相同礼品袋的情况下,能够精准抓取,展现出类似人类的肢体语言。
我猜测这使用了数字人技术,同步生成语音和身体动作,给人一种真人的错觉。但它的抓取泛化性仅限于特定物体,未展示对其他物体的抓取能力。此外,操作环境如位置、灯光、桌子高度等均未变化,因此其泛化性可能仅限于特定条件。
总的来说,特斯拉的硬件水平值得认可,但我们仍在追赶中。真实世界数据与仿真数据在泛化性上存在差异。
Q10.王仲远:Agent的研究有哪些主要的待解决问题,包括物理世界和数字世界的Agent,有什么区别?
潘家怡:Anthropic最近发布了Claude新模型,其中包括一个基础功能“computer use”,即用语言模型直接控制电脑。这是技术发展的一个步骤,表明我们正在逐步推进相关技术。
无论是控制机器人还是电脑,目标都是完成任务,且在有人参与的世界中进行。可以构建认知信息的数据很多。但缺少动作数据,如机器人如何移动或电脑操作细节。
这导致验证任务成功比执行任务本身简单。询问语言模型任务是否成功相对容易,但让大模型执行任务则困难。
现有数据提供了关于世界的知识和路径规划能力,我们可以通过强化学习或模仿学习补充动作数据。将这些融合,可能会产生显著效果。
Q11.王仲远:请各位老师预测一下,在未来半年到一年时间里,哪些技术最有可能出现重大的关键时刻?哪些技术更有实际产业落地的可能性?
赵明国:未来半年到一年,我希望能看到一些不同的东西。比如倒一杯水,是运动加声音加触觉的复合作用。现在还没有关于这方面的工作。这些操作甚至和注意力机制有关系。
王鹏:技术发展和应用将并行推进,部分技术可能需要降维以适应实际落地。技术上,我们将看到端到端、交互感知和移动操作的进步,以及灵巧手在自由度、负载能力和成本效益上的提升。在应用中,可能会对技术进行简化,如将模块化感知和操作适应特定场景,或将灵巧手简化为更少的手指以满足特定需求。技术发展需快速迭代,并与应用场景紧密结合,根据实际问题确定所需技术。
王鹤:从学术上讲,我想给所有大模型的任务多做减法。给定一个 VLM,可以端到端地实现抓取等操作。智源、银河通用和北大一直在推动。我们相信在不远的时间里,我们将揭示这样的模型需要多大的数据,泛化性有多强,而不是让具身智能存在于视频和大家的幻想中。
顾捷:我最期待的是半年或者一年,甚至两到三年,实现真正意义上的视觉大模型跟机器人的结合。让大模型能直接生成动作,并且这种效果能够泛化。
冷晓琨:产业界期待具身智能和路径规划技术进入实际应用,期待泛化能力增强。虽然机器人通过强化学习学会了走路,但在精密控制和任务执行方面还有限制。未来,基于轨迹规划的强化学习将使机器人运动控制更精细。
在接下来的半年到一年内,产业界可能采用的技术仍将以分层控制为主,因为端到端控制难以实现。分层控制更节能高效,但需避免不合理分层导致的信息冗余和泛化性能不足。大脑应负责规划,而非关节控制和肌肉反馈。因此,未来应用可能仍以合理的分层控制为主。