北京2026年3月23日 美通社 -- 近日,银河通用机器人与真人选手的连续自主网球对打视频刷爆全网。
这背后是银河通用机器人发布的最新成果全球首个面向网球对抗的人形机器人全身实时智能规控算法:LATENT。
不靠预编程,银河通用世界范围内首次攻克人形机器人在长程、高动态对抗场景中的实时决策与复杂运动难题。
视频一经发布,央视新闻第一时间进行报道点赞;
相关内容在海外社交平台爆火,马斯克看到后立即关注回复;
AI 知名研究员 Andrej Karpathy 自发评论表示惊叹,一度“怀疑”视频是由 AI 生成。
然而,视频呈现的是一场真实“对抗”:人类与人形机器人在场地中连续多回合对拉。
但真正打动大家的,不止是“机器人能打网球”,而是:机器人不是在执行预先编程的动作,而是在像人一样全场跑动、自主决策、精确击打。
在所有运动场景中,网球是人形机器人最难的考题:
高速来球逼迫瞬时判断,全身协同决定回球质量,满场奔跑则持续考验爆发力与控制力。
那么,当机器人真正站上球场,它能否像人类运动员一样完成判断、移动与连续回合击球?
画面中,机器人迅速移动脚步调整站位,上下半身协同挥拍击球,并将球精准回击到指定位置。面对各种来球,它能够持续调整身体姿态与击球时机,与不同水平的网球对手完成多回合连续对拉。
在网球这样的高动态、高对抗环境中,机器人面对的是时速超过几十公里的来球、变幻莫测的落点轨迹,以及对手不断变化的击球节奏。
更重要的是,这一能力并非依赖预编程动作实现,而是机器人通过深度强化学习自主习得
全球首次在人形机器人上实现高动态网球对打,机器人正在实现从“机械复刻动作”向“智能决策响应”的底层跨越。
这背后,是来自银河通用与清华大学联合提出的新研究:
LATENT(Learning Athletic Humanoid Tennis Skills from Imperfect Human Motion Data)。
研究团队提出了一种新的机器人运动学习方法,使人形机器人能够从不完美的人类动作数据中学习复杂的运动技能,并在真实世界中完成高动态、高敏捷的网球击球与对打任务。
这其中的关键在于:
LATENT 并没有沿用传统“高质量遥操数据进行模仿学习”的路径,而是从现实世界更可获取的数据出发,重新设计了运动能力的学习方式。
从不完美的人类数据中,构建支持高动态、高敏捷全身运动能力的“运动小脑”
传统的人形机器人运动学习,往往依赖高质量遥操作数据进行模仿学习。但在网球这样的高动态运动场景中,这类数据几乎难以获取。
一方面,完整记录一场网球比赛的人体运动,需要高精度、大范围动作捕捉系统;另一方面,击球过程中手部细节的捕捉要求极高,使得数据采集成本极高且技几乎不可获得。
LATENT 提供了一种完全不同的思路:
它不依赖昂贵且几乎不可获得的运动员全场比赛跑动数据,也不依赖精确的击球手部轨迹,而是仅通过收集前后移动、正反手挥拍、横向步伐等碎片化动作,让机器人自主学习运动技能。
这些数据,在 LATENT 中被构建为“运动小脑”,从而解锁大范围跑动、急停调整,以及对各种来球的稳定回击能力。
换句话说,LATENT 从源头上解决了一个长期限制机器人发展的关键问题:
如何利用可获得的数据,学习复杂且不可简化的运动能力,从而打通机器人运动技能的可扩展学习路径。
定义“运动技能空间”,让动作既自然又可控
仅仅拥有动作片段,并不足以完成复杂运动任务。真正的关键在于:如何将这些零散经验组织成可执行、可泛化的运动能力。
为此,研究团队在隐空间中构建了一个“运动技能空间”。
在这一空间中:
碎片化的人类动作被组织为可组合、可泛化的技能结构;
在训练过程中,对关键自由度引入随机扰动,使技能具备可修正、可探索能力。
这一空间带来了一个非常关键的效果:
机器人不再只是复刻已有动作,而是获得了一种既保留自然运动风格、又允许细节优化的技能表示。
在强化学习驱动下,规划器可以在这个技能空间中进行采样与组合。面对不同来球,机器人可以基于球速、落点、自身姿态等信息,对步伐、挥拍节奏和身体姿态进行实时规划,在保持自然运动风格的同时实现稳定击球。
同时,在执行过程中,机器人还会根据实时感知进行微调,尤其是在击球末端对挥拍轨迹进行修正,从而实现对回球方向与落点的精细控制。
“隐空间动作屏障”:像人类网球运动员般优雅的击球
在网球这样的高动态对抗中,一个常见问题是:如果完全依赖强化学习进行探索,系统往往会发展出“投机策略”。
例如,通过抖动、非自然动作勉强完成击球任务完成了,但动作质量严重下降。
为了解决这一问题,研究团队提出了隐空间动作屏障(Latent Action Barrier, LAB)。
LAB 为策略学习提供了一种约束但不僵化的探索机制:
一方面,允许策略针对不同来球、自主跑位、击球动作灵活调整动作;另一方面,限制其不会轻易偏离人类自然运动模式。
这种“有约束的探索”,使机器人在训练过程中既能不断适应复杂环境,又不会牺牲动作的自然性与稳定性。
最终结果是:机器人不仅“能打到球”,而且能够在高动态环境中以接近人类运动员的方式完成稳定击球,且动作流畅、节奏自然。
实验验证:LATENT 不仅打得准,并且打得丝滑!
为了验证 LATENT 的性能,研究团队将策略部署在 29 自由度的人形机器人上,并在仿真与真实环境中进行了大量测试。
首先,实验系统对比了 LATANT 与经典基线算法例如:PPO、AMP 的性能表现。
LATANT 在击球成功率(SR),回球落点精准性(DE),关节顺滑程度(Smth)与关节力矩(Torque)上展现出了绝对优势:LATENT 不仅打得准,并且打得丝滑!
在真实世界测试中,机器人完成了连续 20 局的人实验类-机器人网球对拉比赛,覆盖机器人正手击球、反手击球、网前击球、后场击球等多种场景。
真实世界复杂多变,为了在不同场地、不同材质的网球地面上进行稳定击打,研究者在仿真中对地面弹性系数、空气阻力、网球质量、机器人本体动力学性质等多个方面进行了随机扰动,并借助 GPU 进行大规模强化学习训练:
实验显示,机器人在真实世界与人类进行网球对拉中,正手成功率超过 90%,反手接近 80%,网前成功率接近 90%,底线附近击球成功率超过 80%。
实验证明了 LATENT 在不同球场位置、不同击球动作的表现下均有着较高的击球成功率和击球精准度,而研究者发现域随机化的加入和训练中观察噪声的引入对机器人在真机上的性能表现起到关键作用,测试时,机器人展现出了极强的运动自然性和稳定性。
更进一步,银河通用团队在仿真中统计了机器人 400 轮的网球回击过程中的机器人全场跑动范围,并可视化了机器人在网球场上的跑动范围和击球轨迹:
实验证明,搭载 LATENT 的策略的跑动范围覆盖全场,有能力接到来自各个方向的刁钻击球!
除了人与机器人的对打,研究团队还展示了两个机器人之间的连续对练场景。这不禁让人联想到十年前通过自我博弈不断提升棋力、最终战胜柯洁的 AlphaGo。
虽然两者技术路径并不相同,但机器人之间的互动对练,也为未来机器人的自主学习与持续能力进化带来了更多想象空间。
当机器人能够像人类一样移动、判断并完成复杂运动任务时,人形机器人的应用边界也将进一步扩展。从运动娱乐到家庭服务,再到各种复杂的人机协作场景,具身智能正在逐渐走出实验室,进入真实世界。
从“打网球”,到具身智能的下一步
值得关注的是,这一突破依托于银河通用已构建的全身全手端到端具身大模型“银河星脑(AstraBrain)”。
人形机器人实现与人类网球对打,正是银河通用在人形机器人大小脑方面探索的关键一步,这一突破也为其后续在复杂场景中的落地应用展现了巨大的潜力与价值。
它所验证的是,人形机器人在复杂动态环境中已经实现实时感知、决策与全身协同控制的能力。
这种宝贵能力,是真实世界任务共同依赖的技术基础。
无论是在工业场景中的精细操作,还是在零售、服务等开放环境中的持续交互,乃至走进家庭面对更加多变的生活环境,核心都在于机器人能否在变化中保持稳定判断,在运动中自主完成闭环决策。
从这个角度看,网球并非应用终点,而是一个高度浓缩的动态能力测试场。
机器人所对应的高速移动、连续对抗与实时决策,正是复杂场景所共同具备的特征。LATENT 在这一场景中的表现,为未来更广泛的场景应用提供了坚实的能力验证。
这是全球范围内人形机器人在真实对抗环境中实现全自主运动的重要突破,更标志着银河通用机器人正引领行业,开启人形机器人运动全自主、无编排,走向场景应用的新时代。
随机文章