长序列具身行为规划
长序列具身行为规划是一个复杂的序贯决策问题。其核心是要求一个具身智能体(如机器人)在与物理或虚拟环境的持续交互中,为了达成一个远期的、通常由高级指令描述的复杂目标,自主地生成并执行一个在时间上跨度长、在逻辑上具有强依赖关系、在执行上需保持连贯的行为序列。
具身行为规划术语
具身智能体将人类指令拆解为一系列可执行技能的过程通常称为“任务规划”。“任务规划 (Task Planning)”是计算机领域的通俗说法,但在具身智能语境下,该术语未能充分体现智能体与物理环境交互的特性。对此,我们提出“具身行为规划 (Embodied Behavior Planning)” 这一专业术语。具身行为规划,是指具身智能体(如机器人、虚拟智能体)为完成复杂任务,在物理环境约束下,自主生成并决策出一系列具有语义的高层行为序列的认知过程。
该术语入选全国科技名词审定委员会2025年度计算机科学技术研究前沿热点词。由中国计算机学会 (CCF)发布,标志着该术语已成为定义具身智能决策问题的学术标准,体现了学术界对该定义的广泛关注与认可。
新闻链接 | 哈工大SCIR提出的『具身行为规划』入选2025年度计算机科学技术研究前沿热点词
挑战杯“挑战之星”特等奖
由DT组王雪松担任队长,王寄哲、冯怀绪、段传喜、酆铄、乔思远、以及LA组韩子玙、郑书航、方恒杰、董轩作为队员的团队,在挑战杯人形机器人具身智能长时序规划赛道全国总决赛中获得第一名,荣获“挑战之星”特等奖。

该比赛设置三项任务:地形穿越、物品分拣、归货入库。针对地形穿越中地形复杂无规律、模型行为难控制的挑战,团队提出面向复杂地形的强化学习模型融合技术,通过多目标引导的强化学习、多策略结合的模型融合分别解决了地形适应性和行为稳定性问题。在物品分拣任务中,针对抓取路径不唯一导致搜索空间大、静态策略不灵活闭环难的问题,团队设计面向多种场景的模仿学习精巧控制技术,结合人类演示模仿学习、视觉-动作闭环控制,任务成功率大幅超过传统策略。在归货入库任务中,针对多环节联合建模难,多角度协同优化慢的问题,团队提出面向负载场景的自进化稳定控制技术,通过代码形式统一表示、智能体自主进化,大幅度降低任务完成用时,并提高方法鲁棒性、稳定性。
长序列规划DEMO
基于DT组在具身长序列行为规划方面的研究积累,团队构建了长序列规划演示系统。该系统可以测试具身智能体在复杂环境中完成长序列任务的能力。用户可以在系统中输入任务指令,或者选择主流数据集中的指令,选取相应的仿真环境,系统将自动进行规划,并可视化展示规划结果。