「不可达三角」困局求解:强化学习如何重塑通用灵巧操作智能体
2024年深秋,具身智能领域再掀融资热潮。灵初智能宣布完成天使轮融资,由高瓴创投与蓝驰创投联合领投。这家英文名Proto-SentientIntelligence(缩写PsiBot)的初创企业,试图用强化学习技术破解困扰行业已久的「不可达三角」难题。
高泛化性、高灵巧性、高成功率:具身智能的三元悖论
当前具身智能面临三重核心挑战:其一,高泛化性要求机器人在变化环境中对不同物体执行复杂任务;其二,高灵巧性体现在执行任务的精确灵活,典型场景包括搭乐高、双手协同操作等;其三,高成功率意味着机器人在受干扰时仍能稳定正确执行任务,产品验证阶段需达95%,规模化落地则要求高于99.9%。
三者兼顾的技术难度极高。高泛化性需通用模型配合注重数据多样性的学习算法,高灵巧性需精细模型配合关注精度细节的学习算法及特定控制算法,鲁棒性同样对控制算法提出严苛要求。这形成了一个看似无解的技术三角。
强化学习:破解「不可达三角」的核心钥匙
灵初智能的解题思路指向强化学习。这项技术能让智能体在仿真环境中利用低成本合成数据训练,实现自主探索与试错学习最优解。更关键的是,强化学习不仅能提升灵巧性,甚至可超越人类操作上限,同时显著增强系统鲁棒性。
公司早期深耕基于强化学习的全栈能力,从灵巧操作入手在具身智能领域建立技术壁垒,后续将扩展至通用泛化操作。
分层端到端模型:Psi-P0与Psi-C0的技术架构
灵初智能开发了分层端到端模型,包含Psi-P0规划模型和Psi-C0控制模型两部分。
Psi-P0由梁一韬博士主导开发,借助大模型实现交互推理,帮助智能体理解行为对环境的影响,进而拆解复杂任务以实现任务泛化。该模型支持的任务复杂度和准确度已超越同期OpenAI的VPT和Nvidia的Minedojo工作。更重要的是,通过构建memory机制,可使具身模型具备lifelonglearning能力,即根据自身经历持续自我提升。
Psi-C0控制模型由陈源培提出,采用双层架构设计:上层利用人类运动数据训练参考轨迹生成器,下层则用生成轨迹指导强化学习训练。这一架构有效解决泛化性与灵巧性的平衡难题,并支持多个技能串联作业的训练挑战。陈源培与斯坦福大学共同提出的SequentialDexterity技术,通过串联多个灵巧操作策略完成长程任务,在真实世界的搭积木任务中,成功将翻找、重定向、抓取和插入积木四个技能串联起来,显著提升整体成功率。
商业路径:从2B服务业切入的务实选择
产品规划层面,灵初智能选择从2B服务业切入,以头部客户高价值场景需求为指引,开发整合技能集,实现商业落地。公司将快速迭代硬件、算法和数据系统,持续提升具身智能整体解决方案的泛化性、灵巧性和成功率,力求给出具身领域「不可达三角」的最优解。
