当前项目可能更侧重短期动作模仿(如单步抓取、简单导航),缺乏对 “长期决策任务”(如多步骤家务机器人:扫地→拖地→整理桌面,需连续决策 10 + 步动作)的支持。
能否设计 2-3 个典型长期决策示例场景(如 “厨房自主备餐”“办公室环境整理”),提供完整的场景配置文件(含环境模型、任务目标定义、奖励函数设计)、演示数据集(含人类专家完成任务的多模态演示数据)、 baseline 模型训练脚本及性能评估指标(如任务完成率、步骤冗余率、决策耗时);
新增规划算法插件接口,支持开发者集成外部长期规划算法(如强化学习中的 PPO-LSTM、符号规划中的 STRIPS 算法、大模型驱动的规划器如 GPT-4V 决策链),接口需定义统一的输入(如当前环境状态、任务目标)、输出(如长期动作序列、中间子目标)格式,及与现有模仿学习框架的衔接逻辑(如规划结果如何指导模仿学习的动作选择);
当前项目可能更侧重短期动作模仿(如单步抓取、简单导航),缺乏对 “长期决策任务”(如多步骤家务机器人:扫地→拖地→整理桌面,需连续决策 10 + 步动作)的支持。
能否设计 2-3 个典型长期决策示例场景(如 “厨房自主备餐”“办公室环境整理”),提供完整的场景配置文件(含环境模型、任务目标定义、奖励函数设计)、演示数据集(含人类专家完成任务的多模态演示数据)、 baseline 模型训练脚本及性能评估指标(如任务完成率、步骤冗余率、决策耗时);
新增规划算法插件接口,支持开发者集成外部长期规划算法(如强化学习中的 PPO-LSTM、符号规划中的 STRIPS 算法、大模型驱动的规划器如 GPT-4V 决策链),接口需定义统一的输入(如当前环境状态、任务目标)、输出(如长期动作序列、中间子目标)格式,及与现有模仿学习框架的衔接逻辑(如规划结果如何指导模仿学习的动作选择);