新增 “长期决策任务” 示例场景与规划算法插件接口

当前项目可能更侧重短期动作模仿（如单步抓取、简单导航），缺乏对 “长期决策任务”（如多步骤家务机器人：扫地→拖地→整理桌面，需连续决策 10 + 步动作）的支持。
能否设计 2-3 个典型长期决策示例场景（如 “厨房自主备餐”“办公室环境整理”），提供完整的场景配置文件（含环境模型、任务目标定义、奖励函数设计）、演示数据集（含人类专家完成任务的多模态演示数据）、 baseline 模型训练脚本及性能评估指标（如任务完成率、步骤冗余率、决策耗时）；
新增规划算法插件接口，支持开发者集成外部长期规划算法（如强化学习中的 PPO-LSTM、符号规划中的 STRIPS 算法、大模型驱动的规划器如 GPT-4V 决策链），接口需定义统一的输入（如当前环境状态、任务目标）、输出（如长期动作序列、中间子目标）格式，及与现有模仿学习框架的衔接逻辑（如规划结果如何指导模仿学习的动作选择）；