|
1 | | -## 1. 产品概述 |
2 | | -数字人项目是一个基于Web技术的3D虚拟人物交互系统,通过整合3D建模、语音交互、行为控制等技术,为用户提供逼真的虚拟人物交互体验。该系统支持多平台部署,可应用于客服、教育、娱乐等多个场景。 |
3 | | - |
4 | | -目标用户包括企业客户(客服、培训)、教育机构(在线教学)、以及个人开发者(娱乐应用)。产品价值在于降低虚拟人物开发门槛,提供一站式的数字人解决方案。 |
5 | | - |
6 | | -## 2. 核心功能 |
7 | | - |
8 | | -### 2.1 用户角色 |
9 | | -| 角色 | 注册方式 | 核心权限 | |
10 | | -|------|----------|----------| |
11 | | -| 普通用户 | 邮箱注册 | 基础交互、查看数字人 | |
12 | | -| 开发者 | 邮箱+开发者认证 | 自定义数字人、API调用 | |
13 | | -| 管理员 | 后台分配 | 系统管理、用户管理 | |
14 | | - |
15 | | -### 2.2 功能模块 |
16 | | -数字人项目包含以下核心页面: |
17 | | -1. **主控制台**: 数字人预览、场景选择、参数调节 |
18 | | -2. **模型管理**: 3D模型上传、编辑、动画配置 |
19 | | -3. **语音配置**: TTS语音设置、ASR识别配置 |
20 | | -4. **行为编辑器**: 动作序列编辑、触发条件设置 |
21 | | -5. **部署管理**: 多平台打包、发布配置 |
22 | | - |
23 | | -### 2.3 页面详情 |
24 | | -| 页面名称 | 模块名称 | 功能描述 | |
25 | | -|----------|----------|----------| |
26 | | -| 主控制台 | 数字人预览区 | 实时渲染3D数字人,支持360度旋转查看,调节光照和背景 | |
27 | | -| 主控制台 | 场景选择器 | 提供多种预设场景(办公室、教室、舞台等),支持自定义场景上传 | |
28 | | -| 主控制台 | 参数调节面板 | 调节数字人大小、位置、表情强度、动作速度等参数 | |
29 | | -| 模型管理 | 模型上传 | 支持FBX、GLTF格式3D模型上传,自动检测模型完整性和兼容性 | |
30 | | -| 模型管理 | 模型编辑器 | 可视化编辑模型节点,调整骨骼权重,设置默认姿势 | |
31 | | -| 模型管理 | 动画库 | 内置常用动画(走路、挥手、说话),支持自定义动画导入 | |
32 | | -| 语音配置 | TTS设置 | 选择语音合成引擎,调节语速、音调、音量,支持多种语言和声音 | |
33 | | -| 语音配置 | ASR配置 | 设置语音识别语言、敏感度,配置唤醒词和命令词 | |
34 | | -| 语音配置 | 音频预览 | 实时预览TTS效果,录制和测试ASR识别准确性 | |
35 | | -| 行为编辑器 | 动作序列 | 创建和编辑动作序列,设置动作间的过渡时间和触发条件 | |
36 | | -| 行为编辑器 | 触发条件 | 设置基于语音、时间、用户操作的触发条件 | |
37 | | -| 行为编辑器 | 行为测试 | 实时测试行为组合效果,调试动作执行时序 | |
38 | | -| 部署管理 | 平台选择 | 支持Web、移动端、小程序等多平台部署选项 | |
39 | | -| 部署管理 | 构建设置 | 配置构建参数,优化不同平台的性能和兼容性 | |
40 | | -| 部署管理 | 发布管理 | 版本控制、灰度发布、回滚机制 | |
41 | | - |
42 | | -## 3. 核心流程 |
43 | | - |
44 | | -### 普通用户流程 |
45 | | -用户登录系统后,可以在主控制台选择预设的数字人模型和场景,通过语音或文字与数字人进行交互。系统会实时响应用户输入,驱动数字人做出相应的动作和语音回复。 |
46 | | - |
47 | | -### 开发者流程 |
48 | | -开发者可以上传自定义的3D模型,配置专属的语音参数,编辑复杂的行为逻辑,最终将自己的数字人应用部署到目标平台。 |
49 | | - |
50 | | -```mermaid |
51 | | -graph TD |
52 | | - A[登录页面] --> B[主控制台] |
53 | | - B --> C[模型管理] |
54 | | - B --> D[语音配置] |
55 | | - B --> E[行为编辑器] |
56 | | - B --> F[部署管理] |
57 | | - C --> G[模型上传] |
58 | | - C --> H[动画配置] |
59 | | - D --> I[TTS设置] |
60 | | - D --> J[ASR配置] |
61 | | - E --> K[动作编辑] |
62 | | - E --> L[触发条件] |
63 | | - F --> M[平台选择] |
64 | | - F --> N[发布部署] |
65 | | -``` |
66 | | - |
67 | | -## 4. 用户界面设计 |
68 | | - |
69 | | -### 4.1 设计风格 |
70 | | -- **主色调**: 深蓝色(#1a365d)为主,搭配白色和浅灰色 |
71 | | -- **按钮样式**: 圆角矩形设计,主要操作为实心填充,次要操作为边框样式 |
72 | | -- **字体**: 中文使用思源黑体,英文使用Inter,正文字号14px,标题字号18-24px |
73 | | -- **布局风格**: 左侧导航栏+右侧主工作区的卡片式布局 |
74 | | -- **图标风格**: 使用线性图标,保持简洁现代的风格 |
75 | | - |
76 | | -### 4.2 页面设计概览 |
77 | | -| 页面名称 | 模块名称 | UI元素 | |
78 | | -|----------|----------|--------| |
79 | | -| 主控制台 | 预览区 | 占据页面右侧70%空间,深色背景突出3D模型,底部悬浮控制条 | |
80 | | -| 主控制台 | 参数面板 | 左侧抽屉式设计,分组显示参数,滑块和数值输入框组合 | |
81 | | -| 模型管理 | 模型列表 | 网格布局展示模型缩略图,悬停显示操作按钮 | |
82 | | -| 语音配置 | 设置面板 | 标签页分组不同设置,实时波形图显示音频效果 | |
83 | | -| 行为编辑器 | 时间轴 | 底部时间轴设计,拖拽式编辑,支持缩放和关键帧设置 | |
84 | | - |
85 | | -### 4.3 响应式设计 |
86 | | -系统采用桌面端优先设计,支持1920x1080及以上分辨率。在平板设备上采用自适应布局,手机端提供简化版本的核心功能。所有交互元素都针对鼠标和触摸操作进行优化。 |
| 1 | +# MetaHuman 交互 Demo/SDK PRD(精简版) |
| 2 | + |
| 3 | +## 1. 产品定位 |
| 4 | + |
| 5 | +本项目是一个“数字人交互 Demo/SDK”,用于展示与验证: |
| 6 | + |
| 7 | +- Web 端 3D 数字人渲染与基础动画 |
| 8 | +- 语音交互(TTS/ASR,基于 Web Speech API) |
| 9 | +- 视觉镜像(摄像头 + MediaPipe,表情/头部动作映射) |
| 10 | +- 后端对话大脑(FastAPI + OpenAI,可配置;无 key 时自动回退 Mock) |
| 11 | + |
| 12 | +## 2. 目标用户 |
| 13 | + |
| 14 | +- 需要快速演示“数字人交互闭环”的开发者/方案人员 |
| 15 | +- 需要基于现有代码二次开发接入业务场景的团队 |
| 16 | + |
| 17 | +## 3. 非目标(当前版本明确不做) |
| 18 | + |
| 19 | +- 用户注册/登录/权限管理 |
| 20 | +- 模型管理后台(上传/编辑/审核/发布) |
| 21 | +- 行为编排编辑器(时间轴、复杂触发条件) |
| 22 | +- 平台化部署管理与多租户能力 |
| 23 | + |
| 24 | +## 4. 核心体验与关键路径 |
| 25 | + |
| 26 | +### 4.1 关键路径 A:文本对话驱动数字人 |
| 27 | + |
| 28 | +1. 用户打开页面(默认 Advanced 页) |
| 29 | +2. 输入文本并发送 |
| 30 | +3. 系统请求后端 `/v1/chat` 获取 `{ replyText, emotion, action }` |
| 31 | +4. 数字人表现:表情/动作同步更新;未静音时播放 TTS |
| 32 | + |
| 33 | +### 4.2 关键路径 B:语音输入驱动对话 |
| 34 | + |
| 35 | +1. 用户点击录音 |
| 36 | +2. ASR 得到文本 |
| 37 | +3. 走与文本输入相同的 `/v1/chat` 链路 |
| 38 | + |
| 39 | +### 4.3 关键路径 C:视觉镜像 |
| 40 | + |
| 41 | +1. 用户授权摄像头 |
| 42 | +2. 面板展示摄像头画面与识别到的情绪/动作 |
| 43 | +3. 数字人表情/动作随识别结果变化 |
| 44 | + |
| 45 | +## 5. 功能清单(以当前实现为准) |
| 46 | + |
| 47 | +- 3D:渲染与基础交互(旋转、环境、加载状态) |
| 48 | +- 音频: |
| 49 | + - 语音合成(TTS) |
| 50 | + - 语音识别(ASR) |
| 51 | + - 静音/录音状态与 UI 同步 |
| 52 | +- 对话: |
| 53 | + - 统一接口:`POST /v1/chat` |
| 54 | + - 有 key 走 OpenAI;无 key 或异常走 Mock |
| 55 | +- 视觉: |
| 56 | + - FaceMesh / Pose 推理 |
| 57 | + - 表情与头部动作映射 |
| 58 | + |
| 59 | +## 6. 配置与运行 |
| 60 | + |
| 61 | +### 6.1 前端 |
| 62 | + |
| 63 | +- `VITE_API_BASE_URL`:后端地址(默认 `http://localhost:8000`) |
| 64 | + |
| 65 | +### 6.2 后端 |
| 66 | + |
| 67 | +- `OPENAI_API_KEY`:可选;不配置则使用 Mock |
| 68 | +- `OPENAI_MODEL`:可选;默认 `gpt-3.5-turbo` |
| 69 | +- `OPENAI_BASE_URL`:可选;支持传入域名/`/v1`/完整路径,后端会规范化为 `.../v1/chat/completions` |
0 commit comments