Skip to content

Commit a1e6ba7

Browse files
author
ShiJiashuai
committed
```
docs: 精简 PRD 与技术架构文档,聚焦 Demo/SDK 定位 将 digital-human-prd.md 从完整产品规划简化为 Demo/SDK 定位,移除用户管理、模型管理后台、行为编排编辑器、平台化部署等非当前版本功能,明确核心体验为文本对话、语音输入、视觉镜像三条关键路径,补充前后端配置说明(VITE_API_BASE_URL、OPENAI_API_KEY 等)。 重构 digital-human-technical-architecture.md,删除 Supabase 数据库设计、用户权
1 parent 4aba1a2 commit a1e6ba7

20 files changed

+561
-2251
lines changed
Lines changed: 69 additions & 86 deletions
Original file line numberDiff line numberDiff line change
@@ -1,86 +1,69 @@
1-
## 1. 产品概述
2-
数字人项目是一个基于Web技术的3D虚拟人物交互系统,通过整合3D建模、语音交互、行为控制等技术,为用户提供逼真的虚拟人物交互体验。该系统支持多平台部署,可应用于客服、教育、娱乐等多个场景。
3-
4-
目标用户包括企业客户(客服、培训)、教育机构(在线教学)、以及个人开发者(娱乐应用)。产品价值在于降低虚拟人物开发门槛,提供一站式的数字人解决方案。
5-
6-
## 2. 核心功能
7-
8-
### 2.1 用户角色
9-
| 角色 | 注册方式 | 核心权限 |
10-
|------|----------|----------|
11-
| 普通用户 | 邮箱注册 | 基础交互、查看数字人 |
12-
| 开发者 | 邮箱+开发者认证 | 自定义数字人、API调用 |
13-
| 管理员 | 后台分配 | 系统管理、用户管理 |
14-
15-
### 2.2 功能模块
16-
数字人项目包含以下核心页面:
17-
1. **主控制台**: 数字人预览、场景选择、参数调节
18-
2. **模型管理**: 3D模型上传、编辑、动画配置
19-
3. **语音配置**: TTS语音设置、ASR识别配置
20-
4. **行为编辑器**: 动作序列编辑、触发条件设置
21-
5. **部署管理**: 多平台打包、发布配置
22-
23-
### 2.3 页面详情
24-
| 页面名称 | 模块名称 | 功能描述 |
25-
|----------|----------|----------|
26-
| 主控制台 | 数字人预览区 | 实时渲染3D数字人,支持360度旋转查看,调节光照和背景 |
27-
| 主控制台 | 场景选择器 | 提供多种预设场景(办公室、教室、舞台等),支持自定义场景上传 |
28-
| 主控制台 | 参数调节面板 | 调节数字人大小、位置、表情强度、动作速度等参数 |
29-
| 模型管理 | 模型上传 | 支持FBX、GLTF格式3D模型上传,自动检测模型完整性和兼容性 |
30-
| 模型管理 | 模型编辑器 | 可视化编辑模型节点,调整骨骼权重,设置默认姿势 |
31-
| 模型管理 | 动画库 | 内置常用动画(走路、挥手、说话),支持自定义动画导入 |
32-
| 语音配置 | TTS设置 | 选择语音合成引擎,调节语速、音调、音量,支持多种语言和声音 |
33-
| 语音配置 | ASR配置 | 设置语音识别语言、敏感度,配置唤醒词和命令词 |
34-
| 语音配置 | 音频预览 | 实时预览TTS效果,录制和测试ASR识别准确性 |
35-
| 行为编辑器 | 动作序列 | 创建和编辑动作序列,设置动作间的过渡时间和触发条件 |
36-
| 行为编辑器 | 触发条件 | 设置基于语音、时间、用户操作的触发条件 |
37-
| 行为编辑器 | 行为测试 | 实时测试行为组合效果,调试动作执行时序 |
38-
| 部署管理 | 平台选择 | 支持Web、移动端、小程序等多平台部署选项 |
39-
| 部署管理 | 构建设置 | 配置构建参数,优化不同平台的性能和兼容性 |
40-
| 部署管理 | 发布管理 | 版本控制、灰度发布、回滚机制 |
41-
42-
## 3. 核心流程
43-
44-
### 普通用户流程
45-
用户登录系统后,可以在主控制台选择预设的数字人模型和场景,通过语音或文字与数字人进行交互。系统会实时响应用户输入,驱动数字人做出相应的动作和语音回复。
46-
47-
### 开发者流程
48-
开发者可以上传自定义的3D模型,配置专属的语音参数,编辑复杂的行为逻辑,最终将自己的数字人应用部署到目标平台。
49-
50-
```mermaid
51-
graph TD
52-
A[登录页面] --> B[主控制台]
53-
B --> C[模型管理]
54-
B --> D[语音配置]
55-
B --> E[行为编辑器]
56-
B --> F[部署管理]
57-
C --> G[模型上传]
58-
C --> H[动画配置]
59-
D --> I[TTS设置]
60-
D --> J[ASR配置]
61-
E --> K[动作编辑]
62-
E --> L[触发条件]
63-
F --> M[平台选择]
64-
F --> N[发布部署]
65-
```
66-
67-
## 4. 用户界面设计
68-
69-
### 4.1 设计风格
70-
- **主色调**: 深蓝色(#1a365d)为主,搭配白色和浅灰色
71-
- **按钮样式**: 圆角矩形设计,主要操作为实心填充,次要操作为边框样式
72-
- **字体**: 中文使用思源黑体,英文使用Inter,正文字号14px,标题字号18-24px
73-
- **布局风格**: 左侧导航栏+右侧主工作区的卡片式布局
74-
- **图标风格**: 使用线性图标,保持简洁现代的风格
75-
76-
### 4.2 页面设计概览
77-
| 页面名称 | 模块名称 | UI元素 |
78-
|----------|----------|--------|
79-
| 主控制台 | 预览区 | 占据页面右侧70%空间,深色背景突出3D模型,底部悬浮控制条 |
80-
| 主控制台 | 参数面板 | 左侧抽屉式设计,分组显示参数,滑块和数值输入框组合 |
81-
| 模型管理 | 模型列表 | 网格布局展示模型缩略图,悬停显示操作按钮 |
82-
| 语音配置 | 设置面板 | 标签页分组不同设置,实时波形图显示音频效果 |
83-
| 行为编辑器 | 时间轴 | 底部时间轴设计,拖拽式编辑,支持缩放和关键帧设置 |
84-
85-
### 4.3 响应式设计
86-
系统采用桌面端优先设计,支持1920x1080及以上分辨率。在平板设备上采用自适应布局,手机端提供简化版本的核心功能。所有交互元素都针对鼠标和触摸操作进行优化。
1+
# MetaHuman 交互 Demo/SDK PRD(精简版)
2+
3+
## 1. 产品定位
4+
5+
本项目是一个“数字人交互 Demo/SDK”,用于展示与验证:
6+
7+
- Web 端 3D 数字人渲染与基础动画
8+
- 语音交互(TTS/ASR,基于 Web Speech API)
9+
- 视觉镜像(摄像头 + MediaPipe,表情/头部动作映射)
10+
- 后端对话大脑(FastAPI + OpenAI,可配置;无 key 时自动回退 Mock)
11+
12+
## 2. 目标用户
13+
14+
- 需要快速演示“数字人交互闭环”的开发者/方案人员
15+
- 需要基于现有代码二次开发接入业务场景的团队
16+
17+
## 3. 非目标(当前版本明确不做)
18+
19+
- 用户注册/登录/权限管理
20+
- 模型管理后台(上传/编辑/审核/发布)
21+
- 行为编排编辑器(时间轴、复杂触发条件)
22+
- 平台化部署管理与多租户能力
23+
24+
## 4. 核心体验与关键路径
25+
26+
### 4.1 关键路径 A:文本对话驱动数字人
27+
28+
1. 用户打开页面(默认 Advanced 页)
29+
2. 输入文本并发送
30+
3. 系统请求后端 `/v1/chat` 获取 `{ replyText, emotion, action }`
31+
4. 数字人表现:表情/动作同步更新;未静音时播放 TTS
32+
33+
### 4.2 关键路径 B:语音输入驱动对话
34+
35+
1. 用户点击录音
36+
2. ASR 得到文本
37+
3. 走与文本输入相同的 `/v1/chat` 链路
38+
39+
### 4.3 关键路径 C:视觉镜像
40+
41+
1. 用户授权摄像头
42+
2. 面板展示摄像头画面与识别到的情绪/动作
43+
3. 数字人表情/动作随识别结果变化
44+
45+
## 5. 功能清单(以当前实现为准)
46+
47+
- 3D:渲染与基础交互(旋转、环境、加载状态)
48+
- 音频:
49+
- 语音合成(TTS)
50+
- 语音识别(ASR)
51+
- 静音/录音状态与 UI 同步
52+
- 对话:
53+
- 统一接口:`POST /v1/chat`
54+
- 有 key 走 OpenAI;无 key 或异常走 Mock
55+
- 视觉:
56+
- FaceMesh / Pose 推理
57+
- 表情与头部动作映射
58+
59+
## 6. 配置与运行
60+
61+
### 6.1 前端
62+
63+
- `VITE_API_BASE_URL`:后端地址(默认 `http://localhost:8000`
64+
65+
### 6.2 后端
66+
67+
- `OPENAI_API_KEY`:可选;不配置则使用 Mock
68+
- `OPENAI_MODEL`:可选;默认 `gpt-3.5-turbo`
69+
- `OPENAI_BASE_URL`:可选;支持传入域名/`/v1`/完整路径,后端会规范化为 `.../v1/chat/completions`

0 commit comments

Comments
 (0)