Skip to content

Commit bb0e3f0

Browse files
committed
v2.10.0-word_tokenize-update
1 parent dbf65a2 commit bb0e3f0

6 files changed

Lines changed: 78 additions & 0 deletions

File tree

docs/img/dataset/create_word.png

108 KB
Loading

docs/img/dataset/dataset_del.png

1.32 KB
Loading

docs/img/dataset/word_index.png

96.4 KB
Loading

docs/user_manual/dataset/dataset.md

Lines changed: 2 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -111,6 +111,8 @@
111111
![编辑分段](../../img/dataset/processing.png)
112112

113113

114+
115+
114116
### 1.2 Web 站点知识库
115117

116118
!!! Abstract ""
Lines changed: 75 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,75 @@
1+
# 自定义分词
2+
3+
4+
## 功能概述
5+
6+
7+
!!! Abstract ""
8+
9+
自定义分词功能允许管理员为知识库添加专业术语词典,避免专业术语在检索时被错误拆分,从而提升全文检索和混合检索的精准度与召回率。
10+
11+
## 功能价值
12+
13+
### 核心问题
14+
15+
在中文分词中,专业术语常常被错误拆分:
16+
17+
| 术语 | 错误拆分 | 正确处理 |
18+
|------|-------|------------|
19+
| 小米手机 | 小米、手机 | 小米手机(作为整体) |
20+
| 苹果手机 | 苹果、手机 | 苹果手机(作为整体) |
21+
| 人工智能 | 人工、智能 | 人工智能(作为整体) |
22+
23+
### 应用价值
24+
25+
- **精准匹配**:确保专业术语作为完整单元进行检索
26+
- **召回率提升**:避免因术语拆分导致的漏检
27+
- **行业适配**:支持企业自定义行业术语词典
28+
29+
30+
31+
## 操作指南
32+
33+
34+
35+
### 1. 创建词语
36+
37+
!!! Abstract ""
38+
39+
点击「创建词语」按钮,输入需要保留的专业术语,支持快速创建多个词语(一行一个)。
40+
![img.png](../../img/dataset/create_word.png)
41+
42+
### 2. 执行分词索引
43+
44+
!!! Abstract ""
45+
46+
添加术语后,点击「分词索引」按钮,系统将重新生成文档的分词索引。
47+
![img.png](../../img/dataset/word_index.png)
48+
49+
50+
### 注意事项
51+
52+
- 自定义词语生效范围:仅对**全文检索****混合检索**生效
53+
- 添加新术语后需重新执行分词索引才能生效
54+
- 词语支持范围:建议使用纯中文术语,避免包含空格、特殊字符
55+
56+
## 技术原理
57+
58+
### 检索流程
59+
60+
```
61+
用户提问 → 读取术语库 → 配置分词器 → 分词处理 → 匹配检索
62+
```
63+
64+
### 缓存机制
65+
66+
系统会缓存已配置的分词器实例(有效期1小时),避免重复创建,提升检索性能。
67+
68+
### 适用检索模式
69+
70+
| 检索模式 | 是否生效 | 说明 |
71+
|---------|---------|------|
72+
| 全文检索 || 基于关键词匹配,使用分词器 |
73+
| 混合检索 || 全文检索部分使用分词器 |
74+
| 向量检索 || 基于语义相似度,不使用分词 |
75+

mkdocs.yml

Lines changed: 1 addition & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -85,6 +85,7 @@ nav:
8585
- 文档: user_manual/dataset/doclist.md
8686
- 工作流: user_manual/dataset/workflow.md
8787
- 问题: user_manual/dataset/problem.md
88+
- 自定义分词: user_manual/dataset/word_tokenize.md
8889
- 命中测试: user_manual/dataset/hit-testing.md
8990
- 智能体:
9091
- 智能体概述: user_manual/app/app.md

0 commit comments

Comments
 (0)