Skip to content

Commit 33d8bc6

Browse files
committed
v2.10.0-word_tokenize-1-update
1 parent bb0e3f0 commit 33d8bc6

1 file changed

Lines changed: 25 additions & 22 deletions

File tree

docs/user_manual/dataset/word_tokenize.md

Lines changed: 25 additions & 22 deletions
Original file line numberDiff line numberDiff line change
@@ -11,20 +11,22 @@
1111
## 功能价值
1212

1313
### 核心问题
14+
!!! Abstract ""
1415

15-
在中文分词中,专业术语常常被错误拆分:
16-
17-
| 术语 | 错误拆分 | 正确处理 |
18-
|------|-------|------------|
19-
| 小米手机 | 小米、手机 | 小米手机(作为整体) |
20-
| 苹果手机 | 苹果、手机 | 苹果手机(作为整体) |
21-
| 人工智能 | 人工、智能 | 人工智能(作为整体) |
16+
在中文分词中,专业术语常常被错误拆分:
17+
18+
| 术语 | 错误拆分 | 正确处理 |
19+
|------|-------|------------|
20+
| 小米手机 | 小米、手机 | 小米手机(作为整体) |
21+
| 苹果手机 | 苹果、手机 | 苹果手机(作为整体) |
22+
| 人工智能 | 人工、智能 | 人工智能(作为整体) |
2223

2324
### 应用价值
25+
!!! Abstract ""
2426

25-
- **精准匹配**:确保专业术语作为完整单元进行检索
26-
- **召回率提升**:避免因术语拆分导致的漏检
27-
- **行业适配**:支持企业自定义行业术语词典
27+
- **精准匹配**:确保专业术语作为完整单元进行检索
28+
- **召回率提升**:避免因术语拆分导致的漏检
29+
- **行业适配**:支持企业自定义行业术语词典
2830

2931

3032

@@ -48,28 +50,29 @@
4850

4951

5052
### 注意事项
51-
52-
- 自定义词语生效范围:仅对**全文检索****混合检索**生效
53-
- 添加新术语后需重新执行分词索引才能生效
54-
- 词语支持范围:建议使用纯中文术语,避免包含空格、特殊字符
53+
!!! Abstract ""
54+
- 自定义词语生效范围:仅对**全文检索****混合检索**生效
55+
- 添加新术语后需重新执行分词索引才能生效
56+
- 词语支持范围:建议使用纯中文术语,避免包含空格、特殊字符
5557

5658
## 技术原理
5759

5860
### 检索流程
61+
!!! Abstract ""
62+
63+
用户提问 → 读取术语库 → 配置分词器 → 分词处理 → 匹配检索
5964

60-
```
61-
用户提问 → 读取术语库 → 配置分词器 → 分词处理 → 匹配检索
62-
```
6365

6466
### 缓存机制
6567

6668
系统会缓存已配置的分词器实例(有效期1小时),避免重复创建,提升检索性能。
6769

6870
### 适用检索模式
71+
!!! Abstract ""
6972

70-
| 检索模式 | 是否生效 | 说明 |
71-
|---------|---------|------|
72-
| 全文检索 || 基于关键词匹配,使用分词器 |
73-
| 混合检索 || 全文检索部分使用分词器 |
74-
| 向量检索 || 基于语义相似度,不使用分词 |
73+
| 检索模式 | 是否生效 | 说明 |
74+
|---------|---------|------|
75+
| 全文检索 | ✓ | 基于关键词匹配,使用分词器 |
76+
| 混合检索 | ✓ | 全文检索部分使用分词器 |
77+
| 向量检索 | ✗ | 基于语义相似度,不使用分词 |
7578

0 commit comments

Comments
 (0)