File tree Expand file tree Collapse file tree
Expand file tree Collapse file tree Original file line number Diff line number Diff line change 111111![ 编辑分段] ( ../../img/dataset/processing.png )
112112
113113
114+
115+
114116### 1.2 Web 站点知识库
115117
116118!!! Abstract ""
Original file line number Diff line number Diff line change 1+ # 自定义分词
2+
3+
4+ ## 功能概述
5+
6+
7+ !!! Abstract ""
8+
9+ 自定义分词功能允许管理员为知识库添加专业术语词典,避免专业术语在检索时被错误拆分,从而提升全文检索和混合检索的精准度与召回率。
10+
11+ ## 功能价值
12+
13+ ### 核心问题
14+
15+ 在中文分词中,专业术语常常被错误拆分:
16+
17+ | 术语 | 错误拆分 | 正确处理 |
18+ | ------| -------| ------------|
19+ | 小米手机 | 小米、手机 | 小米手机(作为整体) |
20+ | 苹果手机 | 苹果、手机 | 苹果手机(作为整体) |
21+ | 人工智能 | 人工、智能 | 人工智能(作为整体) |
22+
23+ ### 应用价值
24+
25+ - ** 精准匹配** :确保专业术语作为完整单元进行检索
26+ - ** 召回率提升** :避免因术语拆分导致的漏检
27+ - ** 行业适配** :支持企业自定义行业术语词典
28+
29+
30+
31+ ## 操作指南
32+
33+
34+
35+ ### 1. 创建词语
36+
37+ !!! Abstract ""
38+
39+ 点击「创建词语」按钮,输入需要保留的专业术语,支持快速创建多个词语(一行一个)。
40+ ![ img.png] ( ../../img/dataset/create_word.png )
41+
42+ ### 2. 执行分词索引
43+
44+ !!! Abstract ""
45+
46+ 添加术语后,点击「分词索引」按钮,系统将重新生成文档的分词索引。
47+ ![ img.png] ( ../../img/dataset/word_index.png )
48+
49+
50+ ### 注意事项
51+
52+ - 自定义词语生效范围:仅对** 全文检索** 和** 混合检索** 生效
53+ - 添加新术语后需重新执行分词索引才能生效
54+ - 词语支持范围:建议使用纯中文术语,避免包含空格、特殊字符
55+
56+ ## 技术原理
57+
58+ ### 检索流程
59+
60+ ```
61+ 用户提问 → 读取术语库 → 配置分词器 → 分词处理 → 匹配检索
62+ ```
63+
64+ ### 缓存机制
65+
66+ 系统会缓存已配置的分词器实例(有效期1小时),避免重复创建,提升检索性能。
67+
68+ ### 适用检索模式
69+
70+ | 检索模式 | 是否生效 | 说明 |
71+ | ---------| ---------| ------|
72+ | 全文检索 | ✓ | 基于关键词匹配,使用分词器 |
73+ | 混合检索 | ✓ | 全文检索部分使用分词器 |
74+ | 向量检索 | ✗ | 基于语义相似度,不使用分词 |
75+
Original file line number Diff line number Diff line change 8585 - 文档 : user_manual/dataset/doclist.md
8686 - 工作流 : user_manual/dataset/workflow.md
8787 - 问题 : user_manual/dataset/problem.md
88+ - 自定义分词 : user_manual/dataset/word_tokenize.md
8889 - 命中测试 : user_manual/dataset/hit-testing.md
8990 - 智能体 :
9091 - 智能体概述 : user_manual/app/app.md
You can’t perform that action at this time.
0 commit comments