@@ -74,7 +74,7 @@ VALUES ('TextFormatter', 'TXT文本抽取', '抽取TXT中的文本。', '1.0.0',
7474 (' FileWithHighSpecialCharRateFilter' , ' 文档特殊字符率检查' , ' 去除特殊字符过多的文档。' , ' 1.0.0' , ' text' , ' text' , null , ' {"specialCharRatio": {"name": "文档特殊字符率", "description": "特殊字符的统计数/文档总字数 > 设定值,该文档被去除。", "type": "slider", "defaultVal": 0.3, "min": 0, "max": 1, "step": 0.1}}' , ' ' , ' false' ),
7575 (' DuplicateFilesFilter' , ' 相似文档去除' , ' 相似文档去除。' , ' 1.0.0' , ' text' , ' text' , null , ' {"fileDuplicateThreshold": {"name": "文档相似度", "description": "基于MinHash算法和Jaccard相似度,计算当前文档与数据集中其它文档相似性,超过设定值,该文档被去除。", "type": "slider", "defaultVal": 0.5, "min": 0, "max": 1, "step": 0.1}}' , ' ' , ' false' ),
7676 (' FileWithManySensitiveWordsFilter' , ' 文档敏感词率检查' , ' 去除敏感词过多的文档。' , ' 1.0.0' , ' text' , ' text' , null , ' {"sensitiveWordsRate": {"name": "文档敏感词率", "description": "敏感词的字数/文档总字数 > 设定值,该文档被去除。", "type": "slider", "defaultVal": 0.01, "min": 0, "max": 1, "step": 0.01}}' , ' ' , ' false' ),
77- (' FileWithShortOrLongLengthFilter' , ' 文档字数检查' , ' 字数不在指定范围会被过滤掉。' , ' 1.0.0' , ' text' , ' text' , null , ' {"fileLength": {"name": "文档字数", "description": "过滤字数不在指定范围内的文档,如[10,10000000]。若输入为空,则不对字数上/下限做限制。", "type": "range", "properties": [{"name": "fileMinimumLength", "type": "inputNumber", " defaultVal": 10, "min": 0, "max": 10000000000000000, "step": 1}, {"name": "fileMaximumLength", "type": "inputNumber", "defaultVal": 10000000, "min": 0, "max": 10000000000000000, "step": 1}] }}' , ' ' , ' false' ),
77+ (' FileWithShortOrLongLengthFilter' , ' 文档字数检查' , ' 字数不在指定范围会被过滤掉。' , ' 1.0.0' , ' text' , ' text' , null , ' {"fileLength": {"name": "文档字数", "description": "过滤字数不在指定范围内的文档,如[10,10000000]。若输入为空,则不对字数上/下限做限制。", "type": "range", "defaultVal": [ 10, 10000000] , "min": 0, "max": 10000000000000000, "step": 1}}' , ' ' , ' false' ),
7878 (' ContentCleaner' , ' 文档目录去除' , ' 去除文档中的目录。' , ' 1.0.0' , ' text' , ' text' , null , null , ' ' , ' false' ),
7979 (' AnonymizedCreditCardNumber' , ' 信用卡号匿名化' , ' 信用卡号匿名化' , ' 1.0.0' , ' text' , ' text' , null , null , ' ' , ' false' ),
8080 (' EmailNumberCleaner' , ' 邮件地址匿名化' , ' 邮件地址匿名化' , ' 1.0.0' , ' text' , ' text' , null , null , ' ' , ' false' ),
0 commit comments