File tree Expand file tree Collapse file tree
tools/tool_minerUapi_util Expand file tree Collapse file tree Original file line number Diff line number Diff line change 1+ # 在线 MinerU API 解析 PDF 工具
2+
3+ ## 工具简介
4+ 本工具集成 ** MinerU** 官方 API,专门用于解决 RAG 场景中 PDF 解析质量差的痛点。它可以处理多栏布局、数学公式和表格,将 PDF 高精度转化为 ** Markdown** ,显著提升大模型的检索准确率。
5+
6+ ---
7+
8+ ## 核心功能
9+ * ** 智能布局分析** :精准识别标题、段落、列表,自动剔除页眉页脚干扰。
10+ * ** 公式与表格识别** :将复杂公式转为 LaTeX,表格转为标准 Markdown 格式。
11+ * ** OCR 强力加持** :支持扫描件、乱码 PDF 识别,兼容多国语言。
12+ * ** 结构化输出** :直接输出适合 LLM 处理的 Markdown 纯文本。
13+
14+ ---
15+
16+ ## 参数配置
17+
18+ ### 1. 启动参数(环境变量)
19+ | 参数名 | 组件类型 | 必填 | 描述 |
20+ | :--- | :--- | :--- | :-----------------------------------------------------------------------------------|
21+ | ` api_token ` | 密码框 | 是 | MinerU 平台的 API Token。可在 [ MinerU 官方 API 管理] ( https://mineru.net/apiManage/token ) 创建。 |
22+ | ` maxkb_base_url ` | 文本框 | 是 | ** 关键参数** :MaxKB 的外网访问地址,用于 MinerU 服务器远程下载待解析文件。 |
23+
24+ ### 2. 输入参数
25+ | 参数名 | 数据类型 | 必填 | 描述 |
26+ | :--- | :--- | :--- | :--- |
27+ | ` pdf_file_list ` | array | 是 | 引用参数,MaxKB 自动传入的文件列表。 |
28+
29+ ---
30+
31+ ## 工作流程
32+ 1 . ** 任务提交** :将 PDF 外网下载链接推送至 MinerU 接口。
33+ 2 . ** 异步轮询** :每 3 秒检查一次云端解析进度。
34+ 3 . ** 文本提取** :任务完成后自动下载结果包,并解压提取其中的 ` .md ` 文本内容。
35+
36+ ---
37+
38+ ## ⚠️ 使用限制与注意事项
39+ 为了确保您的工具正常运行,请务必关注以下信息:
40+
41+ * ** 单文件解析限制** :** 目前版本一次仅支持解析列表中的第一个 PDF 文件** ,如有多个文件请分次调用。
42+ * ** 网络访问要求** :请确保您的 ` maxkb_base_url ` 地址在** 外网可直接访问** 。若 MaxKB 部署在内网且未做穿透,MinerU 官方服务器将因无法下载文件导致任务失败。
43+ * ** 图片提取说明** :** 本工具目前仅返回解析后的 Markdown 文本内容** ,暂不支持提取并展示 PDF 中的原始图像。
44+ * ** API 接口声明** :当前调用的官方接口为 ` https://mineru.net/api/v4/extract/task ` 。若官方接口协议变更,请关注工具版本升级。
45+ * ** 耗时与额度** :解析耗时取决于 PDF 页数与复杂度。请确保您的 MinerU 账户余额充足。
46+
47+ ---
Original file line number Diff line number Diff line change 1+ name : 在线 MinerU API 解析 PDF
2+ tags :
3+ - 内容处理
4+ title : 调用在线 MinerU API 解析 PDF
5+ description : 调用在线 MinerU API 解析 PDF 的工具
You can’t perform that action at this time.
0 commit comments