Skip to content

Commit a9c8569

Browse files
authored
Merge pull request #2 from 1Panel-dev/east
提交http工具和内容提取工具
2 parents 9bb1c87 + bfadbd2 commit a9c8569

10 files changed

Lines changed: 93 additions & 0 deletions

File tree

6.08 KB
Binary file not shown.

tools/extract/README.md

Lines changed: 27 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,27 @@
1+
# 文件内容提取工具
2+
3+
## 简介
4+
文件内容提取工具是一个功能强大的Python库,用于从多种文件格式中提取文本内容。该工具支持DOCX、PDF、TXT、MD等多种常见文档格式,能够高效地将文档内容转换为可读的文本或Markdown格式。
5+
6+
## 功能特性
7+
- **多格式支持**:支持DOCX、PDF、TXT、MD等多种文件格式
8+
- **智能解析**:针对不同文件格式使用最优解析方法
9+
- **表格处理**:能够识别PDF文件中的表格并转换为Markdown格式
10+
- **编码自适应**:自动检测文本文件的编码格式
11+
- **易于集成**:简单的API接口,易于集成到现有系统中
12+
13+
## 安装依赖 (如果函数报错则安装,默认不需要安装)
14+
```bash
15+
pip install python-docx pdfplumber
16+
```
17+
# 支持的文件格式
18+
19+
| 文件格式 | 支持状态 | 特性描述 | 输出格式 |
20+
|---------|---------|----------|----------|
21+
| DOCX | ✅ 完整支持 | 提取所有段落文本,保持原始结构 | 纯文本 |
22+
| PDF | ✅ 完整支持 | 提取文本内容,表格转换为Markdown格式 | Markdown |
23+
| TXT | ✅ 完整支持 | 自动检测编码格式(UTF-8/GBK/GB2312等) | 纯文本 |
24+
| MD | ✅ 完整支持 | 按原始格式提取内容 | Markdown |
25+
26+
## 使用说明
27+
![示例](./img_1.png)

tools/extract/data.yaml

Lines changed: 5 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,5 @@
1+
name: 文档内容提取
2+
tags:
3+
- 文档内容提取
4+
title: 文档内容提取
5+
description: 文档内容提取

tools/extract/img.png

94.4 KB
Loading

tools/extract/img_1.png

98.9 KB
Loading

tools/extract/logo.png

2.73 KB
Loading
6.72 KB
Binary file not shown.

tools/httputils/README.md

Lines changed: 56 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,56 @@
1+
# HTTP 工具
2+
3+
一个基于 `requests` 封装的增强型 HTTP 请求工具库,核心解决 **响应乱码、JSON 解析异常、HTTP 错误统一处理** 三大痛点,支持 GET/POST/PUT/DELETE 等主流 HTTP 方法,提供编码自动检测与手动指定能力,输出结构化响应结果,简化接口调用与异常排查流程。
4+
5+
## 一、项目介绍
6+
7+
### 1.1 核心功能
8+
9+
- **智能编码处理**:自动检测响应内容编码(优先解析 `Content-Type` 头、其次用 `chardet` 检测,兜底默认 `utf-8`),也支持手动指定编码(如 `gbk``gb2312`),彻底解决中文乱码问题。
10+
- **HTTP 方法全覆盖**:支持 GET、POST、PUT、DELETE、PATCH、HEAD、OPTIONS 主流 HTTP 方法,满足各类接口调用场景。
11+
- **统一错误处理**:对 HTTP 错误(如 4xx/5xx)、超时、网络异常等进行分类捕获,返回结构化错误信息(含错误类型、状态码、描述),避免原生异常崩溃。
12+
- **灵活数据格式支持**:自动识别响应 `Content-Type`,JSON 格式优先解析为字典,非 JSON 格式返回文本;请求支持 `json``data``files` 多种参数类型。
13+
- **结构化响应输出**:成功 / 失败均返回统一格式字典,包含 `success` 状态、`status_code``data` 数据、`headers` 响应头、`encoding` 编码等关键信息,便于后续逻辑处理。
14+
15+
### 1.2 适用场景
16+
17+
- 接口自动化测试:需要稳定处理不同编码、不同响应格式的接口返回。
18+
- 爬虫开发:应对目标网站响应编码不规范(如 `gbk` 编码未在 `Content-Type` 声明)导致的乱码问题。
19+
- 后端服务集成:调用第三方接口时,需统一错误捕获与结构化结果处理,减少重复代码。
20+
- 日常接口调试:快速发送 HTTP 请求,自动处理编码与 JSON 解析,提升调试效率。
21+
22+
## 二、环境准备 (如报错,则需要安装依赖)
23+
24+
### 2.1 依赖库
25+
26+
该工具基于 Python 标准库与常用第三方库构建,依赖列表如下:
27+
28+
29+
30+
| 依赖库 | 版本要求 | 用途说明 |
31+
| ---------- | ---------------- | ----------------------------------- |
32+
| `requests` | ≥ 2.20.0 | 核心 HTTP 请求发送库 |
33+
| `chardet` | ≥ 4.0.0 | 自动检测响应内容编码 |
34+
| `typing` | Python 3.5+ 内置 | 类型注解,提升代码可读性与 IDE 支持 |
35+
36+
### 2.2 安装依赖
37+
38+
通过 `pip` 直接安装依赖(若使用 Python 3.5+,`typing` 为内置模块,无需额外安装):
39+
40+
41+
42+
```bash
43+
pip install requests chardet
44+
```
45+
46+
47+
48+
## 注意事项
49+
50+
- 确保网络连接正常
51+
- 遵守相关使用条款和API限制
52+
- 注意搜索内容的准确性验证
53+
54+
## 支持
55+
56+
如有问题或建议,请通过相关渠道联系技术支持。

tools/httputils/data.yaml

Lines changed: 5 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,5 @@
1+
name: HTTP工具
2+
tags:
3+
- HTTP工具
4+
title: HTTP工具
5+
description: HTTP工具

tools/httputils/logo.png

5.52 KB
Loading

0 commit comments

Comments
 (0)