PythonPractice/spider/pixiv at master · youyouzh/PythonPractice

Name	Name	Last commit message	Last commit date
parent directory ..
arrange	arrange
crawler	crawler
mysql	mysql
pixiv_api	pixiv_api
test	test
.gitignore	.gitignore
README.md	README.md

Name

Last commit message

Last commit date

说明

该爬虫为P站： https://www.pixiv.net/ 图片爬虫。

基于pixiv api，爬取所有排行榜数据，并保存到数据库中。

然后根据所有图片数据，检索各种收藏排行，访问排行，标签排行，按照用户下载等，下载自己需要的数据。

时效：2023-03-02，后续可能api变更等，提issue更新。

爬取原理

爬取方式

文件结构

数据库表

使用说明

配置数据库连接，创建数据表，配置爬取规则，配置代理，运行crawl_illust.py。

触发API限制，Rate Limit时的处理。

一些使用上的细节：保存文件夹，爬取过滤，分标签爬取，分用户爬取，常用检索等。

函数列表和说明

图片分类

大量图片相似度技术，标记和更新，画风分类等。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

说明

爬取原理

爬取方式

文件结构

数据库表

使用说明

函数列表和说明

图片分类

FilesExpand file tree

pixiv

Directory actions

More options

Directory actions

More options

Latest commit

History

pixiv

Folders and files

parent directory

README.md

说明

爬取原理

爬取方式

文件结构

数据库表

使用说明

函数列表和说明

图片分类