Skip to content

Latest commit

 

History

History

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 
 
 
 
 
 
 

README.md

说明

该爬虫为P站: https://www.pixiv.net/ 图片爬虫。

基于pixiv api,爬取所有排行榜数据,并保存到数据库中。

然后根据所有图片数据,检索各种收藏排行,访问排行,标签排行,按照用户下载等,下载自己需要的数据。

时效:2023-03-02,后续可能api变更等,提issue更新。

爬取原理

爬取方式

文件结构

数据库表

使用说明

配置数据库连接,创建数据表,配置爬取规则,配置代理,运行crawl_illust.py

触发API限制,Rate Limit时的处理。

一些使用上的细节:保存文件夹,爬取过滤,分标签爬取,分用户爬取,常用检索等。

函数列表和说明

图片分类

大量图片相似度技术,标记和更新,画风分类等。