该爬虫为P站: https://www.pixiv.net/ 图片爬虫。
基于pixiv api,爬取所有排行榜数据,并保存到数据库中。
然后根据所有图片数据,检索各种收藏排行,访问排行,标签排行,按照用户下载等,下载自己需要的数据。
时效:2023-03-02,后续可能api变更等,提issue更新。
配置数据库连接,创建数据表,配置爬取规则,配置代理,运行crawl_illust.py。
触发API限制,Rate Limit时的处理。
一些使用上的细节:保存文件夹,爬取过滤,分标签爬取,分用户爬取,常用检索等。
大量图片相似度技术,标记和更新,画风分类等。