From d59113668f7d80c8d30f0927d4b9ff25decd0968 Mon Sep 17 00:00:00 2001 From: Relakkes Date: Sun, 26 Nov 2023 21:50:08 +0800 Subject: [PATCH] =?UTF-8?q?doc:=20=E5=A2=9E=E5=8A=A0=E5=BF=AB=E6=89=8B?= =?UTF-8?q?=E7=88=AC=E8=99=AB=E7=9A=84=E6=8F=8F=E8=BF=B0?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 7 ++++--- config/db_config.py | 2 +- 2 files changed, 5 insertions(+), 4 deletions(-) diff --git a/README.md b/README.md index 20a4ede..389c017 100644 --- a/README.md +++ b/README.md @@ -4,8 +4,8 @@ # 仓库描述 -**小红书爬虫**,**抖音爬虫** ...。 -目前能稳定抓取小红书的视频、图片、评论、点赞、转发等信息,抖音的视频、图片、评论、点赞等信息。 +**小红书爬虫**,**抖音爬虫**, **快手爬虫**...。 +目前能抓取小红书、抖音、快手的视频、图片、评论、点赞、转发等信息。 原理:利用[playwright](https://playwright.dev/)搭桥,保留登录成功后的上下文浏览器环境,通过执行JS表达式获取一些加密参数 通过使用此方式,免去了复现核心加密JS代码,逆向难度大大降低。 @@ -25,6 +25,7 @@ - [x] 抖音滑块(模拟滑动实现,准确率不太OK) - [x] 抖音指定关键爬取 - [x] 抖音指定帖子爬取 +- [x] 快手指定关键词爬取 - [x] 支持登录成功后的上下文浏览器环境保留 - [x] 代理池实现(手机号+IP) - [x] 并发执行爬虫请求 @@ -33,7 +34,7 @@ ## 待实现 -- [ ] 快手爬虫实现 +- [ ] 快手登录(二维码、手机号) ## 使用方法 diff --git a/config/db_config.py b/config/db_config.py index 1e9d267..270edd3 100644 --- a/config/db_config.py +++ b/config/db_config.py @@ -9,4 +9,4 @@ RELATION_DB_PWD = os.getenv("RELATION_DB_PWD", "123456") # your relation db pas RELATION_DB_URL = f"mysql://root:{RELATION_DB_PWD}@localhost:3306/media_crawler" # save data to database option -IS_SAVED_DATABASED = True # if you want to save data to database, set True +IS_SAVED_DATABASED = False # if you want to save data to database, set True