From bf87821d4b688b8d163344128ae1017b59fe9df6 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E7=BF=9F=E6=8C=81=E6=B1=9F?= <129171955+2513502304@users.noreply.github.com> Date: Wed, 15 Jan 2025 18:06:16 +0800 Subject: [PATCH] =?UTF-8?q?=E4=B8=BA=20base=5Fconfig.py=20=E6=B7=BB?= =?UTF-8?q?=E5=8A=A0=E4=BA=86=E6=98=AF=E5=90=A6=E5=BC=80=E5=90=AF=E6=8C=89?= =?UTF-8?q?=E6=AF=8F=E4=B8=80=E5=A4=A9=E8=BF=9B=E8=A1=8C=E7=88=AC=E5=8F=96?= =?UTF-8?q?=E7=9A=84=E9=80=89=E9=A1=B9?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit `bilibili 关键词搜索`仅返回 1000 条视频记录,共计 34 页,前 33 页视频记录数为 30,第 34 页视频记录数为 30。若要获取更多视频,需要设置更多筛选中的时间段选项,最高支持细分为 1 天的视频记录 --- 此处添加了`START_DAY`与`END_DAY`以及`ALL_DAY`选项,在`ALL_DAY`为False时,使用原先关键词搜索策略,与原先版本保持不变;`ALL_DAY`为True时,从`START_DAY`与`END_DAY`中解析`client.py`中的search_video_by_keyword函数接收的`pubtime_begin_s`和`pubtime_end_s`参数,以实现最高支持细分为 1 天的视频记录,具体更改见之后提交的`client.py`和`core.py` --- config/base_config.py | 14 ++++++++++++-- 1 file changed, 12 insertions(+), 2 deletions(-) diff --git a/config/base_config.py b/config/base_config.py index 78a3bb5..3cece3d 100644 --- a/config/base_config.py +++ b/config/base_config.py @@ -57,6 +57,17 @@ START_PAGE = 1 # 爬取视频/帖子的数量控制 CRAWLER_MAX_NOTES_COUNT = 200 +# 爬取开始的天数,仅支持 bilibili 关键字搜索,YYYY-MM-DD 格式,若为 None 则表示不设置时间范围,按照默认关键字最多返回 1000 条视频的结果处理 +START_DAY = '2024-01-01' + +# 爬取结束的天数,仅支持 bilibili 关键字搜索,YYYY-MM-DD 格式,若为 None 则表示不设置时间范围,按照默认关键字最多返回 1000 条视频的结果处理 +END_DAY = '2024-01-01' + +# 是否开启按每一天进行爬取的选项,仅支持 bilibili 关键字搜索 +# 若为 False,则忽略 START_DAY 与 END_DAY 设置的值 +# 若为 True,则按照 START_DAY 至 END_DAY 按照每一天进行筛选,这样能够突破 1000 条视频的限制,最大程度爬取该关键词下的所有视频 +ALL_DAY = True + # 并发爬虫数量控制 MAX_CONCURRENCY_NUM = 1 @@ -69,7 +80,6 @@ ENABLE_GET_COMMENTS = True # 爬取一级评论的数量控制(单视频/帖子) CRAWLER_MAX_COMMENTS_COUNT_SINGLENOTES = 10 - # 是否开启爬二级评论模式, 默认不开启爬二级评论 # 老版本项目使用了 db, 则需参考 schema/tables.sql line 287 增加表字段 ENABLE_GET_SUB_COMMENTS = False @@ -87,7 +97,6 @@ XHS_SPECIFIED_NOTE_URL_LIST = [ # ........................ ] - # 指定抖音需要爬取的ID列表 DY_SPECIFIED_ID_LIST = [ "7280854932641664319", @@ -126,6 +135,7 @@ TIEBA_NAME_LIST = [ # "盗墓笔记" ] +# 指定贴吧创作者URL列表 TIEBA_CREATOR_URL_LIST = [ "https://tieba.baidu.com/home/main/?id=tb.1.7f139e2e.6CyEwxu3VJruH_-QqpCi6g&fr=frs", # ........................