mirror of
https://github.com/RYDE-WORK/MediaCrawler.git
synced 2026-01-19 13:33:27 +08:00
为 base_config.py 添加了是否开启按每一天进行爬取的选项
`bilibili 关键词搜索`仅返回 1000 条视频记录,共计 34 页,前 33 页视频记录数为 30,第 34 页视频记录数为 30。若要获取更多视频,需要设置更多筛选中的时间段选项,最高支持细分为 1 天的视频记录 --- 此处添加了`START_DAY`与`END_DAY`以及`ALL_DAY`选项,在`ALL_DAY`为False时,使用原先关键词搜索策略,与原先版本保持不变;`ALL_DAY`为True时,从`START_DAY`与`END_DAY`中解析`client.py`中的search_video_by_keyword函数接收的`pubtime_begin_s`和`pubtime_end_s`参数,以实现最高支持细分为 1 天的视频记录,具体更改见之后提交的`client.py`和`core.py`
This commit is contained in:
parent
0118621a79
commit
bf87821d4b
@ -57,6 +57,17 @@ START_PAGE = 1
|
|||||||
# 爬取视频/帖子的数量控制
|
# 爬取视频/帖子的数量控制
|
||||||
CRAWLER_MAX_NOTES_COUNT = 200
|
CRAWLER_MAX_NOTES_COUNT = 200
|
||||||
|
|
||||||
|
# 爬取开始的天数,仅支持 bilibili 关键字搜索,YYYY-MM-DD 格式,若为 None 则表示不设置时间范围,按照默认关键字最多返回 1000 条视频的结果处理
|
||||||
|
START_DAY = '2024-01-01'
|
||||||
|
|
||||||
|
# 爬取结束的天数,仅支持 bilibili 关键字搜索,YYYY-MM-DD 格式,若为 None 则表示不设置时间范围,按照默认关键字最多返回 1000 条视频的结果处理
|
||||||
|
END_DAY = '2024-01-01'
|
||||||
|
|
||||||
|
# 是否开启按每一天进行爬取的选项,仅支持 bilibili 关键字搜索
|
||||||
|
# 若为 False,则忽略 START_DAY 与 END_DAY 设置的值
|
||||||
|
# 若为 True,则按照 START_DAY 至 END_DAY 按照每一天进行筛选,这样能够突破 1000 条视频的限制,最大程度爬取该关键词下的所有视频
|
||||||
|
ALL_DAY = True
|
||||||
|
|
||||||
# 并发爬虫数量控制
|
# 并发爬虫数量控制
|
||||||
MAX_CONCURRENCY_NUM = 1
|
MAX_CONCURRENCY_NUM = 1
|
||||||
|
|
||||||
@ -69,7 +80,6 @@ ENABLE_GET_COMMENTS = True
|
|||||||
# 爬取一级评论的数量控制(单视频/帖子)
|
# 爬取一级评论的数量控制(单视频/帖子)
|
||||||
CRAWLER_MAX_COMMENTS_COUNT_SINGLENOTES = 10
|
CRAWLER_MAX_COMMENTS_COUNT_SINGLENOTES = 10
|
||||||
|
|
||||||
|
|
||||||
# 是否开启爬二级评论模式, 默认不开启爬二级评论
|
# 是否开启爬二级评论模式, 默认不开启爬二级评论
|
||||||
# 老版本项目使用了 db, 则需参考 schema/tables.sql line 287 增加表字段
|
# 老版本项目使用了 db, 则需参考 schema/tables.sql line 287 增加表字段
|
||||||
ENABLE_GET_SUB_COMMENTS = False
|
ENABLE_GET_SUB_COMMENTS = False
|
||||||
@ -87,7 +97,6 @@ XHS_SPECIFIED_NOTE_URL_LIST = [
|
|||||||
# ........................
|
# ........................
|
||||||
]
|
]
|
||||||
|
|
||||||
|
|
||||||
# 指定抖音需要爬取的ID列表
|
# 指定抖音需要爬取的ID列表
|
||||||
DY_SPECIFIED_ID_LIST = [
|
DY_SPECIFIED_ID_LIST = [
|
||||||
"7280854932641664319",
|
"7280854932641664319",
|
||||||
@ -126,6 +135,7 @@ TIEBA_NAME_LIST = [
|
|||||||
# "盗墓笔记"
|
# "盗墓笔记"
|
||||||
]
|
]
|
||||||
|
|
||||||
|
# 指定贴吧创作者URL列表
|
||||||
TIEBA_CREATOR_URL_LIST = [
|
TIEBA_CREATOR_URL_LIST = [
|
||||||
"https://tieba.baidu.com/home/main/?id=tb.1.7f139e2e.6CyEwxu3VJruH_-QqpCi6g&fr=frs",
|
"https://tieba.baidu.com/home/main/?id=tb.1.7f139e2e.6CyEwxu3VJruH_-QqpCi6g&fr=frs",
|
||||||
# ........................
|
# ........................
|
||||||
|
|||||||
Loading…
x
Reference in New Issue
Block a user