本项目采用 Selenium 通过调用JS方式爬取当当网商品搜索页的商品列表数据,可以实现自动滚动页面到底部(使图片加载完整)、自动翻页(可以设置总页数)。

获取到的数据字段描述如下:

url: 商品图片URL
book_name: 商品名称
publish: 出版社名称
author: 作者名称
pub_date: 出版日期

使用方法

安装依赖

pip install selenium
pip install webdriver_manager

本地运行

python main.py

程序运行时,会自动打开一个 Chrome 窗口并访问当当网的商品搜索结果页面:

开始爬取内容时,会在项目目录下创建一个 data.json ,后续每页获取到的内容都会写入该文件:

68747470733a2f2f63646e2e6a7364656c6976722e6e65742f67682f626f6368696c692f63646e332f3230323430353330313534313433372e706e67

代码修改

设置页数

此处设置循环次数即可:

for i in range(1, 100):

设置关键词

关键词在 main.py 中的:

keyword = "图书"
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。