基于 DrissionPage + SQLAlchemy + lxml 的多线程爬虫(需要Chrome浏览器)

采集内容
商品名称
商品价格
商品链接
商品图片链接
商品详情
功能
可以指定关键词爬取商品信息
可以指定线程数量
可以指定代理
使用sqlacodegen通过数据表生成对象
使用SQLAlchemy ORM框架操作数据库,详情查看model包
配置
参考config.yaml:

# 数据库配置
DatabaseConfig:
# Mysql配置
MysqlConfig:
host: 127.0.0.1 # 主机
port: 3306 # 端口
database_name: aamazon_spider # 数据库名称
username: root # 用户名
password: root # 密码

# Sqlalchemy配置
SqlalchemyConfig:
on_echo: false # 是否开启查询日志

# 爬虫配置
SpiderConfig:
# 关键词列表
keywords:
– 玩具
– 电脑
– 手机
# 爬取数量(条)
spider_size: 1000
# 爬虫线程数,网速快可以设置多一点
spider_worker: 8
# 爬取URL模板
search_url_template: https://www.amazon.com/s?k={}
# 主页URL
home_url: https://www.amazon.com
# 是否开启代理
proxies: true
# 代理URL
proxies_url: http://127.0.0.1:8889
运行
安装依赖 pip install -r requirements.txt
通过数据表生成对象 python sql2object.py
通过对象生成数据表 python object2sql.py
爬虫,启动!python main.py

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。