type
Post
status
Published
date
Jan 31, 2022
slug
scrapy-2
summary
毕设需要爬虫获取数据,参考B站视频学习的scrapy记录的笔记
tags
开发
Python
category
技术分享
icon
password
毕设需要爬虫获取数据,参考B站视频学习的scrapy记录的笔记,通过scrapy获取某个网站的页面数据,这里是技术分享,请勿用于任何非法用途。
🕷️Scrapy框架
使用scrapy爬取新闻的国内、国际、航空三个板块的新闻数据存储在csv中
初始化操作
编写爬虫(news.py)
items.py
中间件middleware.py
中间件部分主要用于处理新闻板块的新闻列表部分是动态加载出来的,所以在这里使用selenium将获取到的动态加载数据替换原先下载器获取的数据,然后发送给引擎处理
管道pipelines.py
用于持久化存储
项目配置settings.py
这是坑比较多的一部分
UA伪装与代理IP
另外代理IP可以在中间件中的downloader类中的process_exception函数中做判断并设置代理IP
最后就是一些常见配置
关于调试main.py
起初运行爬虫都是在控制台中用
scrapy命令,但是这样就无法让IDE中的断点生效从而无法调试,后来参考了https://www.cnblogs.com/weixuqin/p/9074448.html, 在项目的根目录创建main.py,写入以下内容后右键debug开启了调试功能最终结果
