博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
scrapy爬虫框架实例一,爬取自己博客
阅读量:6579 次
发布时间:2019-06-24

本文共 774 字,大约阅读时间需要 2 分钟。

  本篇就是利用scrapy框架来抓取本人的博客,博客地址:http://www.cnblogs.com/shaosks

  scrapy框架是个比较简单易用基于python的爬虫框架,相关文档: 

 

  几个比较重要的部分:

  items.py:用来定义需要保存的变量,其中的变量用Field来定义,有点像python的字典

  pipelines.py:用来将提取出来的Item进行处理,处理过程按自己需要进行定义

  spiders:定义自己的爬虫

 

  爬虫的类型也有好几种:

  1)spider:最基本的爬虫,其他的爬虫一般是继承了该最基本的爬虫类,提供访问url,返回response的功能,会默认调用parse方法

  2)CrawlSpider:继承spider的爬虫,实际使用比较多,设定rule规则进行网页的跟进与处理, 注意点:编写爬虫的规则的时候避免使用parse名,因为这会覆盖继承的spider的的方法parse造成错误。   其中比较重要的是对Rule的规则的编写,要对具体的网页的情况进行分析。

  3)XMLFeedSpider 与 CSVFeedSpider 

 

  代码实现:

  items.py下的

  

 

  pipelines.py

   

 

  myspider.py

  

  settings.py

   

 

  执行命令导出csv文件

  D:\work\scrapy\Code\cnblog> scrapy crawl myspider -o spider.csv

结果数据

要获取动态渲染的数据, scrapy框架本身没有获取这种数据的功能,要利用第三方库scrapy-splash,下载:https://pypi.python.org/pypi/scrapy-splash#downloads

这个以后再做.

 

你可能感兴趣的文章
Command './js-ant' failed to execute
查看>>
阿里云NFS NAS数据保护实战
查看>>
Spring cloud配置客户端
查看>>
产品研发项目管理软件哪个好?
查看>>
【阿里云北京峰会】一图看懂机器学习PAI如何帮助企业应用智能化升级
查看>>
ansible playbook使用总结
查看>>
Android API中文文档(111) —— MailTo
查看>>
Linux 中如何卸载已安装的软件
查看>>
thinkphp 3.2 增加每页显示条数
查看>>
oracle日常简单数据备份与还原
查看>>
我的友情链接
查看>>
黑马程序员__反射总结
查看>>
Scala学习笔记(5)-类和方法
查看>>
Quartz原理
查看>>
完全卸载oracle|oracle卸载|彻底卸载oracle
查看>>
垃圾收集基础
查看>>
Docker安装及基本命令
查看>>
控制namenode检查点发生的频率
查看>>
Linux存储挂载后,无法正常卸载的解决方法
查看>>
2、递归遍历文件夹下每一个文件
查看>>