Scrapy-redis实现分布式爬虫

By admin in 计算机教程 on 2019年6月2日

存入MongoDB

Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试
Scrapy框架已经可以完成很大的一部分爬虫工作了。但是如果遇到比较大规模的数据爬取,直接可以用上python的多线程/多进程,如果你拥有多台服务器,分布式爬取是最好的解决方式,也是最有效率的方法。
Scrapy-redis是基于redis的一个scrapy组件,scrapy-redis提供了维持待爬取url的去重以及储存requests的指纹验证。原理是:redis维持一个共同的url队列,各个不同机器上的爬虫程序获取到的url都保存在redis的url队列,各个爬虫都从redis的uel队列获取url,并把数据统一保存在同一个数据库里面。
之前听了崔庆才老师的知乎爬虫课程,但是关于利用scrapy-redis构建分布式一直不太清晰。所以下面会利用MongoDB、redis搭建分布式爬虫。

1.启动MongoDB数据库:sudo mongod

  • 1.scrapy-redis分布式架构图:
    • Scheduler调度器从redis获取请求的url地址,传递给Downloader下载器下载数据网页,然后把数据网页传递给spiders爬虫提取数据逻辑器处理,最后把结构化保存数据的item数据对象经过itemPipeLine保存在redis数据库。
    • 其他机器的item
      Proccess进程和图上的单一进程相类似,Master主爬虫程序则维持redis数据库的url队列。

2.执行下面程序:py2 process_youyuan_mongodb.py

    ![](https://upload-images.jianshu.io/upload_images/4003936-38c357d642a51e1f.jpg)

    分布式爬虫架构图
# process_youyuan_mongodb.py
# -*- coding: utf-8 -*-
import json
import redis
import pymongo
def main():
 # 指定Redis数据库信息
 rediscli = redis.StrictRedis(host='192.168.199.108', port=6379, db=0)
 # 指定MongoDB数据库信息
 mongocli = pymongo.MongoClient(host='localhost', port=27017)
 # 创建数据库名
 db = mongocli['youyuan']
 # 创建表名
 sheet = db['beijing_18_25']
 while True:
 # FIFO模式为 blpop,LIFO模式为 brpop,获取键值
 source, data = rediscli.blpop(["youyuan:items"])
 item = json.loads(data)
 sheet.insert(item)
 try:
  print u"Processing: %(name)s <%(link)s>" % item
 except KeyError:
  print u"Error procesing: %r" % item
if __name__ == '__main__':
 main()
  • 2.准备条件:

澳门金沙30064在线网站 1

存入 MySQL

1. linux系统机器一台(博主用的是阿里云ECS centos7.2,如需ECS安装的过程可以参照之前的阿里云ECS安装文章)
2. Redis[redis的windows客户端和windows的RedisDesktopMananger]和Linux redis版本
3. Anaconda(windows)和Anaconda(Linux版本)
4  MongoDB(linux版本)
5. Robomongo 0.9.0(mongodb的可视化管理工具)

1.启动mysql:mysql.server start(更平台不一样)

澳门金沙30064在线网站 2

2.登录到root用户:mysql -uroot -p

说走就走!!

3.创建数据库youyuan:create database youyuan;

  • 3.安装windows的redis客户端以及linux的redis的服务端。

    • 博主安装的版本是
      redis2.8.2402和redis可视化工具RedisDesktopManager
    • windows下安装redis以及RedisDesktopManager十分简单,直接下一步下一步就可以完成。
    • 澳门金沙30064在线网站,验证redis是否成功,在windows的DOS命令进入你安装redis的目录下,输入以下命令,博主安装目录是D盘的redis目录:

4.切换到指定数据库:use youyuan

    ![](https://upload-images.jianshu.io/upload_images/4003936-da476d8ec089bf76.PNG)

    启动redis-server

-   redis的二进制安装文件包含了redis的链接客户端,打开另外一个命令行终端,输入如下图的命令。可以连接上本地windows的redis数据库。



    ![](https://upload-images.jianshu.io/upload_images/4003936-744f952a603fb4a1.PNG)

    启动redis客户端

-   似乎是不是对于DOS命令窗口不太感冒而且也不太好管理,RedisDesktopManager派上用场了。安装完RedisDesktopManager启动如下图,输入如图的信息,即可连接上本地redis数据库:



    ![](https://upload-images.jianshu.io/upload_images/4003936-d04dfd9ed739a9f7.PNG)

    redisdesktop

-   至此已经完成安装windows的redis数据库。感觉路还长着。



    ![](https://upload-images.jianshu.io/upload_images/4003936-e87a4c80d301abc8.jpg)

    任重道远

5.创建表beijing_18_25以及所有字段的列名和数据类型。

    1. 在阿里云ECS上面安装Redis:
    • 在xshell登录阿里云ECS终端,运行下面命令安装redis:

    [author@iZpq90f23ft5jyj3s7fmduhZ ~]# yum -y install redis
    
    • 博主的阿里云系统是CentOS7.2,如果你自己的是Ubuntu,可以运行下面的命令安装:

    [author@iZpq90f23ft5jyj3s7fmduhZ ~]$sudo apt-get install redis
    
    • Redis数据库安装完之后,会自动启动。运行下面命令查看redis运行状态。

      [author@iZpq90f23ft5jyj3s7fmduhZ ~]# ps -aux|grep redis
      root     13925  0.0  0.0 112648   964 pts/0    R+   14:42   0:00 grep --color=auto redis
      redis    29418  0.0  0.6 151096 11912 ?        Ssl  Sep22   1:25 /usr/bin/redis-server *:6379
    
    • 如果不设置redis密码,那么跟在大街上裸奔有什么区别。依稀还记得早些时候MongoDB国内外发生拖库事件,所以还是为redis设置密码。默认安装redis的配置文件在/etc/下面,如下所示,然后修改里面的几条信息:

     [author@iZpq90f23ft5jyj3s7fmduhZ ~]# vim /etc/redis.conf
     # bind 127.0.0.1(注释绑定的IP地址链接,如果你想只绑定特定的链接IP地址,可以改为自己的IP地址)
       requirepass xxxxxxx(这xxxxxx是设置的密码,把requirepass前面的#去除)
       port 6379(这是连接redis数据库的端口,可以修改为其他的端口,博主采用默认的端口)
       protected-mode no(里面no设置为yes)
    
    • 修改完成,保存退出。重新启动redis服务:

     [author@iZpq90f23ft5jyj3s7fmduhZ ~]# service redis restart
    

    澳门金沙30064在线网站 3

    • 使用windows的RedisDesktopManager连接阿里云上面的Redis:

      澳门金沙30064在线网站 4

      连接数据库

    • 意外永远是预料不到的,连接不上。这是因为阿里云的安全规则,要添加开放6379的端口,才能进行连接。

澳门金沙30064在线网站 5

    ![](https://upload-images.jianshu.io/upload_images/4003936-d7529d7f972bcd36.jpg)

    悲剧

-   登录阿里云个人管理控制台,然后添加安全组规则。如下图所示:其中授权对象0.0.0.0/0是指允许所有的IP地址连接redis,端口范围6379/6379就是说只开放6379端口



    ![](https://upload-images.jianshu.io/upload_images/4003936-f73309e6e1cd0297.jpg)

    redis开放6379端口号

-   完成安全组设置,在RedisDesktopManager设置IP地址和密码,即可登录上阿里云的redis数据库:



    ![](https://upload-images.jianshu.io/upload_images/4003936-953bbc4a5c3ef0d3.PNG)

    连接上redis数据库

6.执行下面程序:py2 process_youyuan_mysql.py

  • 5.安装Anaconda:

    • Anaconda
      4.4.0
      在windows安装过程很简单,下载好可执行文件,直接下一步下一步就可完成。Anaconda默认包含python解释器,博主选择的是python3.6版,在windows运行一下命令,查看Anaconda安装了什么包:

    C:\User\Username>conda list
    
    • 因为scrapy框架在window安装比较麻烦,经常出现很多不知名的错误依赖,所以选择Anaconda,可以很快安装scrapy,scrapy-reis,pymongo,redis包;当然也可以直接使用pip安装模块包。

    conda install scrapy
    conda install scrapy-redis
    conda install pymongo
    conda install redis  
    
    • Anaconda
      4.0.4

      linux可执行脚本文件,可以直接在windows下载,然后在通过Filezilla上传到到阿里云ECS。上传到Linux上,执行下面的命令。Anaconda在linux’安装需要手动enter,并且过程中输入是否把conda命令写进环境变量,整个过程,如果遇到询问,直接输入yes即可:

    [author@iZpq90f23ft5jyj3s7fmduhZ ~]# bash Anaconda3-4.4.0-Linux-x86_64.sh
    
    • 安装完Anaconda之后,在命令行窗口输入python,即可发现是python3.6的版本。阿里云ECS
      CentOS7.2默认的python版本是python2.7.使用anaconda安装pymongo、redis、scrapy、scrapy-redis依赖包。

     [author@iZpq90f23ft5jyj3s7fmduhZ ~]# python
      Python 3.6.1 |Anaconda 4.4.0 (64-bit)| (default, May 11 2017, 13:09:58) 
      [GCC 4.4.7 20120313 (Red Hat 4.4.7-1)] on linux
      Type "help", "copyright", "credits" or "license" for more information.
      >>> 
      >>> 
      [author@iZpq90f23ft5jyj3s7fmduhZ ~]# conda install scrapy
      [author@iZpq90f23ft5jyj3s7fmduhZ ~]# conda install scrapy-redis
      [author@iZpq90f23ft5jyj3s7fmduhZ ~]# conda install pymongo
      [author@iZpq90f23ft5jyj3s7fmduhZ ~]# conda install redis  
    
#process_youyuan_mysql.py
# -*- coding: utf-8 -*-
import json
import redis
import MySQLdb
def main():
 # 指定redis数据库信息
 rediscli = redis.StrictRedis(host='192.168.199.108', port = 6379, db = 0)
 # 指定mysql数据库
 mysqlcli = MySQLdb.connect(host='127.0.0.1', user='power', passwd='xxxxxxx', db = 'youyuan', port=3306, use_unicode=True)
 while True:
 # FIFO模式为 blpop,LIFO模式为 brpop,获取键值
 source, data = rediscli.blpop(["youyuan:items"])
 item = json.loads(data)
 try:
  # 使用cursor()方法获取操作游标
  cur = mysqlcli.cursor()
  # 使用execute方法执行SQL INSERT语句
  cur.execute("INSERT INTO beijing_18_25 (username, crawled, age, spider, header_url, source, pic_urls, monologue, source_url) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s )", [item['username'], item['crawled'], item['age'], item['spider'], item['header_url'], item['source'], item['pic_urls'], item['monologue'], item['source_url']])
  # 提交sql事务
  mysqlcli.commit()
  #关闭本次操作
  cur.close()
  print "inserted %s" % item['source_url']
 except MySQLdb.Error,e:
  print "Mysql Error %d: %s" % (e.args[0], e.args[1])
if __name__ == '__main__':
 main()

澳门金沙30064在线网站 6

澳门金沙30064在线网站 7

怎么安装还没有完成

总结

  • 6.在阿里云ECS上面安装MongoDB:

    • 在MongoDB官网下载
      mongodb3.4.9,下载完成之后,通过文件FileZilla上传到阿里云ECS
    • 在阿里云ECS运行一下命令安装MongoDB,其中db.createUser方法的db是将来爬虫使用数据库。如果想详细了解db.createUser可以直接到MongoDB文档查阅

     [author@iZpq90f23ft5jyj3s7fmduhZ ~]# tar -vxzf  mongodb-linux-x86_64-amazon-3.4.9.tgz
     [author@iZpq90f23ft5jyj3s7fmduhZ ~]# mv  mongodb-linux-x86_64-amazon-3.4.9.tgz mongodb
     [author@iZpq90f23ft5jyj3s7fmduhZ ~]# cd mongodb
     [author@iZpq90f23ft5jyj3s7fmduhZ mongodb~]# mkdir db
     [author@iZpq90f23ft5jyj3s7fmduhZ mongodb~]# mkdir logs
     [author@iZpq90f23ft5jyj3s7fmduhZ mongodb~]# cd logs
     [author@iZpq90f23ft5jyj3s7fmduhZ logs~]# touch mongodb.log
     [author@iZpq90f23ft5jyj3s7fmduhZ ~]# cd ..
     [author@iZpq90f23ft5jyj3s7fmduhZ ~]# cd ..
     [author@iZpq90f23ft5jyj3s7fmduhZ mognodb~]# cd bin
     [author@iZpq90f23ft5jyj3s7fmduhZ mognodb bin~]# touch mongodb.conf(创建mongodb的日志保存路径以及数据保存路径)
    # 下面是mongodb.conf的文件内容
      dbpath=/author/mongodb/db()
      logpath=/author/mongodb/logs/mongodb.log
      port=27017
      fork=true
      nohttpinterface=true
    ##############################
     [author@iZpq90f23ft5jyj3s7fmduhZ mongodb bin ~]# ./mongod --config mongodb.conf(启动mongoDB)
     [author@iZpq90f23ft5jyj3s7fmduhZ mongodb bin ~]# ./mongo (启动mongodb客户端)
      MongoDB shell version v3.4.9
      connecting to: mongodb://127.0.0.1:27017
      MongoDB server version: 3.4.9
      > db.createUser({user:"xxx",pwd:"xxx",roles:[{role:"readWrite",db:"zhihu"}]})
     [author@iZpq90f23ft5jyj3s7fmduhZ ~]# kill -9 pid(这里是mongodb的进程id,可以通过ps -aux|grep mongodb查看)
     [author@iZpq90f23ft5jyj3s7fmduhZ mognodb bin~]# ./mongod --config mongodb.conf --auth(--auth以需要授权的方式启动mongodb)
    
  • 7.windows安装
    Robomongo可视化工具:

    • 安装Robbomongo过程很简单,就不太再叙述了。安装完之后,其中的username是刚才创建的user,zhihu是要连接的数据库。这里会发现连接时间过长失败,原因也是想Redis一样,阿里云的安全规则限制,所以可以像redis那样设置连接开放27017端口就可以了。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图
Copyright @ 2010-2019 澳门金沙30064在线网站 版权所有