Nutch 官网: http://nutch.apache.org/

Nutch是一个成熟的、可生产的Web爬虫程序，用Java编写的开源网络爬虫，适用于分布式文件系统，也可以说Nutch 是一个分布式爬虫框架。

在爬取海量数据的项目上，它无疑是最好的选择。

Nutch 最特色的地方就是搜索，可拔插的索引存在于Apache Solr、Elastic Search、SolrCloud等等，可以自动发现网页超链接，减少很多维护工作，比如检查坏链接，为所有访问过的页面建立拷贝进行搜索，Solr是一个开源的全文搜索框架，通过Solr我们能够搜索Nutch已经访问过的网页，而Apache Nutch对于Solr已经支持得很好，这大大简化了Nutch与Solr的整合。这也消除了过去依赖于Apache Tomcat来运行老的Nutch网络应用以及依赖于Apache Lucene来进行索引的麻烦。只需要下载一个二进制的发行版即可

缺点：

a 不适合精准数据爬取，会将大量时间浪费在计算上，杀鸡焉用牛刀！

b 海量数据存储依赖 hadoop，集群运行时间较慢，耗时长

WebMagic 网址： http://webmagic.io/

简单灵活的Java爬虫框架，提供多线程和分布式支持

WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件，并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能。WebMagic的设计参考了Scapy，但是实现方式更Java化一些

PageProcessor 负责解析页面，抽取有用信息，以及发现新的链接。需要自己定义。
Scheduler 负责管理待抓取的URL，以及一些去重的工作。一般无需自己定制
Pipeline 负责抽取结果的处理，包括计算、持久化到文件、数据库等。
Downloader 负责从互联网上下载页面，以便后续处理。一般无需自己实现。

Crawler4j

crawler4j是Java实现的开源网络爬虫，轻量级多线程网络爬虫

创建Crawler类，继承 WebCrawler，重写shouldVisit和 visit方法

Heritrix

是由Java开发的开源Web爬虫系统，用来获取完整的、精确的站点内容的深度复制

由核心类（core classes）和插件模块（pluggable modules）构成

中央控制器 CrawlController 是核心组件，决定了整个抓取任务的开始与结束

用户在 Heritrix web UI 控制台设置抓取任务后，heritrix首先构造XMLSettingsHandler对象，然后调用CrawlController的构造函数，构造一个CrawlController实例并初始化，这样，CrawlController就具备了运行条件。

此时，只需调用 requestCrawlStart()方法就可以启动线程池和Frontier，以便向线程池中工作线程提供抓取用的URL链接

WebCollector

WebCollector 是一个无须配置、便于二次开发的 Java 爬虫框架（内核）

源码中集成了 Jsoup，可进行精准的网页解析。2.x 版本中集成了 selenium，可以处理 JavaScript 生成的数据

WebCollector目前有单机版和Hadoop版（WebCollector-Hadoop），单机版能够处理千万级别的URL，对于大部分的精数据采集任务，这已经足够了

以上框架都是基于JAVA 语言的，下面隆重介绍基于Python语言的框架Scrapy

Scrapy

Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试

入门教程文档: https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

创建一个新的Scrapy项目:

scrapy startproject tutorial

该命令将会创建包含下列内容的 tutorial 目录:

tutorial/
 scrapy.cfg
 tutorial/
 __init__.py
 items.py
 pipelines.py
 settings.py
 spiders/
 __init__.py
 ...

这些文件分别是

scrapy.cfg: 项目的配置文件
tutorial/: 该项目的python模块。之后您将在此加入代码。
tutorial/items.py: 项目中的item文件.
tutorial/pipelines.py: 项目中的pipelines文件.
tutorial/settings.py: 项目的设置文件.
tutorial/spiders/: 放置spider代码的目录.

结合上一篇帖子里的项目我们全面介绍一下Scrapy：

Scrapy整体架构大致如下：

编写爬虫代码开始--begin!!!

定义 Item

Item 是保存爬取到的数据的容器；其使用方法和python字典类似，

import scrapy
class ItcastItem(scrapy.Item):
 name = scrapy.Field()
 level = scrapy.Field()
 info = scrapy.Field()

爬虫(Spider)

为了创建一个Spider，您必须继承 scrapy.Spider 类，且定义以下三个属性:

name: 用于区别Spider。名字必须是唯一的。

start_urls: 包含了Spider在启动时进行爬取的url列表。因此，第一个被获取到的页面将是其中之一。后续的URL则从初始的URL获取到的数据中提取。

parse() 是spider的一个方法。被调用时，每个初始URL完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。该方法负责解析返回的数据(response data)，提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象。

编写item pipeline

每个item pipeline组件都需要调用 process_item(item, spider) 方法，这个方法必须返回一个 Item (或任何继承类)对象，或是抛出 DropItem 异常，被丢弃的item将不会被之后的pipeline组件所处理

配置文件settings.py

进入项目的根目录，执行下列命令启动spider

scrapy crawl itcast

代码的执行结果上一篇帖子有图片介绍。

有关技术和业务方面的问题欢迎私信讨论，希望大家多多关注！

网站首页 > 开源技术正文

扒一扒，爬虫框架你都知道哪些?（爬虫框架有哪些）

Nutch 官网: http://nutch.apache.org/

WebMagic 网址： http://webmagic.io/

Crawler4j

Heritrix

WebCollector

以上框架都是基于JAVA 语言的，下面隆重介绍基于Python语言的框架Scrapy

Scrapy

Scrapy整体架构大致如下：

定义 Item

爬虫(Spider)

编写item pipeline

配置文件settings.py

进入项目的根目录，执行下列命令启动spider

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 开源技术 正文

扒一扒，爬虫框架你都知道哪些?（爬虫框架有哪些）

Nutch 官网: http://nutch.apache.org/

WebMagic 网址： http://webmagic.io/

Crawler4j

Heritrix

WebCollector

以上框架都是基于JAVA 语言的，下面隆重介绍基于Python语言的框架Scrapy

Scrapy

Scrapy整体架构大致如下：

定义 Item

爬虫(Spider)

编写item pipeline

配置文件settings.py

进入项目的根目录，执行下列命令启动spider

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 开源技术正文

取消回复欢迎你发表评论: