网站首页 > 开源技术 正文
之前玩千里码的时候,有这么一个题目,如下:Google,Baidu的两大技术:爬虫和搜索。爬虫负责抓取整个互联网的内容,搜索负责生成索引供用户检索。所以爬虫算是这两个公司的看家本领了。 但是Google和Baidu的爬虫技术是不公开的,算是商业机密了。所以360搜索刚起步的时候第一件事就是挖百度的核心搜索爬虫组的程序员,基本是3倍工资起挖(跪求360公司来辟谣)。 虽然没办法知道这两家公司的爬虫技术,但是我们可以通过开源项目来学习。比如Scrapy就是一个非常优秀开源的爬虫框架,如果对爬虫有兴趣的话可以深入学习该框架。
简单地讲,爬虫分为两个步骤:
- 把页面源码下载下来
- 解析下载下来的页面,得到我们想要的数据
- 在第一步中,可能会需要登录,需要绕开网站的反爬虫机制等等。在第二步中则需要使用XPath、CSS Selector、正则表达式等工具来进行解析。
这里通过一个非常简单的任务来让大家感受一下爬虫: 豆瓣电影Top250收录了至今为止,大家最喜欢的250部电影。 该列表呈现了每部电影的评分,年份等基本信息。 这题的答案很简单,就是这个榜单的前166部电影的评分总和。 举例: 目前排第一的《肖申克的救赎》是9.6分,第二的《这个杀手不太冷》是9.4分,第三的《阿甘正传》是9.4分。 那么前3部电影的总分为9.6+9.4+9.4=28.4。
以下为具体实现代码:
var url = 'https://movie.douban.com/top250?start=';
//需要统计166部,每页25条
var superagent = require('superagent');
var cheerio = require('cheerio');
var numArr = [];
var getNext = function(path,start){
var tempPath = path+start;
superagent.get(tempPath).set({
'cookie':'bid=xEbtZyJpLBs; _pk_ref.100001.4cf6=%5B%22%22%2C%22%22%2C1474114942%2C%22http%3A%2F%2Fwww.qlcoder.com%2Ftask%2F7560%22%5D; _pk_id.100001.4cf6=ebdb1fdadde80a53.1474114942.1.1474115010.1474114942.; _pk_ses.100001.4cf6=*; __utma=30149280.834196820.1474114942.1474114942.1474114942.1; __utmb=30149280.0.10.1474114942; __utmc=30149280; __utmz=30149280.1474114942.1.1.utmcsr=qlcoder.com|utmccn=(referral)|utmcmd=referral|utmcct=/task/7560; __utma=223695111.500893696.1474114942.1474114942.1474114942.1; __utmb=223695111.0.10.1474114942; __utmc=223695111; __utmz=223695111.1474114942.1.1.utmcsr=qlcoder.com|utmccn=(referral)|utmcmd=referral|utmcct=/task/7560'
}).end(function(err,res){
var text = res.text;
var $ = cheerio.load(text);
var flag = false;
$('.rating_num').each(function(index,ele){
var num = $(ele).html();
num = parseFloat(num);
if(numArr.length == 166){
flag = true;
countNum ();
}
if(!flag){
numArr.push(num);
}
});
if(!flag){
getNext(path,start+25);
}
});
};
var countNum = function(){
var total = 0 ;
for(var i=0,max=numArr.length;i<max;i++){
total += numArr[i];
}
console.log('answer : '+ total);
};
getNext(url,0);
实现思路:
- 首先通过 superagent模块爬取页面
- 然后将内容通过cheerio进行解析为DOM节点
- 根据页面DOM,通过选择器获得需要的数据
- 将一个页面的评分数据获得,并push到[]中
- 循环爬取其他页面,如果量不大,可以一个一个来,但是如果数据很多、量很大的话,这样效率就很低了,此时可以考虑通过async 来进行并发获取
- 最后通过计算,获得结果;
猜你喜欢
- 2024-10-21 霸榜掘金!轻量级请求策略库 alova 出炉!
- 2024-10-21 对于现代 Web 应用除了美观要求之外,对产品体验度要求高
- 2024-10-21 5 个顶级的 JavaScript Ajax 组件和库
- 2024-10-21 用 async 模块控制并发数(async await并发)
- 2024-10-21 package-lock.json的作用?(package lock.json)
- 2024-10-21 为什么 JS 开发者更喜欢 Axios 而不是 Fetch?
- 2024-10-21 Node.js爬虫实战 - 爬你喜欢的(node爬取数据)
- 2024-10-21 node.js爬虫-校园网模拟登录(校园网模拟登陆)
- 2024-10-21 IMT星际云每周资讯-20190111(星际云官网)
- 2024-10-21 nodejs,express,koa爬虫实战(node网络爬虫)
你 发表评论:
欢迎- 03-26业务监控—一站式搭建jmeter+telegraf+influxdb+Grafana看板
- 03-2615个最好的性能测试工具(软件测试工程师必备)
- 03-26软件测试工程师必备技巧!(软件测试工程师入门教程)
- 03-26UE4基础知识总结(七)(ue4入门)
- 03-26Portkeys推出新款HDMI播放器:5.5英寸FHD屏幕,支持4K输入/输出
- 03-26数字时代的纯粹,HiFiMan HM-901S 播放器体验
- 03-26CBN丨Double 11 sales shows resilience in China’s consumption
- 03-26AKG K812简单听感(akgk812pro评测)
- 最近发表
-
- 业务监控—一站式搭建jmeter+telegraf+influxdb+Grafana看板
- 15个最好的性能测试工具(软件测试工程师必备)
- 软件测试工程师必备技巧!(软件测试工程师入门教程)
- UE4基础知识总结(七)(ue4入门)
- Portkeys推出新款HDMI播放器:5.5英寸FHD屏幕,支持4K输入/输出
- 数字时代的纯粹,HiFiMan HM-901S 播放器体验
- CBN丨Double 11 sales shows resilience in China’s consumption
- AKG K812简单听感(akgk812pro评测)
- 盘点索尼Walkman发展史,哪台播放器让你印象深刻
- LUXMAN力仕 DA-07X 解码器#发烧hifi
- 标签列表
-
- jdk (81)
- putty (66)
- rufus (78)
- 内网穿透 (89)
- okhttp (70)
- powertoys (74)
- windowsterminal (81)
- netcat (65)
- ghostscript (65)
- veracrypt (65)
- asp.netcore (70)
- wrk (67)
- aspose.words (80)
- itk (80)
- ajaxfileupload.js (66)
- sqlhelper (67)
- express.js (67)
- phpmailer (67)
- xjar (70)
- redisclient (78)
- wakeonlan (66)
- tinygo (85)
- startbbs (72)
- webftp (82)
- vsvim (79)
本文暂时没有评论,来添加一个吧(●'◡'●)