网站首页 > 开源技术 正文
使用nodejs,express,koa各实现一次爬虫实战。
三个项目代码放到了github:https://github.com/liangchaofei/node_crawler上,可以直接下载运行。
node爬虫
- 安装爬虫利器superagent和cheerio 本文不作介绍。
npm i superagent cheerio --save
- 确定爬虫页面:http://bbs.tianya.cn/list-45-1.shtml
- 分析页面dom结构
- 看出每个标题都是在class为mt5下的tr下面,所以遍历.mt5下的tr
- 把数据当到data目录下
express爬虫
- 安装包
npm install express superagent cheerio superagent-charset --save
- 确定爬虫页面:https://www.qqtn.com/
- 分析页面结构
- 看出每个标题都是在div.g-main-bg ul.g-gxlist-imgbox li a下面,进行遍历
$('div.g-main-bg ul.g-gxlist-imgbox li a').each(function(idx, element) { var $element = $(element); var $subElement = $element.find('img'); var thumbImgSrc = $subElement.attr('src'); items.push({ title: $(element).attr('title'), href: $element.attr('href'), thumbSrc: thumbImgSrc }); });
- 把数据items存到img.json中
fs.access(path.join(__dirname, '/img.json'), fs.constants.F_OK, err => { if (err) { // 文件不存在 fs.writeFile(path.join(__dirname,'/img.json'), JSON.stringify([ { route, items } ]), err => { if(err) { console.log(err) return false } console.log('保存成功') }) } else { fs.readFile(path.join(__dirname, '/img.json'), (err, data) => { if (err) { console.log(err) return false } data = JSON.parse(data.toString()) let exist = data.some((page, index) => { return page.route == route }) if (!exist) { fs.writeFile(path.join(__dirname, 'img.json'), JSON.stringify([ ...data, { route, items }, ]), err => { if (err) { console.log(err) return false } }) } }) } res.json({ code: 200, msg: "", data: items }); })
koa爬虫
- 安装
npm i koa koa-router cheerio superagent --save
- 确定爬虫页面:https://www.freebuf.com/
- 分析页面结构
- 遍历div .news-list .news-info dl dt a
$('div .news-list .news-info dl dt a').each((index, ele) => { data.push({ title: $(ele).attr('title'), href: $(ele).attr('href') }) })
- 把数据添加到data.json中
fs.access(path.join(__dirname, 'data.json'), err => { if (err) { fs.writeFile(path.join(__dirname, 'data.json'), JSON.stringify([ { data } ]), err => { if (err) { return; } }) } else { fs.readFile(path.join(__dirname, 'data.json'), (err, res) => { data = res.toString() if (err) { return; } }) } })
以上把node,express,koa都简单的实现了爬虫,面对复杂的页面,还需要不断的学习其他技术。
上面三个项目代码放到了github上,可以直接下载运行。
如果对你有帮助,欢迎star。
微信公众号:
猜你喜欢
- 2024-10-21 霸榜掘金!轻量级请求策略库 alova 出炉!
- 2024-10-21 对于现代 Web 应用除了美观要求之外,对产品体验度要求高
- 2024-10-21 5 个顶级的 JavaScript Ajax 组件和库
- 2024-10-21 用 async 模块控制并发数(async await并发)
- 2024-10-21 package-lock.json的作用?(package lock.json)
- 2024-10-21 为什么 JS 开发者更喜欢 Axios 而不是 Fetch?
- 2024-10-21 Node.js爬虫实战 - 爬你喜欢的(node爬取数据)
- 2024-10-21 node.js爬虫-校园网模拟登录(校园网模拟登陆)
- 2024-10-21 IMT星际云每周资讯-20190111(星际云官网)
- 2024-10-21 nodeJs-爬虫初体验(nodejs爬取数据)
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- jdk (81)
- putty (66)
- rufus (78)
- 内网穿透 (89)
- okhttp (70)
- powertoys (74)
- windowsterminal (81)
- netcat (65)
- ghostscript (65)
- veracrypt (65)
- asp.netcore (70)
- wrk (67)
- aspose.words (80)
- itk (80)
- ajaxfileupload.js (66)
- sqlhelper (67)
- express.js (67)
- phpmailer (67)
- xjar (70)
- redisclient (78)
- wakeonlan (66)
- tinygo (85)
- startbbs (72)
- webftp (82)
- vsvim (79)
本文暂时没有评论,来添加一个吧(●'◡'●)