网站首页 > 开源技术 正文
作者: 怪怪
转发链接:https://mp.weixin.qq.com/s/FAtD6F-V-f-UdsM1LYS3eg
前言
Coding 应当是一生的事业,而不仅仅是 30 岁的青春
Node 用来写爬虫还是挺方便的,网上大部分文章都是单进程爬取,抽下班时间写了个多进程爬虫
每篇文章都希望你能收获到东西,这篇是基于 Node.js 的多进程爬虫,希望你看完有这些收获:
- Node cluster 的简单用法、进程间通信
- 对于一些简单的分页爬虫,能够自己立马实现
- superagent 的简单使用
架构图
目标分析
怪怪我痴迷于日本动画,经常会去豆瓣看排行榜,然后一个人躲在家静静的欣赏,嘘~~
不知道上面的动画你看过多少,反正海贼王我是看完了!
目标锁定豆瓣日本动画排行榜前 10 页数据爬取。
我们先抓个包看看,豆瓣日本动画排行榜的请求逻辑是怎样滴?
第一页抓包
第二页抓包
通过对前两页接口抓包可以很明显的总结出:
- 热榜日本动画 api 为 https://movie.douban.com/j/search_subjects
- 入参除了 page_start 递增 20,其它入参保持不变
- 请求方式为 get
构建 get 请求
superagent 是 Node.js 里面一个蛮方便的客户端请求代理模块,用来打请求非常方便。
根据上面分析得出的小结,配合 superagent,我们可以轻松的构建出请求。
多进程创建
关于 Node 多进程架构底层原理,可以参考我的另外一篇《大前端进阶 Node.js》系列 多进程模型底层实现。
利用 Node 提供的 cluster 模块,可以轻松创建多个子进程。
一般来讲,cpu 是几核的,就创建几个子进程,但是真正的服务端,其实考虑得会更多~
子进程分页抓取
这里涉及到一丢丢的小算法逻辑,其实也很简单啦~
最终就是实现,比如我的 mac 是 4 核的,那么我会开 4 个子进程来进行爬取,下面的小算法就是实现如何让 4 个子进程尽量的均分掉爬取的网络请求数。
专业点来说就是请求的负载均衡,如果你全部的请求都压在一个子进程上面,那么你开这么多子进程,岂不是失去了意义?
关闭子进程
爬取结束后,不用一直开着进程,可以关闭掉,节约资源。
cluster.disconnect();
多进程无序问题
多进程爬取的时候,是 cpu 来进行各个子进程之间的调度的,所以爬取的数据实际上是无序的。比如一共需要爬取前 20 页的数据,最先爬取到的不一定是第 1 页。
我们可以加一个 movieIndex 字段,来标识爬取的顺序。
效果
看一下爬取前 10 页的效果。
总结
Node 多进程架构,缓解了 cpu 资源利用问题,在一些耗时的操作上,可以尝试多进程的方式来解决。
在使用多进程的时候,数据同步是一个非常重要的问题,处理不好,容易引发一系列的坑,例如怪怪之前写的《大前端进阶 Node.js》系列 双十一秒杀系统(进阶必看),其中提到的超卖问题,就是多进程数据同步的问题。
本文只是一个非常简单的小爬虫,入门贴,后面会写一些比较深入的 Node 多进程实战帖~
作者: 怪怪
转发链接:https://mp.weixin.qq.com/s/FAtD6F-V-f-UdsM1LYS3eg
猜你喜欢
- 2024-10-21 霸榜掘金!轻量级请求策略库 alova 出炉!
- 2024-10-21 对于现代 Web 应用除了美观要求之外,对产品体验度要求高
- 2024-10-21 5 个顶级的 JavaScript Ajax 组件和库
- 2024-10-21 用 async 模块控制并发数(async await并发)
- 2024-10-21 package-lock.json的作用?(package lock.json)
- 2024-10-21 为什么 JS 开发者更喜欢 Axios 而不是 Fetch?
- 2024-10-21 Node.js爬虫实战 - 爬你喜欢的(node爬取数据)
- 2024-10-21 node.js爬虫-校园网模拟登录(校园网模拟登陆)
- 2024-10-21 IMT星际云每周资讯-20190111(星际云官网)
- 2024-10-21 nodejs,express,koa爬虫实战(node网络爬虫)
你 发表评论:
欢迎- 03-26业务监控—一站式搭建jmeter+telegraf+influxdb+Grafana看板
- 03-2615个最好的性能测试工具(软件测试工程师必备)
- 03-26软件测试工程师必备技巧!(软件测试工程师入门教程)
- 03-26UE4基础知识总结(七)(ue4入门)
- 03-26Portkeys推出新款HDMI播放器:5.5英寸FHD屏幕,支持4K输入/输出
- 03-26数字时代的纯粹,HiFiMan HM-901S 播放器体验
- 03-26CBN丨Double 11 sales shows resilience in China’s consumption
- 03-26AKG K812简单听感(akgk812pro评测)
- 最近发表
-
- 业务监控—一站式搭建jmeter+telegraf+influxdb+Grafana看板
- 15个最好的性能测试工具(软件测试工程师必备)
- 软件测试工程师必备技巧!(软件测试工程师入门教程)
- UE4基础知识总结(七)(ue4入门)
- Portkeys推出新款HDMI播放器:5.5英寸FHD屏幕,支持4K输入/输出
- 数字时代的纯粹,HiFiMan HM-901S 播放器体验
- CBN丨Double 11 sales shows resilience in China’s consumption
- AKG K812简单听感(akgk812pro评测)
- 盘点索尼Walkman发展史,哪台播放器让你印象深刻
- LUXMAN力仕 DA-07X 解码器#发烧hifi
- 标签列表
-
- jdk (81)
- putty (66)
- rufus (78)
- 内网穿透 (89)
- okhttp (70)
- powertoys (74)
- windowsterminal (81)
- netcat (65)
- ghostscript (65)
- veracrypt (65)
- asp.netcore (70)
- wrk (67)
- aspose.words (80)
- itk (80)
- ajaxfileupload.js (66)
- sqlhelper (67)
- express.js (67)
- phpmailer (67)
- xjar (70)
- redisclient (78)
- wakeonlan (66)
- tinygo (85)
- startbbs (72)
- webftp (82)
- vsvim (79)
本文暂时没有评论,来添加一个吧(●'◡'●)