编程开源技术交流,分享技术与知识

网站首页 > 开源技术 正文

0基础的python爬虫(零基础学python爬虫)

wxchong 2024-08-10 22:15:29 开源技术 14 ℃ 0 评论

首先,我们来了解下什么是爬虫!

打开一个网页,里面有网页内容,想象一下,有个工具,可以把网页上的内容获取下来,存到你想要的地方,这个工具就是我们今天的主角:爬虫。这样是不是更清晰了呢?

网页的过程中,我们可能会看到许多好看的图片,我们会看到几张的图片以及百度搜索框,这个过程其实就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器 HTML、JS、CSS 等文件,浏览器解析出来,用户便可以看到形形色色的图片了。

因此,用户看到的网页实质是由 HTML 代码构成的,爬虫爬来的便是这些内容,通过分析和过滤这些 HTML 代码,实现对图片、文字等资源的获取。

学习爬虫的必备知识:

1.HTML

这个能够帮助你了解网页的结构,内容等。可以参考W3School的教程

2.Python

没有基础的小伙伴推荐看视频 Python0基础视频链接

3.0TCP/IP协议,HTTP协议

这些知识能够让你了解在网络请求和网络传输上的基本原理,了解就行,能够帮助今后写爬虫的时候理解爬虫的逻辑。

开始之前需要准备的东西: Python、scrapy、一个IDE或者随便什么文本编辑工具。

随便建一个工作目录,然后用命令行建立一个工程,工程名为miao,可以替换为你喜欢的名字。

1scrapy startproject miao

随后你会得到如下的一个由scrapy创建的目录结构

在spiders文件夹中创建一个python文件,比如miao.py,来作为爬虫的脚本。

内容如下:

12345678910111213141516import scrapyclassNgaSpider(scrapy.Spider):name="NgaSpider"host="http://bbs.ngacn.cc/"# start_urls是我们准备爬的初始页start_urls=["http://bbs.ngacn.cc/thread.php?fid=406",]# 这个是解析函数,如果不特别指明的话,scrapy抓回来的页面会由这个函数进行解析。# 对页面的处理和分析工作都在此进行,这个示例里我们只是简单地把页面内容打印出来。def parse(self,response):print response.body

2.跑一个试试?

如果用命令行的话就这样:

12cd miaoscrapy crawl NgaSpider

你可以看到爬虫君已经把你坛星际区第一页打印出来了,当然由于没有任何处理,所以混杂着html标签和js脚本都一并打印出来了。

有想跟我一起学习的吗?可以关注我哟!

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表