0基础的python爬虫（零基础学python爬虫）

wxchong 2024-08-10 22:15:29 开源技术 14 ℃ 0 评论

首先，我们来了解下什么是爬虫！

打开一个网页，里面有网页内容，想象一下，有个工具，可以把网页上的内容获取下来，存到你想要的地方，这个工具就是我们今天的主角：爬虫。这样是不是更清晰了呢？

网页的过程中，我们可能会看到许多好看的图片，我们会看到几张的图片以及百度搜索框，这个过程其实就是用户输入网址之后，经过DNS服务器，找到服务器主机，向服务器发出一个请求，服务器经过解析之后，发送给用户的浏览器 HTML、JS、CSS 等文件，浏览器解析出来，用户便可以看到形形色色的图片了。

因此，用户看到的网页实质是由 HTML 代码构成的，爬虫爬来的便是这些内容，通过分析和过滤这些 HTML 代码，实现对图片、文字等资源的获取。

学习爬虫的必备知识：

1.HTML

这个能够帮助你了解网页的结构，内容等。可以参考W3School的教程

2.Python

没有基础的小伙伴推荐看视频 Python0基础视频链接

3.0TCP/IP协议，HTTP协议

这些知识能够让你了解在网络请求和网络传输上的基本原理，了解就行，能够帮助今后写爬虫的时候理解爬虫的逻辑。

开始之前需要准备的东西： Python、scrapy、一个IDE或者随便什么文本编辑工具。

随便建一个工作目录，然后用命令行建立一个工程，工程名为miao，可以替换为你喜欢的名字。

1	scrapy startproject miao

随后你会得到如下的一个由scrapy创建的目录结构

在spiders文件夹中创建一个python文件，比如miao.py，来作为爬虫的脚本。

内容如下：

12345678910111213141516

import scrapyclassNgaSpider(scrapy.Spider):name="NgaSpider"host="http://bbs.ngacn.cc/"# start_urls是我们准备爬的初始页start_urls=["http://bbs.ngacn.cc/thread.php?fid=406",]# 这个是解析函数，如果不特别指明的话，scrapy抓回来的页面会由这个函数进行解析。# 对页面的处理和分析工作都在此进行，这个示例里我们只是简单地把页面内容打印出来。def parse(self,response):print response.body

2.跑一个试试？

如果用命令行的话就这样：

12	cd miaoscrapy crawl NgaSpider

你可以看到爬虫君已经把你坛星际区第一页打印出来了，当然由于没有任何处理，所以混杂着html标签和js脚本都一并打印出来了。

有想跟我一起学习的吗？可以关注我哟！

网站首页 > 开源技术正文

0基础的python爬虫（零基础学python爬虫）

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 开源技术 正文

0基础的python爬虫（零基础学python爬虫）

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 开源技术正文

取消回复欢迎你发表评论: