编程开源技术交流,分享技术与知识

网站首页 > 开源技术 正文

python入门:爬虫利器Beautiful Soup

wxchong 2024-08-12 02:22:05 开源技术 15 ℃ 0 评论

大部分人学习python,都是被爬虫吸引过来的。那么咱们的这个library就要发挥重大作用了。

它是一个优秀的html/xml的解析器,能够帮你快速定位到你需要的元素。形象的比喻来说,有点类似于jQuery对于前端工程师的重要程度。

  • 官方网站(https://www.crummy.com/software/BeautifulSoup/)

英文不好的话也不要紧,汉化版的文档也有:http://beautifulsoup.readthedocs.io/zh_CN/latest/

  • 安装组件:beautifulsoup4、解析器(lxml、html5lib)

  • 使用方法:以访问百度主页的a链接作为例子来说明

  • 代码如下:

import requests

from bs4 import BeautifulSoup

soup = BeautifulSoup(requests.get("http://www.baidu.com").content,"lxml")

print(soup.a)

执行结果如下:

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表