编程开源技术交流,分享技术与知识

网站首页 > 开源技术 正文

Python的BeautifulSoup4是python优秀的第三库

wxchong 2024-08-12 02:22:03 开源技术 19 ℃ 0 评论

Python的BeautifulSoup4是python优秀的第三库,用来解析html标签和提取html里面的文字

Bs4的用法如下

1:解析器:html.parser lxml html5lib xml

2:soup = BeautifulSoup(html_css, 'html.parser')

3:soup.prettify() # prettify 有括号和没括号都可以

4:html_soup = soup.find_all('div', class_ = 'name')

5:html_soup = soup.select('.fl #news_ul .li_img .li_rt a')

6:find_parents() 返回所有祖先节点

find_parent() 返回直接父节点

find_next_siblings() 返回后面所有的兄弟节点

find_next_sibling() 返回后面的第一个兄弟节点

find_previous_siblings() 返回前面所有的兄弟节点

find_previous_sibling() 返回前面第一个兄弟节点

find_all_next() 返回节点后所有符合条件的节点

find_next() 返回节点后第一个符合条件的节点

find_all_previous() 返回节点前所有符合条件的节点

find_previous() 返回节点前所有符合条件的节点

结论:小编一直觉得bs4是解析html的福音,大方简洁 写法优美整合其他库的优点与一身强大的一个库

以前关心用“踩”的

现在存在感用“赞”的

“云”联系太久

何时见面聊python?

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表