Python的BeautifulSoup4是python优秀的第三库

wxchong 2024-08-12 02:22:03 开源技术 52 ℃ 0 评论

Python的BeautifulSoup4是python优秀的第三库，用来解析html标签和提取html里面的文字

Bs4的用法如下

1：解析器：html.parser lxml html5lib xml

2：soup = BeautifulSoup(html_css, 'html.parser')

3：soup.prettify() # prettify 有括号和没括号都可以

4：html_soup = soup.find_all('div', class_ = 'name')

5：html_soup = soup.select('.fl #news_ul .li_img .li_rt a')

6：find_parents() 返回所有祖先节点

find_parent() 返回直接父节点

find_next_siblings() 返回后面所有的兄弟节点

find_next_sibling() 返回后面的第一个兄弟节点

find_previous_siblings() 返回前面所有的兄弟节点

find_previous_sibling()　返回前面第一个兄弟节点

find_all_next() 返回节点后所有符合条件的节点

find_next() 返回节点后第一个符合条件的节点

find_all_previous() 返回节点前所有符合条件的节点

find_previous() 返回节点前所有符合条件的节点

结论：小编一直觉得bs4是解析html的福音，大方简洁写法优美整合其他库的优点与一身强大的一个库

以前关心用“踩”的

现在存在感用“赞”的

“云”联系太久

何时见面聊python？

网站首页 > 开源技术正文