Python的BeautifulSoup4是python优秀的第三库,用来解析html标签和提取html里面的文字
Bs4的用法如下
1:解析器:html.parser lxml html5lib xml
2:soup = BeautifulSoup(html_css, 'html.parser')
3:soup.prettify() # prettify 有括号和没括号都可以
4:html_soup = soup.find_all('div', class_ = 'name')
5:html_soup = soup.select('.fl #news_ul .li_img .li_rt a')
6:find_parents() 返回所有祖先节点
find_parent() 返回直接父节点
find_next_siblings() 返回后面所有的兄弟节点
find_next_sibling() 返回后面的第一个兄弟节点
find_previous_siblings() 返回前面所有的兄弟节点
find_previous_sibling() 返回前面第一个兄弟节点
find_all_next() 返回节点后所有符合条件的节点
find_next() 返回节点后第一个符合条件的节点
find_all_previous() 返回节点前所有符合条件的节点
find_previous() 返回节点前所有符合条件的节点
结论:小编一直觉得bs4是解析html的福音,大方简洁 写法优美整合其他库的优点与一身强大的一个库
以前关心用“踩”的
现在存在感用“赞”的
“云”联系太久
何时见面聊python?
本文暂时没有评论,来添加一个吧(●'◡'●)