1:bs4库里面的BeautifulSoup是html标签代码解析的库在解析html非常好用版本是BeautifulSoup4.3.2版本 bs4对于python3的支持不好需要下载bs3的版本但是本人比较喜欢用bs4
(1)解析器:html.parser 这是python内置的库 执行速度适中 文档容错能力强
(2)解析器:html5lib
(3)解析器: lxml
(4)解析和取像a p img div标签里面的属性(如href src target data-etrack id class)如下面的代码所示
(5)Css选择器:select 通过标签名字 通过类 通过id 通过class 属性
(6)find_all(参数name sttrs 传字符串 正则 列表 True 方法 keyword)
(7)Find 它与 find_all() 方法唯一的区别是 find_all() 方法的返回结果是值包含一个元素的列表,而 find() 方法直接返回结果
(8)find_parents() find_parent():find_all() 和 find() 只搜索当前节点的所有子节点,孙子节点等. find_parents() 和 find_parent() 用来搜索当前节点的父辈节点,搜索方法与普通tag的搜索方法相同,搜索文档搜索文档包含的内容
(9)find_next_siblings() find_next_sibling()
这2个方法通过 .next_siblings 属性对当 tag 的所有后面解析的兄弟 tag 节点进行迭代, find_next_siblings() 方法返回所有符合条件的后面的兄弟节点,find_next_sibling() 只返回符合条件的后面的第一个tag节点
(10)find_previous_siblings() find_previous_sibling()
这2个方法通过 .previous_siblings 属性对当前 tag 的前面解析的兄弟 tag 节点进行迭代, find_previous_siblings()方法返回所有符合条件的前面的兄弟节点, find_previous_sibling() 方法返回第一个符合条件的前面的兄弟节点
(11)find_all_next() find_next()
这2个方法通过 .next_elements 属性对当前 tag 的之后的 tag 和字符串进行迭代, find_all_next() 方法返回所有符合条件的节点, find_next() 方法返回第一个符合条件的节点
(12)find_all_previous() 和 find_previous()
这2个方法通过 .previous_elements 属性对当前节点前面的 tag 和字符串进行迭代, find_all_previous() 方法返回所有符合条件的节点, find_previous()方法返回第一个符合条件的节点
本文暂时没有评论,来添加一个吧(●'◡'●)