本文共 774 字,大约阅读时间需要 2 分钟。
通过BeautifulSoup库筛选HTML元素
BeautifulSoup库提供了便捷的方法来筛选HTML文档中的元素,支持通过标签名、类名、id名以及组合方式进行查找。这些方法的返回类型为list,可以通过列表索引获取具体元素。
print soup.select('title') 返回结果:#The Dormouse's story 示例:查找所有a标签 print soup.select('a') 返回结果:#, Lacie, Tillie 2. 通过类名查找 print soup.select('.sister') 返回结果:#, Lacie, Tillie 3. 通过id名查找 print soup.select('#link1') 返回结果:# 4. 组合查找 print soup.select('p #link1') 返回结果:# 5. 直接子标签查找 print soup.select("head > title") 返回结果:#The Dormouse's story 6. 属性查找 print soup.select('a[href="http://example.com/elsie"]') 返回结果:# 7. 获取元素文本 span_text = soup.select('#class')[0].get_text() 通过get_text()方法可以获取元素的文本内容。 转载地址:http://jinj.baihongyu.com/