品易云推流 关闭
文章详情页
文章 > 爬虫入门 > Python爬虫BeautifulSoup库中常见对象有哪些

Python爬虫BeautifulSoup库中常见对象有哪些

Python爬虫

头像

宋雪维

2021-04-27 10:18:071040浏览 · 0收藏 · 0评论

Python爬虫在运用requests库爬取网页内容时,要是需要进一步解析HTML页面格式,应调用python爬虫另一个BeautifulSoup库。BeautifulSoup库有四个常见对象,为1、HTML中的一个个标签的Tag;2、用来包装tag中的字符串的NavigableString;3、表示的是一个文档的全部内容BeautifulSoup;4、用于操作文档的注释部分Comment。本文向大家介绍。

1、Tag:

Tag通俗点讲就是HTML中的一个个标签。

# 获取title标签的所有内容 print(bs.title)

2、NavigableString:用来包装tag中的字符串

如果拿到标签后,还想获取标签中的内容。那么可以通过tag.string获取标签中的文字。

print(bs.title.string)
 
print(type(bs.title.string))

3、BeautifulSoup:

表示的是一个文档的全部内容,包含了一个值为’[document]'的属性大部分时间可以把它当做Tag对象,它支持遍历文档树和搜索文档树中描述的大部分方法。

soup.name
# '[document]'

4、Comment:

用于操作文档的注释部分,是一个特殊类型的 NavigableString 对象。

comment
# 'Hey, buddy. Want to buy a used parser'

以上就是python爬虫BeautifulSoup库有四个常见对象,需要注意的是Tag查找方式是所有内容中的第一个符合要求的标签哦~更多python爬虫推荐:python爬虫教程

(推荐操作系统:windows7系统、Python 3.9.1,DELL G3电脑。)

关注

关注公众号,随时随地在线学习

本教程部分素材来源于网络,版权问题联系站长!

底部广告图