技术文章 > Python爬虫 >  爬虫入门 > 正文

Python爬虫BeautifulSoup库中常见对象有哪些

宋雪维

Python爬虫在运用requests库爬取网页内容时,要是需要进一步解析HTML页面格式,应调用python爬虫另一个BeautifulSoup库。BeautifulSoup库有四个常见对象,为1、HTML中的一个个标签的Tag;2、用来包装tag中的字符串的NavigableString;3、表示的是一个文档的全部内容BeautifulSoup;4、用于操作文档的注释部分Comment。本文向大家介绍。

1、Tag:

Tag通俗点讲就是HTML中的一个个标签。

# 获取title标签的所有内容 print(bs.title)

2、NavigableString:用来包装tag中的字符串

如果拿到标签后,还想获取标签中的内容。那么可以通过tag.string获取标签中的文字。

print(bs.title.string)
 
print(type(bs.title.string))

3、BeautifulSoup:

表示的是一个文档的全部内容,包含了一个值为’[document]'的属性大部分时间可以把它当做Tag对象,它支持遍历文档树和搜索文档树中描述的大部分方法。

soup.name
# '[document]'

4、Comment:

用于操作文档的注释部分,是一个特殊类型的 NavigableString 对象。

comment
# 'Hey, buddy. Want to buy a used parser'

以上就是python爬虫BeautifulSoup库有四个常见对象,需要注意的是Tag查找方式是所有内容中的第一个符合要求的标签哦~更多python爬虫推荐:python爬虫教程

免费视频教程
本教程部分素材来源于网络,版权问题联系站长!
相关文章
  datime包在python中计算时间差
  python中操作文件的模块有几种?
  python中pandas.Dataframe合并的方法有哪些?
  python中字符串转成数字的几种方法
  python元组中如何进行排序?
相关视频章节
  解决提示“‘python’不是内部或外外部命令
  python注释
  python命名规范
  Python语言简介
视频教程分类