BeautifulSoup简称BS4（其中4表示版本号）是一个Python第三方库，它可以从HTML或XML文档中快速地提取指定的数据。BeautifulSoup语法简单，使用方便，并且容易理解，因此您可以快速地学习并掌握它。本节我们讲解BS4的基本语法。

BS4下载安装

由于BautifulSoup是第三方库，因此需要单独下载，下载方式非常简单，执行以下命令即可安装：

pip install bs41复制代码类型：[python]

由于BS4解析页面时需要依赖文档解析器，所以还需要安装lxml作为解析库：

pip install lxml1复制代码类型：[python]

Python也自带了一个文档解析库html.parser，但是其解析速度要稍慢于lxml。除了上述解析器外，还可以使用html5lib解析器，安装方式如下：

pip install html5lib1复制代码类型：[python]

该解析器生成HTML格式的文档，但速度较慢。

“解析器容错”指的是被解析的文档发生错误或不符合格式时，通过解析器的容错性仍然可以按照既定的正确格式实现解析。

BS4解析对象

创建BS4解析对象是万事开头的第一步，这非常地简单，语法格式如下所示：

#导入解析包
from bs4 import BeautifulSoup
#创建beautifulsoup解析对象
soup = BeautifulSoup(html_doc, 'html.parser')1234复制代码类型：[python]

下面对爬虫中经常用到的BS4解析方法做详细介绍。

BeautifulSoup将HTML文档转换成一个树形结构，该结构有利于快速地遍历和搜索HTML文档。下面使用树状结构来描述一段HTML文档：

开课吧广场topic.kaikeba.com
一个学习编程的网站
1复制代码类型：[python]

树状图如下所示：

文档树中的每个节点都是Python对象，这些对象大致分为四类：Tag,NavigableString,BeautifulSoup,Comment。其中使用最多的是Tag和NavigableString。

Tag：标签类，HTML文档中所有的标签都可以看做Tag对象。

NavigableString：字符串类，指的是标签中的文本内容，使用text、string、strings来获取文本内容。

BeautifulSoup：表示一个HTML文档的全部内容，您可以把它当作一个人特殊的Tag对象。

Comment：表示HTML文档中的注释内容以及特殊字符串，它是一个特殊的NavigableString。

1)Tag节点

标签（Tag）是组成HTML文档的基本元素。在BS4中，通过标签名和标签属性可以提取出想要的内容。

Tag对象提供了许多遍历tag节点的属性，比如contents、children用来遍历子节点；parent与parents用来遍历父节点；而next_sibling与previous_sibling则用来遍历兄弟节点。

find_all()与find()是解析HTML文档的常用方法，它们可以在HTML文档中按照一定的条件（相当于过滤器）查找所需内容。find()与find_all()的语法格式相似，希望大家在学习的时候，可以举一反三。

BS4库中定义了许多用于搜索的方法，find()与find_all()是最为关键的两个方法，其余方法的参数和使用与其类似。

1)find_all()

find_all()方法用来搜索当前tag的所有子节点，并判断这些节点是否符合过滤条件，最后以列表形式将符合条件的内容返回，语法格式如下：

find_all(name,attrs,recursive,text,limit)

参数说明：

name：查找所有名字为name的tag标签，字符串对象会被自动忽略。

attrs：按照属性名和属性值搜索tag标签，注意由于class是Python的关键字吗，所以要使用"class_"。

recursive：find_all()会搜索tag的所有子孙节点，设置recursive=False可以只搜索tag的直接子节点。

text：用来搜文档中的字符串内容，该参数可以接受字符串、正则表达式、列表、True。

limit：由于find_all()会返回所有的搜索结果，这样会影响执行效率，通过limit参数可以限制返回结果的数量。

2)find()

find()方法与find_all()类似，不同之处在于find_all()会将文档中所有符合条件的结果返回，而find()仅返回一个符合条件的结果，所以find()方法没有limit参数。

BS4支持大部分的CSS选择器，比如常见的标签选择器、类选择器、id选择器，以及层级选择器。BeautifulSoup提供了一个select()方法，通过向该方法中添加选择器，就可以在HTML文档中搜索到与之对应的内容。