BeautifulSoup简称BS4(其中4表示版本号)是一个Python第三方库,它可以从HTML或XML文档中快速地提取指定的数据。BeautifulSoup语法简单,使用方便,并且容易理解,因此您可以快速地学习并掌握它。本节我们讲解BS4的基本语法。
BS4下载安装
由于BautifulSoup是第三方库,因此需要单独下载,下载方式非常简单,执行以下命令即可安装:
pip install bs41复制代码类型:[python]
由于BS4解析页面时需要依赖文档解析器,所以还需要安装lxml作为解析库:
pip install lxml1复制代码类型:[python]
Python也自带了一个文档解析库html.parser,但是其解析速度要稍慢于lxml。除了上述解析器外,还可以使用html5lib解析器,安装方式如下:
pip install html5lib1复制代码类型:[python]
该解析器生成HTML格式的文档,但速度较慢。
“解析器容错”指的是被解析的文档发生错误或不符合格式时,通过解析器的容错性仍然可以按照既定的正确格式实现解析。
BS4解析对象
创建BS4解析对象是万事开头的第一步,这非常地简单,语法格式如下所示:
#导入解析包
from bs4 import BeautifulSoup
#创建beautifulsoup解析对象
soup = BeautifulSoup(html_doc, 'html.parser')1234复制代码类型:[python]
BS4常用语法
下面对爬虫中经常用到的BS4解析方法做详细介绍。
BeautifulSoup将HTML文档转换成一个树形结构,该结构有利于快速地遍历和搜索HTML文档。下面使用树状结构来描述一段HTML文档:
开课吧广场 topic.kaikeba.com
一个学习编程的网站