每天一个 Python 库:BeautifulSoup4 优雅地解析HTML

网页解析神器BeautifulSoup4,它让你轻松处理 HTML 页面,提取你想要的数据,是网页爬虫入门的第一步!

beautifulsoup4 是一个用于 HTML 和 XML 解析的 Python 库。相比正则表达式,它更智能、更优雅,能让你像操作树结构一样操作网页内容。

先看效果!


安装方式

pip install beautifulsoup4

推荐搭配使用 lxml 解析器:

pip install lxml

学习本来就不是一蹴而就的事,不过只要你肯练、敢用,坚持一阵子,你一定能看到变化!


入门示例

下面是一个完整的解析示例:

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
"""
@Project :Fish 
@File    :D19.py
@Date    :2025/6/18 19:00 
@Author : malijie
"""
from bs4 import BeautifulSoup

with open('test.html', 'r', encoding='utf-8') as f:
    html = f.read()

soup = BeautifulSoup(html, 'html.parser')

print(f"string:\t{soup.title.string}")
print(f"text:\t{soup.h1.text}")
print(f"class:\t{soup.p['class']}")
print(f"href:\t{soup.a['href']}")

用一句话总结:解析 HTML,像写剧本一样简单!



常用方法速查表

功能

示例代码

说明

查找单个元素

soup.find('p')

查找第一个 <p> 标签

查找多个元素

soup.find_all('a')

查找所有 <a> 标签

获取属性值

tag['href']

提取超链接地址

获取文本内容

tag.text / tag.string

提取纯文本

使用选择器

soup.select('.desc')

类似 jQuery 的选择器

获取父元素

tag.parent

获取标签的父级元素

遍历子元素

tag.children

获取标签的直接子元素



使用建议

  • html.parser 是 Python 内置的解析器,无需额外安装,但功能有限。
  • 推荐使用 lxml,速度更快、容错更强,下期重点介绍!



实战小练习

解析ycombinator页面中的问题标题:

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
"""
@Project :Fish 
@File    :D19.py
@Date    :2025/6/18 19:00 
@Author : malijie
"""

import requests
from bs4 import BeautifulSoup

url = "https://news.ycombinator.com/"
headers = {"User-Agent": "Mozilla/5.0"}

res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.text, 'lxml')

# 提取每篇新闻标题和链接
articles = soup.select('.titleline > a')

for i, a in enumerate(articles, 1):
    title = a.text.strip()
    href = a['href']
    print(f"{i}. {title} {href}")

输出热门话题,几行代码就搞定!


小坑提示

  • 有些网页是动态加载,BeautifulSoup 无法处理 JavaScript 渲染的内容,这时可以用 SeleniumPlaywright



下期预告

《每天一个 Python 库:lxml —— 速度与强度并存的 HTML 解析器》

点赞关注不迷路,不错过每一期实战技巧!

后续还有更多自动化测试经验分享~评论区欢迎唠嗑交流!

点头像,发现更多精彩内容!

原文链接:,转发请注明来源!