网页解析神器BeautifulSoup4,它让你轻松处理 HTML 页面，提取你想要的数据，是网页爬虫入门的第一步！

beautifulsoup4 是一个用于 HTML 和 XML 解析的 Python 库。相比正则表达式，它更智能、更优雅，能让你像操作树结构一样操作网页内容。

先看效果！

安装方式

pip install beautifulsoup4

推荐搭配使用 lxml 解析器：

pip install lxml

学习本来就不是一蹴而就的事，不过只要你肯练、敢用，坚持一阵子，你一定能看到变化！

入门示例

下面是一个完整的解析示例：

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
"""
@Project ：Fish 
@File    ：D19.py
@Date    ：2025/6/18 19:00 
@Author : malijie
"""
from bs4 import BeautifulSoup

with open('test.html', 'r', encoding='utf-8') as f:
    html = f.read()

soup = BeautifulSoup(html, 'html.parser')

print(f"string:\t{soup.title.string}")
print(f"text:\t{soup.h1.text}")
print(f"class:\t{soup.p['class']}")
print(f"href:\t{soup.a['href']}")

用一句话总结：解析 HTML，像写剧本一样简单！

常用方法速查表

功能	示例代码	说明
查找单个元素	soup.find('p')	查找第一个 <p> 标签
查找多个元素	soup.find_all('a')	查找所有 <a> 标签
获取属性值	tag['href']	提取超链接地址
获取文本内容	tag.text / tag.string	提取纯文本
使用选择器	soup.select('.desc')	类似 jQuery 的选择器
获取父元素	tag.parent	获取标签的父级元素
遍历子元素	tag.children	获取标签的直接子元素

使用建议

html.parser 是 Python 内置的解析器，无需额外安装，但功能有限。
推荐使用 lxml，速度更快、容错更强，下期重点介绍！

实战小练习

解析ycombinator页面中的问题标题：

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
"""
@Project ：Fish 
@File    ：D19.py
@Date    ：2025/6/18 19:00 
@Author : malijie
"""

import requests
from bs4 import BeautifulSoup

url = "https://news.ycombinator.com/"
headers = {"User-Agent": "Mozilla/5.0"}

res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.text, 'lxml')

# 提取每篇新闻标题和链接
articles = soup.select('.titleline > a')

for i, a in enumerate(articles, 1):
    title = a.text.strip()
    href = a['href']
    print(f"{i}. {title} {href}")

输出热门话题，几行代码就搞定！

小坑提示

有些网页是动态加载，BeautifulSoup 无法处理 JavaScript 渲染的内容，这时可以用 Selenium 或 Playwright。

下期预告

《每天一个 Python 库：lxml —— 速度与强度并存的 HTML 解析器》

点赞关注不迷路，不错过每一期实战技巧！

后续还有更多自动化测试经验分享～评论区欢迎唠嗑交流！

点头像，发现更多精彩内容！

杰人编程网

每天一个 Python 库:BeautifulSoup4 优雅地解析HTML