Python中使用Beautiful Soup进行网页抓取:基础知识探究
在之前的教程中,我向您展示了如何使用 Requests 模块通过 Python 访问网页。本教程涵盖了很多主题,例如发出 GET/POST 请求以及以编程方式下载图像或 PDF 等内容。该教程缺少的一件事是如何抓取您使用请求访问的网页以提取所需信息的指南。
在本教程中,您将了解 Beautiful Soup,它是一个用于从 HTML 文件中提取数据的 Python 库。本教程的重点是学习该库的基础知识,下一个教程将介绍更高级的主题。请注意,本教程的所有示例均使用 Beautiful Soup 4。
安装
您可以使用 pip
安装 Beautiful Soup 4。包名称为 beautifulsoup4
。它应该适用于 Python 2 和 Python 3。
$ pip install beautifulsoup4 登录后复制