Python爬虫Beautiful Soup示例代码解析与使用说明

美丽汤(Beautiful Soup)是一个用于解析HTML和XML文件的Python库,它提供了一种方便而简单的方式来遍历、搜索和修改HTML/XML的解析树。本文将详细介绍如何使用Beautiful Soup库来解析HTML文件,并提供了一些示例代码以帮助读者更好地理解和使用该库。

示例代码如下:

from bs4 import BeautifulSoup

# 创建Beautiful Soup对象
html = """
<html>
<head>
  <title>美丽汤示例代码</title>
</head>
<body>
  <h1>示例代码</h1>
  <p>这是一个示例代码的文档。</p>
</body>
</html>
"""

soup = BeautifulSoup(html, 'html.parser')

# 获取标题
title = soup.title.string
print("标题:", title)

# 获取正文内容
body = soup.body.get_text()
print("正文内容:", body)

通过以上示例代码,我们可以看到如何使用Beautiful Soup库来解析HTML文件,并获取标题和正文内容的方法。读者可以根据自己的需求进一步修改和扩展这些代码。