2025年01月05日 建站教程
Python爬虫如何解析HTML页面,下面web建站小编给大家简单介绍一下!
具体语法如下:
import re
html = '''
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title>这是页面标题</title>
</head>
<body>
<div class="content">
<h2>这是一级标题</h2>
<p>这是一段文本</p>
</div>
<div class="footer">
<p>版权所有 © 2021</p>
</div>
</body>
</html>
'''
pattern = re.compile(r'<div class="content">.*?<h2>(.*?)</h2>.*?<p>(.*?)</p>.*?</div>', re.S)
match = re.search(pattern, html)
if match:
title = match.group(1)
text = match.group(2)
print(title)
print(text)
本文链接:http://so.lmcjl.com/news/20761/