Python爬虫如何解析HTML页面

2025年01月05日建站教程

Python爬虫如何解析HTML页面，下面web建站小编给大家简单介绍一下！

具体语法如下：

import re
html = '''
<!DOCTYPE html>
<html>
<head>
  <meta charset="utf-8">
  <title>这是页面标题</title>
</head>
<body>
  <div class="content">
    <h2>这是一级标题</h2>
    <p>这是一段文本</p>
  </div>
  <div class="footer">
    <p>版权所有 © 2021</p>
  </div>
</body>
</html>
'''
pattern = re.compile(r'<div class="content">.*?<h2>(.*?)</h2>.*?<p>(.*?)</p>.*?</div>', re.S)
match = re.search(pattern, html)
if match:
  title = match.group(1)
  text = match.group(2)
  print(title)
  print(text)

本文链接：http://so.lmcjl.com/news/20761/

展开阅读全文

上一篇：Django2：Web项目开发入门笔记（1）下一篇：MySQL 8新特性

相关内容

1.帝国cms验证码打叉不显示解决方法

2.帝国CMS结合项提示“您来自的链接不存在”的解

3.帝国CMS中[!--no.num--]标签的用法分析

4.帝国CMS7.5版用户发布信息统计升级，统计项更详

5.帝国cms信息置顶功能不起作用的解决方法

6.帝国CMS7.5版支持设置某些会员组才能拥有会员空

7.帝国CMS7.2版多终端访问模板设置使用功能图文教

8.帝国CMS7.5版栏目新增单页内容设置，做单页更方