Python中的 html5lib 和 lxml 解析器

文章目录

　　Python编程中的解析意味着将一团文本分解成更小且有意义的部分。这种分解取决于特定解析器定义的某些规则和因素。这些解析器的范围可以从逐行解析的本机字符串方法到诸如 html5lib，它可以解析 HTML 文档的几乎所有元素，将其分解为不同的标签和片段，可以针对各种用例过滤掉这些元素。

　　本文我们晓得博客为你介绍Python中的 html5lib 和 lxml 解析器的全部内容，在深入研究之前对这两个库进行概述。

Python中解析器

　　Html5lib 和 lxml 是一个 Python 库，可以轻松处理 XML 和 HTML 文件，也可用于网页抓取。有很多现成的 XML 解析器，但为了获得更好的结果，开发人员有时更喜欢编写自己的 XML 和 HTML 解析器。由于 html5lib是一个纯 python 库，它具有外部 Python 依赖关系，而 lxml某些 C 库的绑定具有外部 C 依赖关系。

　　lxml 安装：

pip install html5lib

　　html5lib： 一个 纯Python 库解析HTML。它旨在符合 WHATWG HTML 规范，正如所有主要 Web 浏览器所实现的那样。

　　lxml： C 库的成熟的 Pythonic 绑定 libxml2和 libxslt. 它的独特之处在于它将这些库的速度和 XML 功能完整性与原生 Python API 的简单性相结合，大部分兼容但优于众所周知的 ElementTree火。

　　lxml 安装：

pip install lxml

　　推荐：零基础如何开始学习Python

优点和缺点

　　html5lib：

实现受当前浏览器严重影响的 HTML5 解析算法，这意味着您获得的解析文本与在浏览器上完成的解析文本相同。
由于它使用 HTML5 解析算法，它甚至修复了许多损坏的 HTML 并添加了几个缺失的标签，以完成文本并使其看起来像 HTML 文档。
极其宽容。
非常慢。为什么？因为它得到了大量 Python 的支持代码。

　　lxml:

非常快。为什么？因为它得到了大量的支持 Cython 代码。
修复了一些损坏的 HTML，但不足以像完整的 HTML 文档一样呈现它。
相当宽容。

在Beautifulsoup中使用的区别

　　只是为了突出两个解析器在它们如何工作和制作树以修复未完美形成的文档方面的区别，我们将采用相同的示例并将其提供给两个解析器。

<li></p>

from bs4 import BeautifulSoup

soup_html5lib = BeautifulSoup("<li></p>", "html5lib")

print(soup_html5lib)

　　输出：

<html><head></head><body><li><p></p></li></body></html>

　　我们发现了什么：

打开和关闭 html标签。
打开和关闭 head标签（空）。
打开和关闭 body标签。
支持打开关闭 p标签
支持打开关闭 li标签。
Beautiful soup对象的最终文本中没有删除标签。

　　lxml:

from bs4 import BeautifulSoup

soup_lxml = BeautifulSoup("<li></p>", "lxml")

print(soup_lxml)

　　输出：

<html><body><li></li></body></html>

　　我们发现了什么：

打开和关闭 html标签。
不包含 head标签。
打开和关闭 body标签。
收盘 li支持打开的标签 li标签。
没有 p标签。

总结

　　以上是晓得博客为你介绍的Python中的 html5lib 和 lxml 解析器的全部内容，可以很容易观察两个库在文档的解析方面的差异。

　　推荐：BeautifulSoup使用教程

Python
使用PyScript在Web上运行Python可视化
发布2024年6月10日上午9:342024年6月14日下午3:58更新2024年6月14日下午3:58
使用PyScript在Web上运行Python可视化　　PyScript 是一个开源框架，可让您直接在 Web 浏览器中运行 Python 代码，从而可以使用 Python 为后…
Read More 使用PyScript在Web上运行Python可视化
ChatGPT教程|Python
Caktus AI怎么使用
发布2024年1月23日上午11:152024年1月22日下午3:11
Caktus AI怎么使用　　Caktus AI是一款专为学生打造的人工智能产品。这是一个有趣的平台，为用户带来了多种工具，从内容生成到研究再到数学。我们将深入研究产品、定价、使…
Read More Caktus AI怎么使用
Matplotlib教程|Python
Matplotlib与Seaborn的区别
发布2024年1月22日上午11:422024年1月14日下午12:25
Matplotlib与Seaborn的区别　　数据可视化是数据的图形表示。它将庞大的数据集转换为小图表，从而有助于数据分析和预测。它是数据科学不可或缺的元素，它使复杂的数据更易于…
Read More Matplotlib与Seaborn的区别
Beautiful Soup教程|Python
如何用Python下载网页上图像
发布2024年1月21日上午8:482024年1月14日上午8:56
如何用Python下载网页上图像　　网络抓取是一种从网站获取数据的技术。在网上冲浪时，许多网站不允许用户保存数据供个人使用。一种方法是手动复制粘贴数据，这既乏味又耗时。网页抓取是…
Read More 如何用Python下载网页上图像
Jupyter Notebook教程|Python
10个Jupyter Notebook提示和技巧
发布2024年1月20日下午5:002024年1月12日下午5:02
10个Jupyter Notebook提示和技巧　　通过专家提示和技术包括节省时间的快捷方式、强大的神奇功能和高级功能释放 Jupyter Notebook 的全部潜力，以提高您…
Read More 10个Jupyter Notebook提示和技巧
NumPy教程|Python
NumPy二元运算符
发布2024年1月19日下午3:532024年1月8日下午4:24
NumPy二元运算符　　二元运算符作用于位，进行逐位运算。二元运算只是组合两个值以创建新值的规则。以下是 NumPy 包中可用的按位运算函数。操作及说明 1 按位与计算数组元素…
Read More NumPy二元运算符

Python中的 html5lib 和 lxml 解析器

Python中解析器

优点和缺点

在Beautifulsoup中使用的区别

总结

相关文章