使用 BeautifulSoup从HTML中提取JSON

文章目录

使用 BeautifulSoup从HTML中提取JSON

　　JSON是一种简单的数据交换格式,以占带宽小,便于客户端读取,便于服务端解析的显著特点在网页爬取保存数据时，被广泛应用。之前，我们有文章介绍如何使用BeautifulSoup查询关键词谷歌搜索结果排名，在本文中，我们晓得博客将为你介绍使用 BeautifulSoup从HTML中提取JSON，

需要使用的Python库

bs4 : Beautiful Soup(bs4) 是一个 Python 库，用于从 HTML 和 XML 文件中提取数据。这个模块不是 Python 内置的。要安装此类型，请在终端中输入以下命令。

pip install bs4

requests ： Request 允许您非常轻松地发送 HTTP/1.1 请求。这个模块也不是 Python 内置的。要安装此类型，请在终端中输入以下命令。

pip install requests

Python库的方法

导入所有需要的模块。
在 get 函数 (UDF) 中传递 URL，以便它将 GET 请求传递给 URL，并返回响应。

语法： requests.get(url, args)

　　现在使用 bs4 解析 HTML 内容。

语法： BeautifulSoup(page.text, ‘html.parser’)

page.text ：它是原始 HTML 内容。
html.parser ：指定我们要使用的 HTML 解析器。

　　使用 find() 函数获取所有需要的数据，找到带有 li, a, p 标签的客户列表，其中有一些唯一的类或 id。您可以在浏览器中打开网页，通过右键单击查看相关元素，如图所示。

创建一个 Json 文件并使用 json.dump() 方法将 python 对象转换为适当的 JSON 对象。

　　推荐：Beautifulsoup教程

　　下面是完整的python代码实现：

import requests
from bs4 import BeautifulSoup
import json

def json_from_html_using_bs4(base_url):

    page = requests.get(base_url)
    soup = BeautifulSoup(page.text, "html.parser")
    books = soup.find_all('li', attrs={'class':'col-xs-6 col-sm-4 col-md-3 col-lg-3'})
    star = ['One', 'Two', 'Three', 'Four', 'Five']
    res, book_no = [], 1

    # Iterate books classand check for the given tags
    for book in books:

        title = book.find('img')['alt']
        link = base_url[:37] + book.find('a')['href']

        for index in range(5):
            find_stars = book.find('p', attrs={'class': 'star-rating ' + star[index]})

            if find_stars is not None:
                stars = star[index] + " out of 5"
                break

        price = book.find('p', attrs={'class': 'price_color'}).text
        instock = book.find('p', attrs={'class':'instock availability'}).text.strip()
    
        data = {'book no': str(book_no), 'title': title,'rating': stars, 'price': price, 'link': link,'stock': instock}

    # Append the dictionary to the list
        res.append(data)
        book_no += 1
    return res

# Main Function
if __name__ == "__main__":
    # Enter the url of website
    base_url = "https://books.toscrape.com/catalogue/page-1.html"
    res = json_from_html_using_bs4(base_url)
    # it to books.json file.
    with open('books.json', 'w', encoding='latin-1') as f:
        json.dump(res, f, indent=8, ensure_ascii=False)
    print("Created Json File")

输出：

Created Json File

JSON 文件输出：

总结

　　以上是晓得博客为你介绍的使用 BeautifulSoup从HTML中提取JSON格式的全部内容，希望对你的Python编程学习有所帮助。

　　推荐：零基础如何开始学习Python

Claude、Netflix、Midjourney、ChatGPT Plus、PS、Disney、Youtube、Office 365、多邻国Plus账号购买，ChatGPT API购买，优惠码XDBK，用户购买的时候输入优惠码可以打95折

MetShop为您提供可靠、独立、安全的账号合租服务，便捷订阅Netflix高级会员，油管家庭组会员，Spotify会员等多种国际流媒体会员账号。

Python
使用PyScript在Web上运行Python可视化
发布2024年6月10日上午9:342024年6月14日下午3:58更新2024年6月14日下午3:58
使用PyScript在Web上运行Python可视化　　PyScript 是一个开源框架，可让您直接在 Web 浏览器中运行 Python 代码，从而可以使用 Python 为后…
Read More 使用PyScript在Web上运行Python可视化
ChatGPT教程|Python
Caktus AI怎么使用
发布2024年1月23日上午11:152024年1月22日下午3:11
Caktus AI怎么使用　　Caktus AI是一款专为学生打造的人工智能产品。这是一个有趣的平台，为用户带来了多种工具，从内容生成到研究再到数学。我们将深入研究产品、定价、使…
Read More Caktus AI怎么使用
Matplotlib教程|Python
Matplotlib与Seaborn的区别
发布2024年1月22日上午11:422024年1月14日下午12:25
Matplotlib与Seaborn的区别　　数据可视化是数据的图形表示。它将庞大的数据集转换为小图表，从而有助于数据分析和预测。它是数据科学不可或缺的元素，它使复杂的数据更易于…
Read More Matplotlib与Seaborn的区别
Beautiful Soup教程|Python
如何用Python下载网页上图像
发布2024年1月21日上午8:482024年1月14日上午8:56
如何用Python下载网页上图像　　网络抓取是一种从网站获取数据的技术。在网上冲浪时，许多网站不允许用户保存数据供个人使用。一种方法是手动复制粘贴数据，这既乏味又耗时。网页抓取是…
Read More 如何用Python下载网页上图像
Jupyter Notebook教程|Python
10个Jupyter Notebook提示和技巧
发布2024年1月20日下午5:002024年1月12日下午5:02
10个Jupyter Notebook提示和技巧　　通过专家提示和技术包括节省时间的快捷方式、强大的神奇功能和高级功能释放 Jupyter Notebook 的全部潜力，以提高您…
Read More 10个Jupyter Notebook提示和技巧
NumPy教程|Python
NumPy二元运算符
发布2024年1月19日下午3:532024年1月8日下午4:24
NumPy二元运算符　　二元运算符作用于位，进行逐位运算。二元运算只是组合两个值以创建新值的规则。以下是 NumPy 包中可用的按位运算函数。操作及说明 1 按位与计算数组元素…
Read More NumPy二元运算符

友情链接：WordPress外贸建站卓越笔记陈沩亮博客 INFOXIAO