如何使用Python获取每日新闻

文章目录

　　在本文中，我们将了解如何使用 Python 获取每日新闻。这里我们将使用 Beautiful Soup 和 request 模块来抓取数据。

需要安装的模块

bs4 : Beautiful Soup(bs4) 是一个 Python 库，用于从 HTML 和 XML 文件中提取数据。这个模块不是 Python 内置的。要安装此类型，请在终端中输入以下命令。

pip install bs4

requests ： Request 允许您非常轻松地发送 HTTP/1.1 请求。这个模块也不是 Python 内置的。要安装此类型，请在终端中输入以下命令。

pip install requests

使用Python获取新闻步骤：

　　1、确保导入这些库。

import requests
from bs4 import BeautifulSoup

　　2、然后要获取https://www.bbc.com/news的HTML内容，添加以下两行代码：

url='https://www.bbc.com/news'
response = requests.get(url)

　　3 、 获取特定的 HTML 标签

　　为了找到包含新闻标题的 HTML 标签，请访问 https://www.bbc.com/news 并通过右键单击新闻标题并单击“检查”来检查新闻标题：

　　您将看到所有标题都包含在“<h3>”标签中。因此，要抓取此网页中的所有“<h3>”标签，请将以下代码行添加到您的脚本中：

　　首先，我们将“soup”定义为 BBC 新闻网页的 HTML 内容。接下来，我们将“headlines”定义为网页中所有“<h3>”标签的数组。最后，脚本遍历“headlines”数组并逐一显示其所有内容，去除其外部HTML的每个元素并使用“text.strip()”方法仅显示其文本内容。

soup = BeautifulSoup(response.text, 'html.parser')
headlines = soup.find('body').find_all('h3')
for x in headlines:
	print(x.text.strip())

　　下面是实现：

import requests
from bs4 import BeautifulSoup

url = 'https://www.bbc.com/news'
response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')
headlines = soup.find('body').find_all('h3')
for x in headlines:
	print(x.text.strip())

　　输出：

清理数据

　　您可能已经注意到，您的输出包含重复的新闻标题和不是新闻标题的文本内容。

　　创建要删除的所有文本元素的列表：

unwanted = [‘BBC World News TV’, ‘BBC World Service Radio’, ‘News daily newsletter’, ‘Mobile app’, ‘Get in touch’]

　　然后仅当文本元素不在此列表中时才打印文本元素：

Print（x.text.strip（））

下面是实现：

import requests
from bs4 import BeautifulSoup

proxy = {
'https': 'socks5://127.0.0.1:10808',
'http': 'socks5://127.0.0.1:10809'
}

url = 'https://www.bbc.com/news/'
response = requests.get(url,proxies=proxy)

soup = BeautifulSoup(response.text, 'html.parser')
print(soup)
headlines = soup.find('body').find_all('h3')
unwanted = ['BBC World News TV', 'BBC World Service Radio',
			'News daily newsletter', 'Mobile app', 'Get in touch']

for x in list(dict.fromkeys(headlines)):
	if x.text.strip() not in unwanted:
		print(x.text.strip())

输出：

总结

　　以上是晓得博客为你介绍的如何使用Python获取每日新闻的全部内容，希望对你学习Python有所帮助。如有问题，欢迎留言讨论。

　　推荐：零基础如何开始学习Python

Python
使用PyScript在Web上运行Python可视化
发布2024年6月10日上午9:342024年6月14日下午3:58更新2024年6月14日下午3:58
使用PyScript在Web上运行Python可视化　　PyScript 是一个开源框架，可让您直接在 Web 浏览器中运行 Python 代码，从而可以使用 Python 为后…
Read More 使用PyScript在Web上运行Python可视化
ChatGPT教程|Python
Caktus AI怎么使用
发布2024年1月23日上午11:152024年1月22日下午3:11
Caktus AI怎么使用　　Caktus AI是一款专为学生打造的人工智能产品。这是一个有趣的平台，为用户带来了多种工具，从内容生成到研究再到数学。我们将深入研究产品、定价、使…
Read More Caktus AI怎么使用
Matplotlib教程|Python
Matplotlib与Seaborn的区别
发布2024年1月22日上午11:422024年1月14日下午12:25
Matplotlib与Seaborn的区别　　数据可视化是数据的图形表示。它将庞大的数据集转换为小图表，从而有助于数据分析和预测。它是数据科学不可或缺的元素，它使复杂的数据更易于…
Read More Matplotlib与Seaborn的区别
Beautiful Soup教程|Python
如何用Python下载网页上图像
发布2024年1月21日上午8:482024年1月14日上午8:56
如何用Python下载网页上图像　　网络抓取是一种从网站获取数据的技术。在网上冲浪时，许多网站不允许用户保存数据供个人使用。一种方法是手动复制粘贴数据，这既乏味又耗时。网页抓取是…
Read More 如何用Python下载网页上图像
Jupyter Notebook教程|Python
10个Jupyter Notebook提示和技巧
发布2024年1月20日下午5:002024年1月12日下午5:02
10个Jupyter Notebook提示和技巧　　通过专家提示和技术包括节省时间的快捷方式、强大的神奇功能和高级功能释放 Jupyter Notebook 的全部潜力，以提高您…
Read More 10个Jupyter Notebook提示和技巧
NumPy教程|Python
NumPy二元运算符
发布2024年1月19日下午3:532024年1月8日下午4:24
NumPy二元运算符　　二元运算符作用于位，进行逐位运算。二元运算只是组合两个值以创建新值的规则。以下是 NumPy 包中可用的按位运算函数。操作及说明 1 按位与计算数组元素…
Read More NumPy二元运算符

如何使用Python获取每日新闻

需要安装的模块

使用Python获取新闻步骤：

清理数据

总结

相关文章