当前位置：首页 > news >正文

【python实用小脚本-128】基于 Python 的 Hacker News 爬虫工具：自动化抓取新闻数据

news 2025/9/1 4:02:02

引言

在技术社区中，Hacker News 是一个汇聚最新技术文章和讨论的热门平台。许多开发者和技术爱好者依赖它来获取行业动态和前沿资讯。然而，手动浏览和筛选这些文章可能耗时且低效。本文将介绍一个基于 Python 的 Hacker News 爬虫工具，它能够自动化地从 Hacker News 网站抓取最新文章，并将结果保存为 CSV 文件。该工具主要利用了 Python 的 requests、BeautifulSoup 和 csv 库，结合了网络请求和网页解析技术，为用户提供了一个高效且便捷的新闻数据抓取解决方案。

总体功能概述

Hacker News 爬虫工具是一个 Python 脚本，其核心功能是从 Hacker News 网站抓取最新文章，并将文章标题和链接保存到 CSV 文件中。它通过调用 requests 库发送 HTTP 请求获取网页内容，利用 BeautifulSoup 库解析 HTML 数据，并使用 csv 库将结果保存为 CSV 文件。此外，工具还通过用户输入来灵活地指定需要抓取的文章数量。

网络请求与网页内容获取

工具首先需要从 Hacker News 网站获取网页内容。以下是网络请求与网页内容获取的代码片段及解析：

import requests
from bs4 import BeautifulSoup as bsbaseurl = "https://news.ycombinator.com/newest"
response = requests.get(baseurl)
soup = bs(response.content, 'html.parser')

在上述代码中，requests.get 方法用于发送 HTTP GET 请求到 Hacker News 的最新文章页面。response.content 包含了网页的 HTML 内容，随后通过 BeautifulSoup 对象 soup 来解析这些内容，以便后续提取所需数据。

用户输入与参数验证

为了使工具能够根据用户需求抓取指定数量的文章，工具通过命令行输入来接收用户指令，并对输入进行验证。以下是用户输入与参数验证的代码片段及解析：

try:number_of_articles = int(input('''Enter the number of articles you want from the hackernews website.
(1-30) : '''))
except ValueError:print("\nYou did not enter a number. Try again.\n")sys.exit(1)if not 1 <= number_of_articles <= 30:print("\nYour input was not in the given range!\n")sys.exit(1)

在上述代码中，input 函数用于提示用户输入所需文章的数量。通过 try-except 块捕获可能的 ValueError 异常，确保用户输入的是一个有效的整数。随后，通过条件判断验证输入值是否在允许的范围内（1 到 30），若不符合则提示用户并退出程序。

文章数据提取

工具通过解析网页内容来提取文章的标题和链接。以下是文章数据提取的代码片段及解析：

latest = soup.find_all('a', attrs={'class': 'storylink'})links = []
titles = []for article in latest:links.append(article['href'])titles.append(article.text)

在上述代码中，soup.find_all 方法用于查找所有具有特定类名（storylink）的 <a> 标签，这些标签包含了文章的链接和标题。通过遍历这些标签，分别提取 href 属性（链接）和文本内容（标题），并将它们存储到 links 和 titles 列表中。

数据保存为 CSV 文件

最后，工具将提取到的文章数据保存为 CSV 文件，方便用户后续查看和使用。以下是数据保存为 CSV 文件的代码片段及解析：

import csvresult = []for title, link in zip(titles[:number_of_articles], links[:number_of_articles]):d = {}d["News Title"] = titled["Link to the News"] = linkresult.append(d)keys = ["News Title", "Link to the News"]with open("hackernews_latest.csv", "w") as hackernews:writer = csv.DictWriter(hackernews, fieldnames=keys)writer.writeheader()writer.writerows(result)

在上述代码中，通过 zip 函数将 titles 和 links 列表中的元素配对，并根据用户指定的文章数量进行切片。随后，将每篇文章的标题和链接封装为字典，并添加到 result 列表中。通过 csv.DictWriter 创建一个 CSV 写入器，指定字段名并写入表头和数据行。最终，将结果保存到名为 hackernews_latest.csv 的文件中。

总结

本文介绍了一个基于 Python 的 Hacker News 爬虫工具，它通过结合 requests 库的网络请求功能、BeautifulSoup 库的网页解析功能和 csv 库的数据保存功能，实现了从 Hacker News 网站自动化抓取最新文章并保存为 CSV 文件的功能。该工具具有简单易用、功能实用的特点，适用于需要快速获取技术新闻数据的各种场景。通过本文的介绍，读者可以了解到如何利用 Python 相关技术栈实现网页爬虫工具的开发，为数据收集和信息整理提供了有益的参考。