当前位置: 首页 > backend >正文

Python作业4 文本词云统计,生成词云

编写程序,统计两会政府工作报告热词频率,并生成词云。

2025两会政府工作报告

import jieba
import wordcloud
from collections import Counter
import re# 读取文件
with open("gov.txt", "r", encoding="gbk") as f:t = f.read()# 分词处理
ls = jieba.lcut(t)# 定义过滤函数
def is_valid_word(word):# 过滤条件:# 1. 长度至少为2个字符(过滤单字)# 2. 只包含中文(\u4e00-\u9fff)# 3. 不是停用词(可选)return (len(word) >= 2 andall('\u4e00' <= char <= '\u9fff' for char in word))# 严格过滤
filtered_words = [word for word in ls if is_valid_word(word)]# 统计词频
word_counts = Counter(filtered_words)# 打印前20个高频词
print("=== 纯中文热词统计 ===")
for word, count in word_counts.most_common(20):print(f"{word}: {count}次")# 生成词云
txt = " ".join(filtered_words)
w = wordcloud.WordCloud(font_path="msyh.ttc",width=1000,height=700,background_color="white",max_words=200  # 限制词云显示的最大词数
)
w.generate(txt)
w.to_file("wordcloud.png")

http://www.xdnf.cn/news/196.html

相关文章:

  • 欣佰特携数十款机器人相关前沿产品,亮相第二届人形机器人和具身智能行业盛会
  • 在国产麒麟Kylin Linux Advanced Server V10中使用QT5开发环境并支持中文输入
  • SimBody安装
  • AI中台系统设计方案探讨
  • CentOS 7系统yum报错解决方案(CentOS 7官方EOL问题修复)
  • 健康养生:开启活力生活新篇章
  • Oracle AWR快照保留策略及其修改
  • mybatis plus打印sql日志到指定目录
  • js前端复制对象
  • 神经接口安全攻防:从技术漏洞到伦理挑战
  • 有什么好用的工程项目施工数据管理信息系统?这类系统有何好处?
  • 麒麟操作系统漏洞修复保姆级教程弱(一)算法漏洞修复
  • 【数据融合实战手册·实战篇】二维赋能三维的5种高阶玩法:手把手教你用Mapmost打造智慧城市标杆案例
  • 重构未来智能:Anthropic 解码Agent设计哲学三重奏
  • Unity-微信截图功能简单复刻-02屏幕采样
  • 青少年编程与数学 02-016 Python数据结构与算法 28课题、图像处理算法
  • 深入理解红黑树:原理、实现与应用
  • openbmb/MiniCPM-V-2_6 和 AIDC-AI/Ovis2-1B 的网络结构体对比
  • 日本公司如何实现B2B商城订货系统的自动化和个性化?
  • 电子电器架构 --- EOL 工厂刷写(产线)
  • Debian服务器环境下env变量丢失怎么办
  • 万物互联时代,AWS IoT Core如何构建企业级物联网中枢平台?
  • UML 状态图:以网络媒体教学系统为例解析
  • Python项目--基于机器学习的股票预测分析系统
  • 路由交换网络专题 | 第五章 | ISIS | RIP | 路由引入 | 策略路由
  • 探索大语言模型(LLM):循环神经网络的深度解析与实战(RNN、LSTM 与 GRU)
  • 工业触摸显示器助力智慧工业实验室发展
  • Privacy Risks of General-Purpose Language Models
  • 【第48节】探究汇编使用特性:从基础到混合编程
  • Linux 日常运维命令大全