当前位置: 首页 > news >正文

基于Doc2Vec的Markdown文档分类实战:从预处理到模型评估

准备工作

pip install gensim jieba markdown scikit-learn
  • gensim: Doc2Vec 的核心库。
  • jieba: 中文分词库,处理中文文档必不可少。
  • markdown: 用于将Markdown文档转换为纯文本,以便Doc2Vec处理。
  • scikit-learn: 用于计算文档相似度。

步骤

  1. 数据预处理: 加载Markdown文档并进行预处理,包括分词、去除停用词等。
  2. 训练Doc2Vec模型: 使用预处理后的文档训练Doc2Vec模型,生成文档向量。
  3. 相似度计算: 使用训练好的模型计算文档之间的相似度。
  4. 结果展示: 展示相似度最高的文档及其相似度分数。

引入依赖

import os
import jieba
import re
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
import markdown

根据输入的Markdown文档目录加载和预处理文档

目录如图所示

在这里插入图片描述

# --- 1. 数据收集与预处理 ---def load_and_preprocess_markdown_documents(data_dir):"""加载指定目录下所有Markdown文档,进行预处理(去除Markdown语法、分词)。假设每个子文件夹代表一个类别。"""documents = []labels = []doc_id_counter = 0for category_name in os.listdir(data_dir):category_path = os.path.join(data_dir, category_name)if os.path.isdir(category_path):print(f"Processing category: {category_name}")for filename in os.listdir(category_path):if filename.endswith(".md"):filepath = os.path.join(category_path, filename)with open(filepath, 'r', encoding=
http://www.xdnf.cn/news/694405.html

相关文章:

  • 部署swagger接口文档到云服务器
  • ZooKeeper 命令操作
  • Gin项目脚手架与标配组件
  • 网络协议DHCP
  • YOLO 系列算法的参数量
  • Java大师成长计划之第33天:应用监控与日志管理
  • 顺序表与链表专项训练:在 LeetCode 实战中深化数据结构理解
  • 力扣 秋招 打卡第一天 2025年5月28日 Java
  • Vim 中设置插入模式下输入中文
  • 考研系列-操作系统:第一章、计算机系统概述
  • freecad TechDraw工作台中虚线(隐藏线)的实现方式
  • 桥梁进行3D建模时的数据采集、存储需求及技术参数
  • 监控 Oracle Cloud 负载均衡器:使用 Applications Manager 释放最佳性能
  • android平台驱动开发(六)--Makefile和Kconfig简介
  • vue 实现鼠标放上后显示,挪开后隐藏(点击显示/隐藏)
  • 【微波遥感第一期】基本概念
  • OpenCV CUDA模块直方图计算------在 GPU 上计算图像直方图的函数calcHist()
  • 在部署了一台mysql5.7的机器上部署mysql8.0.35
  • QGraphicsView、QGraphicsScene和QGraphicsItem图形视图框架(七)修改item属性
  • Golang分布式系统开发实践指南
  • GO语言进阶:掌握进程OS操作与高效编码数据转换
  • 命象架构法 02|你的系统有“用神”吗?
  • [Python] 如何使用 Python 调用 Dify 工作流服务实现自动化翻译
  • Java常用加密方式
  • 聊一聊如何使用自动化测试来提高接口测试效率的?
  • PowerBI企业运营分析—绩效考核分析
  • 如何使用DeepSpeed来训练大模型
  • CPU特权级别:硬件与软件协同构建系统安全的基石
  • UDP组播套接字与URI/URL/URN技术详解
  • WHAT - useWebSocket 推荐