当前位置：首页 > java >正文

词语关系图谱模型

java 2025/7/6 3:25:31

参数配置说明

sentences, # 分词后的语料（列表嵌套列表）
vector_size=100, # 每个词的向量维度
window=5, # 词与上下文之间的最大距离（滑动窗口大小）
min_count=5, # 忽略出现次数小于5的词
workers=4, # 用于训练的线程数（多线程加速）
sg=0, # 训练算法：0 = CBOW；1 = Skip-gram
hs=0, # 是否使用层次Softmax（和 negative 二选一）
negative=5, # 负采样的数量（常用5~20之间）
epochs=5, # 训练轮数
sample=1e-3, # 高频词下采样的阈值（越小，越容易下采样）
seed=42, # 随机种子，确保可复现
callbacks=None # 自定义训练回调函数（如记录每轮日志）

fangfa 如果是0使用余玄相似度如果是1使用欧式距离
port 启动前端页面端口

停用词库使用的正则可修改
r'exclude|stopwords|badwords|delete'

包含词库使用的正则

数据文件分隔符{|}

http://www.xdnf.cn/news/1266.html

相关文章：

Python中__init__方法的深度解析：构造对象的艺术

Milvus（3）：数据库、Collections说明

将Ubuntu系统中已有的Python环境迁移到Anaconda的虚拟环境中

物联网赋能玻璃制造业：实现设备智能管理与生产协同

WebGL名词解释——裁剪空间

N8N MACOS本地部署流程避坑指南

CAN总线接口卡有什么优势

Linux 云服务器零基础指令扫盲

L1-6、Prompt 与上下文的关系[特殊字符]

Node.js技术原理分析系列8——将Node.js内置模块外置

CS61A:SCHEME LIST

从零学会epoll的使用和原理

「平方根的算法对决：二分查找 vs. 牛顿迭代法」

Spark 与 Hadoop：对比与联系

AI编程之Nodejs+MYSQL写一个爬虫系统

Python数据分析与机器学习实战：从数据到洞察的完整路径

vue中将elementUI和echarts转成pdf文件

【DeepSeek 学习推理】Llumnix: Dynamic Scheduling for Large Language Model Serving实验部分

TM2SP-Net阅读

日本电网的特点及分布地图

Linux 安装pm2并全局可用

Nginx常用命令，及常见错误

WHQL认证中Windows HCK与HLK的区别

丙烯酸及酯：化学工业的“隐形支柱”与未来增长引擎

基于意法半导体STM32G473和STDRIVE 101的电池供电BLDC/PMSM电动工具

鸿蒙生态新利器：华为ArkUI-X混合开发框架深度解析

第33周JavaSpringCloud微服务电商进阶开发

opencv图像的梯度处理，边缘检测

【每天一个知识点】大模型的幻觉问题