当前位置: 首页 > java >正文

词语关系图谱模型

 

参数配置说明


    sentences,          # 分词后的语料(列表嵌套列表)
    vector_size=100,    # 每个词的向量维度
    window=5,           # 词与上下文之间的最大距离(滑动窗口大小)
    min_count=5,        # 忽略出现次数小于5的词
    workers=4,          # 用于训练的线程数(多线程加速)
    sg=0,               # 训练算法:0 = CBOW;1 = Skip-gram
    hs=0,               # 是否使用层次Softmax(和 negative 二选一)
    negative=5,         # 负采样的数量(常用5~20之间)
    epochs=5,           # 训练轮数
    sample=1e-3,        # 高频词下采样的阈值(越小,越容易下采样)
    seed=42,            # 随机种子,确保可复现
    callbacks=None      # 自定义训练回调函数(如记录每轮日志)


fangfa 如果是0使用余玄相似度 如果是1使用欧式距离
port 启动前端页面端口


停用词库使用的正则可修改
r'exclude|stopwords|badwords|delete'

包含词库使用的正则

数据文件分隔符{|}

 

 

http://www.xdnf.cn/news/1266.html

相关文章:

  • Python中__init__方法的深度解析:构造对象的艺术
  • Milvus(3):数据库、Collections说明
  • 将Ubuntu系统中已有的Python环境迁移到Anaconda的虚拟环境中
  • 物联网赋能玻璃制造业:实现设备智能管理与生产协同
  • C++ 哈希表
  • WebGL名词解释——裁剪空间
  • N8N MACOS本地部署流程避坑指南
  • CAN总线接口卡有什么优势
  • Linux 云服务器零基础指令扫盲
  • L1-6、Prompt 与上下文的关系[特殊字符]
  • Node.js技术原理分析系列8——将Node.js内置模块外置
  • CS61A:SCHEME LIST
  • 从零学会epoll的使用和原理
  • 「平方根的算法对决:二分查找 vs. 牛顿迭代法」
  • Spark 与 Hadoop:对比与联系
  • AI编程之Nodejs+MYSQL写一个爬虫系统
  • Python数据分析与机器学习实战:从数据到洞察的完整路径
  • vue中将elementUI和echarts转成pdf文件
  • 【DeepSeek 学习推理】Llumnix: Dynamic Scheduling for Large Language Model Serving实验部分
  • TM2SP-Net阅读
  • 日本电网的特点及分布地图
  • Linux 安装pm2并全局可用
  • Nginx常用命令,及常见错误
  • WHQL认证中Windows HCK与HLK的区别
  • 丙烯酸及酯:化学工业的“隐形支柱”与未来增长引擎
  • 基于意法半导体STM32G473和STDRIVE 101的电池供电BLDC/PMSM电动工具
  • 鸿蒙生态新利器:华为ArkUI-X混合开发框架深度解析
  • 第33周JavaSpringCloud微服务 电商进阶开发
  • opencv图像的梯度处理,边缘检测
  • 【每天一个知识点】大模型的幻觉问题