当前位置: 首页 > ai >正文

NER实践总结,记录一下自己实践遇到的各种问题。

更。

没卡,跑个模型休息好几天,又闲又急。

一开始直接套用了别人的代码进行实体识别,结果很差,原因是他的词表没有我需要的东西,我是用的医学文本。代码直接在github找了改的,用的是BERT的Chinese版本。


然后想了解决办法就是使用自己创建词表的方法先处理一下整个文本数据,将高频词合并(1000个)。前一千个我自己去筛选。结果效果很差,很多没包含的,很多不是词也和一起了,非常烂(相当蠢的一个办法还浪费了很长时间大家别尝试了)。


然后想了新的解决办法是在网上找那种公开的医学书的目录,作为词表,比如某一章节讲高血压,就可以作为词表。因此去找了中华药典等之类的书,放入词表进行训练。效果还可以,但还是有很多错误。


最后发现是因为没有提前删标点之类的东西,导致句子太长。因此使用re包重新处理了数据,再跑,效果相当不错。感人。

需要北美求职的小伙伴,可以私我哦,硅谷大厂大佬亲自求职陪跑!保证拿到实习offer~

此外还开发了一些小工具:

ai求职——Jobnova powered by Liba Space - Get the most timely job recommendations

ai面试——Jobnova powered by Liba Space - Get the most timely job recommendations

欢迎参与尝试。

http://www.xdnf.cn/news/11946.html

相关文章:

  • 【linux】全志Tina预编译一个so库文件到根文件系统/usr/lib/下
  • 拉深工艺模块——回转体拉深件毛坯尺寸的确定(二)
  • Vue2 和 Vue3 常见 CSS 样式归纳总结
  • PyTorch——优化器(9)
  • 近几年字节飞书测开部分面试题整理
  • 【计网】SW、GBN、SR、TCP
  • 深度学习之模型压缩三驾马车:模型剪枝、模型量化、知识蒸馏
  • Linux——TCP和UDP
  • 6月14日开班,ESG 合规分析师招生通知
  • FreeRTOS,MicroPython,区别与联系
  • 新制作文件系统占满:Error writing to file - write (28: No space left on device)
  • 雷卯针对易百纳 海思Hi3519AV100开发板防雷防静电方案
  • 虚拟机无法开启-关掉虚拟化
  • ROS中的里程计与IMU的消息类型解读
  • 深入解析异步爬虫中的协程原理:从概念到工程实践
  • c++对imu的角速度积分得到表示旋转四元数
  • 半导体热电技术方案领跑者「富信」×企企通,构建采购数字化升级
  • 【操作系统】基础回顾(一)
  • 解决IDE编译JAVA项目时出现的OOM异常问题
  • LeetCode[513]找树左下角的值
  • C语言基础(11)【函数1】
  • FreeRTOS、Zephyr、RT-Thread,区别与联系
  • 第八部分:第一节 - 初识 React:构建交互式点餐界面骨架
  • 《射频识别(RFID)原理与应用》期末复习 RFID第一章 射频识别技术概论(知识点总结+习题巩固)
  • 2025年计算机科学与网络安全国际会议(CSNS 2025)
  • VSCode主题设计大赛解析与实践指南
  • win10打包的exe在win7运行不了
  • 【Linux】线程同步
  • 《AI角色扮演反诈技术解析:原理、架构与核心挑战》
  • UDP与TCP的区别是什么?