当前位置: 首页 > java >正文

导入典籍数据

1.从网上获取中医相关典籍数据,数目共600+txt,总篇数14万+

2.数据处理

获取到的数据结构大致如下

一个txt表示一本书,开头存有书籍相关的名字,作者,朝代,年份,之后每一个<目录>下都跟有一个篇目,标题由<篇名>开头,但并非所有txt都保持这样的格式,因此要先进行数据处理才能存到数据库中

2.1由于下载的txt数据编码格式不一,导致难以正常解析,因此先进行了编码统一化,将其全部变成utf-8编码格式

2.2对编码格式转化好的txt文件存入数据库

2.2.1通过对txt内容进行解析将书籍相关信息存入book表,包括bookid,name,author,dynasty,year

2.2.2删去没能成功处理的书籍

2.2.3

解析清洗后的txt文件,提取其中每本书的篇目,将它们存入classics表中

3.处理后数据提取后展示

共628篇书目

共141180个典籍篇目

http://www.xdnf.cn/news/10577.html

相关文章:

  • 《仿盒马》app开发技术分享-- 购物车业务逻辑完善(端云一体)
  • java 多线程
  • 基于贝叶斯优化神经网络的光伏功率预测综述
  • Java JVM 内存模型详解
  • LeetCode 付费题157. 用 Read4 读取 N 个字符解题思路
  • deep forest安装及使用教程
  • 强大的PDF编辑工具,操作方便 ,长久使用
  • 第1天:认识RNN及RNN初步实验(预测下一个数字)
  • 【C盘瘦身】Docker安装目录占用C盘过大,一键移动给C盘瘦身
  • 大数据-275 Spark MLib - 基础介绍 机器学习算法 集成学习 随机森林 Bagging Boosting
  • 8、电解电容—数据手册解读
  • Unity使用Lua框架和C#框架开发游戏的区别
  • 2022年上半年软件设计师下午试题
  • 6月2日星期一今日早报简报微语报早读
  • 知识图谱系列(5):表示学习
  • 内网应用如何实现外网访问?无公网IP本地端口网址服务提供互联网连接
  • HCIP:MPLS LDP的原理和配置
  • Go开发简历优化指南
  • AI预测3D新模型百十个定位预测+胆码预测+去和尾2025年6月2日第96弹
  • 高压电绝缘子破损目标检测数据集简介与应用
  • MDP的curriculums部分
  • GNOME开始菜单
  • gcc编译构建流程-动态链接库
  • YOLO机械臂丨使用unity搭建仿真环境,YOLO算法识别,Moveit2控制
  • 残差神经网络ResNet
  • Webpack依赖
  • 前端面试准备-6
  • unity随机生成未知符号教程
  • 字节跳动社招面经 —— BSP驱动工程师(5)
  • webfuture:如何屏蔽后台发文界面的保存为新文章按钮?