当前位置：首页 > ds >正文

基于网络爬虫的在线医疗咨询数据爬取与医疗服务分析系统，技术采用django+朴素贝叶斯算法+boostrap+echart可视化

ds 2025/7/23 15:49:09

为了发挥互联网+医疗问询服务平台在客观衡量医疗服务质量、进一步分析和挖掘网民评论数据方面的作用，本文完成了互联网医疗问询数据抓取与医疗服务质量服务分析平台的主要模块应用，如用户登录注册、医疗服务质量数据分析与信息可视化以及用户情绪识别预测功能分析服务。其中，前端通过HTML/CSS/JavaScript和Bootstrap实现交互式界面，前端通过DataTables实现互动式交互表格，通过ECharts插件分别构建问答关键词词云、问答评论满意值饼状环形图、医疗服务质量评分分析柱状图等数据展示互动式图表，同时实现分类展示、关键词筛选以及数据加载等；后端通过表单验证机制对用户身份进行验证与信息维护，在后台通过异步数据请求实现基于深度学习算法进行预测结果分析（需要导入原始医疗问答数据集）的方法对用户输入的文本进行情绪判断（准确率>=90%）并以表格形式输出识别结果。同时，针对该在线平台各个模块主要功能，在对注册登录、信息维护管理、数据获取和结果预测等7类测试用例进行需求分析设计的基础上，共计设计出21项测试用例来模拟用户交互、数据库和网络连接与前后端数据交互同步性和一致性等，通过“黑盒测试”发现笔者完成的医疗服务平台各模块功能实现符合设计预期，测试用例异常执行通过及时修复能够确保系统稳定性。本平台实现了医疗数据获取、保存、计算分析与信息展现、交互式可视化展示的功能服务，展示了医疗服务平台软件开发的有效性与可操作性。

1 引言

1．1 研究背景和意义

1．2 研究现状分析

1.2.1 国外研究现状

1.2.2 国内研究现状

1．3 主要研究内容

1．4 本文的章节安排

2 相关技术和理论

2．1 爬虫技术

2．2 Django框架

2．3 朴素贝叶斯算法

2．4 本章小结

3 系统需求分析

3．1 系统需求分析

3．2 系统可行性分析

3.2.1 技术可行性分析

3.2.2 经济可行性分析

3.2.3 政策可行性分析

3．4 系统流程分析

3.4.1 操作流程分析

3.4.2 登录流程分析

3.4.3 数据可视化流程分析

3.4.4 预测流程分析

3．5 本章小结

4 系统设计

4．1 系统总体功能设计

4．2 系统数据库设计

4.2.1 数据库概念设计

4.2.2 数据库逻辑设计

4．3 本章小结

5 朴素贝叶斯算法设计与实现

5．1 模型选择及评价指标

5．2 模型设计设计与实现

5.2.1 数据标注

5.2.2 特征提取

5.2.3 模型训练与评估

5．3 本章小结

6 系统实现与测试

6．1 用户功能实现

6.1.1 登录注册

6.1.2 数据展示

6.1.3 问答词云图分析

6.1.4 评分分析

6.1.5 满意度分析

6.1.6 预测界面

6．2 系统测试

6.2.1 功能测试

6.2.2 测试结论

6．3 本章小结

7 总结和展望

参考文献

致谢

1 引言

1．1 研究背景和意义

近年来随着互联网的发展，“互联网+医疗”方兴未艾，通过互联网与医疗相结合衍生出来的“在线医疗”辅助就医模式出现井喷式增长。2016年起至今我国出台《关于促进和规范健康医疗大数据应用发展的指导意见》等相关政策条例，全力推进“互联网+医疗”[1]。在线医疗属于“互联网+医疗”领域的一项成果，通过网络平台为患者提供线上问诊、挂号、咨询等，是影响范围最广的互联网医疗形式之一。它在缓解健康平等性、优化健康资源配臵上的优势逐渐彰显[2]。患者能够在手持设备直接与医生交流互动，在这一过程中留下大量含有医学知识和患者兴趣的交流数据。这些数据为患者选医提供了参考指标，但往往需要耗费大量时间和精力阅读其他患者的评价，不可能阅读全部评论。为此针对以上问题，笔者提出设计实现基于网络爬虫技术的在线医疗咨询数据爬虫与分析系统，能够为患者选医时提供参考指标，使患者更加便捷地选到合适的医师。

1．2 研究现状分析

1.2.1 国外研究现状

发达国家和地区在线医疗服务发展较成熟，而且由于国外互联网技术起步早，信息化建设较快，所以这些地区的在线医疗服务系统分析建设和发展相对较为成熟。国外的在线医疗咨询数据采集及医疗服务分析系统的研究，主要是围绕提高临床决策能力和诊疗质量。

1.2.2 国内研究现状

在中国，做得比较好的研究也不少。在线医疗咨询服务数据爬虫与医疗服务分析系统的研究既包括了问答方面的分析、舆情方面的监控、医生评价方面的内容，也包括了用户满意度等方面。这些都是对基于信息技术在医疗应用领域的促进，并推动医疗服务的智能化与个性化。

因此，本文以这一问题为目标，设计并实现基于在线问诊信息进行采集与分析的在线问诊推荐系统，用可视化信息手段呈现处理后采集的数据结果[11]，使患者能够快捷地从评论数据中找到关键信息，同时可帮助医生获知患者关注点，做到减少患者选择问诊医生时的信息量，同时也可以为优化医疗服务提供依据[12]。

1．3 主要研究内容

本研究围绕在线医疗咨询数据爬取与医疗服务分析平台的设计与实现展开，核心研究内容包括：

体系模型及权责分配：设立患者以及管理员二级系统模型，患者功能包括医生点评统计和病情了解、可视分析；管理员功能包括数据收集管理、文本分析与模型维护，从而保证数据的自动更新和完善、类目的准确度。

医疗数据采集及清洗：搭建爬虫框架，抓取开放的医疗平台(在线问诊网站)中的结构化数据及非结构化数据，如医生介绍、医患评价、疾病提问等，并研发现有的数据清洗规则，处理文本噪音、重复数据和数据格式等方面，以满足其数据存储方案扩展性的要求。

文本情感分析：利用自然语言处理(NLP)的方法，建立患者点评文本的情感分析模型与文本聚类模型，利用词向量嵌入(Word2Vec)方法提取文本特征，基于朴素贝叶斯算法对文本进行满意度标签分类，为医生点评可视化提供数据基础。

可互动式数据查询及可视化展示系统：构建可视化、可互动的用户口碑评价得分展示图、用户就诊评星等级百分比显示图以及评价内容词语云图（Echarts）等，通过搜索关键词、筛选条件的组合等进行自主信息查询决策辅助展示。

算法及系统性能：建立算法迭代过程，针对模型优化（调节参数如正则参数）以提高文本分类正确率；对系统在数据抓取（如针对反抓取策略）速度及对数据处理（对用户端进行反馈信息速度）及数据展示交互等进行性能测试，用A/B实验验证对医患决策的辅助效应。

依托以上技术完成医患数据挖掘与智能挖掘，形成医患双向赋能型医学信息系统，能有效协助患者实现更合理的医师选择以及更多的疾病知识获取，协助医师通过对患者信息反馈的处理提升医学服务质量，从而实现医学资源合理利用和服务双向匹配的医疗诊疗模式。

2 相关技术和理论

2．1 爬虫技术

网络爬虫是根据设定规则从互联网上采集信息的一类计算机程序，将一个或多个页面用URL的方式给出，程序模拟网站用户的使用，在浏览器页面的基础上沿着超链接搜索，并抓取页面中所要的内容（如文本、图像等）。

2．2 Django框架

Django是广为应用的PythonWeb应用程序开发框架，它提供了一系列强大功能来协助Web应用程序的快速创建，同时使所创建的应用程序更加有效及扩展性更强。Django所遵循的设计原则旨在让开发者投入应用程序逻辑的设计上，无需花费过多精力在底层技术之上。

Django框架结构如图2.1所示：

图2.1 Django架构图

2．3 朴素贝叶斯算法

朴素贝叶斯分类法以其思想简单、有效而著名。其算法原理基于贝叶斯定理，在已知待分类样本时，求各类出现的概率，进而判断出现概率最大的类将被作为分类的最终结果。朴素贝叶斯算法公式为：

3 系统需求分析

3．1 系统需求分析

系统要求提供一个安全的数据医疗分析的平台，满足患者的用户能够实现安全便捷的登录、动态数据的查询（带分页/带排序/带搜索）、多维可视化（词云/评分/满意度表）和根据文本的预测（预测可能的情绪的含义）服务；管理员用户可以实现全部用户管理、医疗数据的管理以及医疗数据的审核。技术部分采用Django+MySQL后端来实现数据处理安全，使用Bootstrap+ECharts作为前端设计的响应式交互，数据使用一个朴素贝叶斯模型(准确率>90%)。

3．2 系统可行性分析

3.2.1 技术可行性分析

从技术可行性上来看，本系统所采用的技术均是成熟的开源工具与框架，后端采用Python语言配合Django框架，实现了数据接口的编写、模型调度与数据库交互等功能；前端使用Bootstrap框架构建响应式的页面；数据库层选用MySQL系统进行数据存储与管理。本系统的技术可行性较高。

3.2.2 经济可行性分析

在经济可行性方面，本系统的整体开发与部署过程中没有涉及到其余的高额成本的花费，开发系统使用的全部开发语言和技术组件都是开源或者免费的软件，不用支付授权费用。本系统运行所需要的硬件环境也没有很高的要求，仅仅需要使用普通的计算机设备就可以完成系统的开发、测试与演示，系统所需要数据处理过程也可以通过本地计算资源完成，而且本系统面向毕业设计开发，开发周期可控，不需要额外的人力投入，在经济上具备可行性。

3.2.3 政策可行性分析

从政策可行性上，本系统所涉及到的开发和数据采集的过程，都严格的遵守国家有关网络数据安全、信息采集与使用的相关法律法规，系统所采集的数据均是平台对外公开展示的信息，不涉及到平台用户的敏感隐私内容，且数据使用只进行学术研究与教学展示范围，不涉及到商业用途，本文在政策层面有着较高的可行性。

3．3 系统功能分析

本系统围绕医疗数据分析场景，设计功能可以从角色与功能需求方面考虑，系统用户分为患者（普通用户）和管理员两类：用户和管理员，以及六大核心功能模块：

用户功能：

认证用户模块：提供基于Form的登录/注册功能，采用JWTToken机制进行认证，前端使用HTML5LocalStorage进行“记住密码”的状态保存，后端基于django框架进行权限管理，保障用户数据的安全。

前端视图显示：采用RESTfulAPI对外发布JSON接口，采用Boostrap实现HTML表的响应式渲染，利用DataTables插件完成浏览器分页、多级排序、实时过滤，使用Axios异步获取数据，并配合Ajax加载效果提升体验感。

可视化分析模块：

词云分析：基于ECharts词云组件，后端使用Jieba分词库对问答文本进行关键词提取与词频统计[17]，前端通过API接口提供JSON格式数据实现动态数据更新；

评分/满意度：数据可视化类型为ECharts环形饼图组件，后端使用MySQL窗口函数实现各科室评分分布（包括5分占比、平均分）统计，前端添加颜色映射表实现对数据维度的编码。

预测服务模块：实现django预测API接口，前端使用FormData封装用户输入的数据，使用AJAX发送后端，载入训练好的朴素贝叶斯模型进行预测，返回结果使用JSONSchema验证后动态渲染预测表单。

管理员功能：

用户管理：管理员可以在这个界面对本平台注册过的用户进行个人信息的修改，包括但不限于用户账号、姓名、联系方式、图片等，也可以对个人用户进行增删改查等操作。

医疗问答数据管理：在这个界面中，管理员可以对所有医疗问答信息逐一进行审查、增、删、改、查，包括问答内容、用户名、问答时间等。

管理员用例如图3.1所示。

图3.1 管理员用例图

用户进入系统，系统的功能有首页、问答数据查询、医生信息查询、医生评分分析、医生满意度分析、问答数据词云分析、满意度预测等。用户用例如图3.2所示。

图3.6 用户用例图

3．4 系统流程分析

3.4.1 操作流程分析

为了用户更了解操作流程，于是制作了一个操作流程图（如图3.3所示）。本程序的操作流程为提供登录数据。程序验证通过后，用户就能进入功能界面使用本系统的相关功能。

图3.3 程序操作流程图

3.4.2 登录流程分析

在系统流程分析中登录模块也要单独分析。登录模块主要是建立一个安全的功能用来保护用户的个人信息，让用户更放心地使用。该部分流程图如下（如图3.4所示）在用户提供账号密码后判断信息是否正确并提示相关内容，验证成功即登录成功。

图3.4 登录流程图

3.4.3 数据可视化流程分析

在系统流程分析中可视化也要单独分析。可视化模块主要是旨在将医疗数据转化为直观的交互图表，辅助用户快速理解医生评价与疾病信息。该部分流程图如下（如图3.5所示）在用户登录后进入系统界面，点击可视化对应功能（问答词云图、评分分析、满意度分析等），选择科室，即可成功可视化。

图3.5 可视化流程图

3.4.4 预测流程分析

在系统流程分析中预测模块也要单独分析。预测模块主要是通过机器学习模型挖掘数据潜在规律，为医患提供决策支持，采用训练好的。该部分流程图如下（如图3.6所示）在用户登录后进入系统界面，点击预测功能，输入预测文本，即可输出预测结果。

图3.6 预测流程图

4 系统设计

4．1 系统总体功能设计

在线医疗咨询数据爬取与医疗服务分析系统是对春雨医生网站医疗问答信息的管理和分析，帮助患者更精准地选择医生，同时为医生提供有关患者反馈的有价值信息。系统的总体结构如图4.1所示。

图4.1 系统总体功能图

4．2 系统数据库设计

4.2.1 数据库概念设计

本系统使用MySQL数据库管理本系统的数据。数据库设计有概念设计和逻辑设计。设计的起点就是概念设计，它将用户的需求抽象为概念模型，下面是各实体信息的实体属性图。

系统中有用户名、密码等。

4.2.2 数据库逻辑设计

逻辑设计是在概念设计阶段实体—关系(E-R)图转换为2维表，逻辑设计的好坏关系到系统功能模块运行的正确性，和系统数据更新。设计时要充分考虑到数据库规范性、合理性的要求，使系统满足功能和性能的指标要求。

问答数据模块实体-关系（E-R）图转化为二维表格形。

表4.1 问答信息表

列名	数据类型	长度	主键	允许空
一级分类	varchar	255		否
二级分类	varchar	255		是
问答id	varchar	255		是
回答者	varchar	255		是
回答者职位	varchar	255		是
回答者所在医院	varchar	255		是
回答者擅长	varchar	255		是
回答者tags	varchar	2500		是
问题描述	varchar	2500		是
医生建议	varchar	2500		是
问题创建时间	varchar	255		是
问题咨询费用	varchar	255		是
问答内容	varchar	5000		是

表4.2 医生信息表

列名	数据类型	长度	主键	允许空
一级疾病	varchar	255		否
二级疾病	varchar	255		是
相关医生	varchar	255		是
标题	varchar	255		是
医生编码	varchar	255		是
接诊量	varchar	255		是
同行认可	varchar	255		是
各类问答数	varchar	2500		是
医院名称	varchar	255		是
医院tag	varchar	2500		是
医院id	varchar	255		是
评分	varchar	255		是
擅长	varchar	255		是
评论tag	varchar	2500
医生did	varchar	255

表4.3 用户信息表

列名	数据类型	长度	主键	允许空
id	bigint	0	是	否
password	varchar	128		是
last_login	datetime	6		是
is_superuser	tinyint	1		是
first_name	varchar	150		是
last_name	varchar	150		是
email	varchar	254		是
is_staff	tinyint	1		是
is_active	tinyint	1
date_joined	datetime	6

5 朴素贝叶斯算法设计与实现

5．1 模型选择及评价指标

朴素贝叶斯算法是一种基于贝叶斯定理的分类方法，适用于分类算法的应用，在文本分类、垃圾邮件过滤的应用中具有很大的优点。朴素贝叶斯基本思想是将每个类别情况下的条件概率进行计算，并选择概率最大的分类情况。模型训练过程中的评估标准方法包括了多种评价指标，最主要的是正确率、准确率、召回率、F1。这些指标可以全方位综合评估分类模型中每个类的表现情况。

5．2 模型设计设计与实现

5.2.1 数据标注

为了后续的算法进行训练，本研究使用医疗问答数据集共6000条数据，其中满意、一般、不满意三类各2000条，对数据进行标注。如图5.1数据标注结果所示。

图5.1 数据标注结果图

5.2.2 特征提取

特征提取是将文本内容转换为机器学习模型可输入的数值型特征值。本文中采用TF-IDF特征提取算法。如图5.2特征提取代码所示。

图5.2 特征提取代码图

5.2.3 模型训练与评估

特征提取完成之后，为了模型的泛化性，医疗问答数据集按照7:3的比例划分为训练集和测试集，朴素贝叶斯分类器进行模型训练。训练结果见上图所示，未调优前的混淆矩阵见图5.3所示，分类报告见图5.4所示，未调优代码如图5.5所示：

图5.3 未调优混淆矩阵图

图5.4 未调优分类报告图

图5.5 未调优代码图

调优后主要代码如图5.8所示：

图5.6 调优后混淆矩阵图

图5.7 调优后模型得分图

图5.8 调优后混淆矩阵代码图

6 系统实现与测试

6．1 用户功能实现

6.1.1 登录注册

设计实现一个用户登录界面和用户注册界面。登录页面需要用户输入用户名及密码，点击登录按钮进行身份校验，如果登录信息正确则跳转主页面，登录密码错误页面显示错误信息提示，注册页面中也有“记住密码”一项可让登录信息在下次登录时自动填充。界面友好的登录注册页面如图6.1所示，主要代码如图6.2所示：

图6.1 登录界面图

图6.3 登录注册代码图

6.1.2 数据展示

数据展示接口，把数据以结构化交互式表单形式展示数据，该表格基于提供给它的东西动态地显示，它使用了模板逻辑来填写它的列标题和行。数据展示界面见上图6.3。主要代码如图6.4所示：

图6.3 数据展示界面图

图6.4 数据展示主要代码图

6.1.3 问答词云图分析

问答词云视图：用户可以根据不同的科室选择查看问答数据的词云，给出答问的评论数据在不同科室中，用户通过下拉菜单选择不同的科室后，点击分析按钮，向页面发送请求，页面加载相关数据，在这个加载的过程中出现正在加载的提示信息。问答词云界面见图6.5，主要代码见图6.6：

图6.5 问答词云界面图

图6.6 问答词云主要代码图

6.1.4 评分分析

用户可以点击选择不同的科室查看评分数据的可视化分析界面，在该界面的中间有一个下拉选择框，可以选择科室后再点击“分析”，页面会将所选的数据向服务器发起请求，等待服务器处理请求，加载数据的过程中，页面会显示“正在加载”的提示，提升用户的体验度，等数据加载完后，ECharts就会绘制出一个圆环图，并且直观显示出各个评分类别所占的比值大小，饼图为不同颜色表示数据类别，评分分析界面图如图6.7所示，主要代码如图6.8所示：

图6.7 评分分析界面图

图6.8 评分分析代码图

6.1.5 满意度分析

选择科室查看各科室满意度的情况，通过在页面中加入一个下拉选择框，选择对应的科室信息后单击“分析”按钮，系统调用接口进行相应的科室满意度数据调用。在数据调用过程中系统提示加载，让用户能够清楚地知道数据加载情况，并在调用之后通过ECharts制作环形饼图，并显示出不同满意度等级所占比例。满意度分析界面设计如下图6.9，主页面代码如下图6.10所示：

图6.9 满意度分析图

图6.10 满意度分析主要代码图

6.1.6 预测界面

用户在“输入内容的文本输入框中输入数据，点击“预测结果”按钮提交，提交数据后，服务器会接受一个带有提交数据的请求，由服务器进行处理和加载已经训练好的朴素贝叶斯模型，进行模型预测，并发送结果预测到用户。预测界如图6.11所示，主要代码如图6.12所示：

图6.11 预测界面图

图6.12 预测界面主要代码图

6．2 系统测试

6.2.1 功能测试

功能测试是检验一个系统是否能按其预期设计方式正常工作的重要测试过程，对于在线医疗咨询数据抓取及服务分析平台软件来讲，功能测试包括用户管理模块、数据可视化界面、数据展示模块、情感预测模块等。本章将从黑箱角度根据预先设计的预期设计需求，根据虚拟用户来验证其是否能满足相应需求正确运行，具体流程见表6.1-表6.7所示：

测试用例1注册功能测试用例说明及结果如表6.1所示：

表6.1 注册功能测试用例

用例描述

测试步骤

预期结果

测试结果

验证用户是否能成功创建新账户，包括前端显示和数据库更新

（1）打开注册页面。（2）在注册页面填写用户信息（如用户名、密码、邮箱等）。（3）提交注册表单。系统将用户信息发送到数据库。（4）检查数据库是否新增了一个用户记录。（5）验证前端是否显示“注册成功”的提示信息。

（1）成功注册后，数据库中应新增一个用户记录。（2）前端应提示“账户创建成功”或类似信息。

通过

验证空字段提交注册

(1) 打开注册页面。

(2) 不填写任何信息直接提交表单。

(1) 前端提示必填字段错误（如“用户名不能为空”）。

(2) 数据库无新增记录。

用户不能够注册

图6.1 注册测试通过图

图6.2 注册测试失败图

表6.2 登录功能测试用例

用例描述

测试步骤

预期结果

测试结果

验证用户登录功能是否正常，确保用户信息经过验证后能够成功登录并跳转到用户主页面。

（1）打开登录页面。输入用户名和密码进行登录。（2）提交登录表单。系统验证用户信息。（3）检查是否成功跳转到用户主页面。

用户信息验证通过后，应成功跳转到用户主页面，且前端页面应显示已登录状态。

用户能够成功登录，系统跳转正确，前端页面正常显示。

验证错误密码登录

(1) 输入正确用户名+错误密码提交登录。

(1) 前端提示“用户名或密码错误”。

(2) 禁止跳转主页，停留在登录页。

用户不能够成功登录，系统提示错误信息。

图6.3 登陆测试通过图

图6.4 登陆测试失败图

表6.3 个人信息修改功能测试用例

用例描述	测试步骤	预期结果	测试结果
验证用户个人信息更新功能是否正常，确保修改后的信息能够正确更新到数据库并反映到前端页面。	（1）登录系统，进入个人中心界面。（2）打开个人信息修改界面。（3）修改个人信息（如用户名等）。（4）点击提交按钮以保存修改。（5）检查数据库中是否更新了用户的个人信息。（6）验证前端页面是否显示“更新成功”的提示信息。	（1）用户个人信息在数据库中成功更新。（2）前端页面应显示“更新成功”或类似提示	用户信息更新功能正常，数据库和前端页面均按预期工作。