当前位置: 首页 > ai >正文

从0开始学习R语言--Day31--概率图模型

在探究变量之间的相关性时,由于并不是每次分析数据时所用的样本集都能囊括所有的情况,所以单纯从样本集去下判断会有武断的嫌疑;同样的,我们有时候也想要在数据样本不够全面时就能对结果有个大概的了解。

例如医生在给患者做诊断时,有些检查需要耗费的时间很久,但仅仅凭借一些其他的症状,他就可以对病人患某种病有个大概的猜想,从而先做出一些措施来降低风险,毕竟等到疾病真正发生时可能会来不及。概率图模型便是能够同时进行多变量的概率分析的模型,既能提高效率,又能顾及没有注意到的细节。

以下是一个例子:

library(bnlearn)# 1. 生成更简单的模拟数据集(确保变量间有明确因果关系)
set.seed(123)
n <- 1000# 明确因果关系:Smoking -> LungCancer -> Cough
smoking <- rbinom(n, 1, 0.3)
lung_cancer <- ifelse(smoking, rbinom(n, 1, 0.15), rbinom(n, 1, 0.05))
cough <- ifelse(lung_cancer, rbinom(n, 1, 0.5), rbinom(n, 1, 0.1))health_data <- data.frame(Smoking = factor(smoking, labels = c("No", "Yes")),LungCancer = factor(lung_cancer, labels = c("No", "Yes")),Cough = factor(cough, labels = c("No", "Yes"))
)# 2. 构建网络结构(改用明确指定结构的方式)
bn_struct <- empty.graph(names(health_data))# 手动指定因果关系(避免方向不确定问题)
arcs(bn_struct) <- matrix(c("Smoking", "LungCancer","LungCancer", "Cough"),ncol = 2, byrow = TRUE
)# 3. 参数学习(现在应该可以正常运行)
bn_model <- bn.fit(bn_struct, health_data)# 查看条件概率表
cat("吸烟对肺癌的影响:\n")
print(bn_model$LungCancer)cat("\n肺癌对咳嗽的影响:\n")
print(bn_model$Cough)# 4. 简单推理示例
# 已知某人吸烟,预测患肺癌概率
smoking_yes_probs <- cpquery(bn_model, event = (LungCancer == "Yes"),evidence = (Smoking == "Yes"))cat("\n吸烟者患肺癌概率:", round(smoking_yes_probs, 3))# 已知某人咳嗽,反推吸烟概率
cough_yes_smoking <- cpquery(bn_model,event = (Smoking == "Yes"),evidence = (Cough == "Yes"))cat("\n咳嗽患者中吸烟比例:", round(cough_yes_smoking, 3))

输出:

Parameters of node Cough (multinomial distribution)Conditional probability table:LungCancer
Cough         No        YesNo  0.91738197 0.54411765Yes 0.08261803 0.45588235 
吸烟者患肺癌概率: 0.137 
咳嗽患者中吸烟比例: 0.364

从结果可以看到,患者中有无肺癌,咳嗽的概率有明显的不同,这说明咳嗽确实是肺癌的一个重要表现,但反过来,咳嗽的也有可能是其他原因导致的。如果反过来去看因果发生的概率,即咳嗽的人群中患有肺癌的概率,便会发现概率没有想象中那么大,这能辅助我们考虑多种情况。

http://www.xdnf.cn/news/14604.html

相关文章:

  • 【MV】编排8:基于时间线数据多层分段避免过度拟合特定歌曲
  • 《C++初阶之类和对象》【初始化列表 + 自定义类型转换 + static成员】
  • FunASR搭建语音识别服务和VAD检测
  • 飞算 JavaAI 插件炸场!一小时搭图书管理系统
  • Java并发编程中高效缓存设计的哲学
  • Word2Vec 原理是什么
  • vscode 插件
  • Java底层原理:深入理解JVM内存管理机制
  • C#图书管理系统笔记(残缺版)
  • SQLite3 在嵌入式系统中的应用指南
  • Apache SeaTunnel Spark引擎执行流程源码分析
  • Java SE - 图书管理系统模拟实现
  • 国产麒麟 安装可视化数据库软件DBeaver(图解)
  • 前端开发入门指南:掌握HTML基础
  • 【RK3568 嵌入式linux QT开发笔记】 二维码开源库 libqrencode 交叉静态编译和使用
  • 50天50个小项目 (Vue3 + Tailwindcss V4) ✨ | DrinkWater(喝水记录组件)
  • DeepSeek中的提示库及其用法示例
  • 用于算法性能预测的 GNN 框架
  • H5新增属性
  • Three.js 中自定义 UV 坐标贴图详解
  • Java数据结构第二十四期:探秘 AVL 树,当二叉搜索树学会 “自我调节”
  • 华为云 Flexus+DeepSeek 征文|增值税发票智能提取小工具:基于大模型的自动化信息解析实践
  • 计算机操作系统(十六)进程同步
  • 安全版V4.5密码加密算法由SM3改为MD5
  • 使用Windows自带的WSL安装Ubuntu Linux系统
  • SQLite FTS4全文搜索实战指南:从入门到优化
  • Java基础(三):逻辑运算符详解
  • 【技术分享】XR技术体系浅析:VR、AR与MR的区别、联系与应用实践
  • 从语言到生态:编程语言在各行业的应用格局与未来演进
  • 考研408《计算机组成原理》复习笔记,第三章(1)——存储系统概念