当前位置: 首页 > web >正文

中国老年健康调查(CLHLS)数据挖掘教程(1)--CLHLS简介和数据下载

北京大学“中国老年健康影响因素跟踪调查(简称‘中国老年健康调查’;英文名称为Chinese Longitudinal Healthy Longevity Survey (CLHLS))”及交叉学科研究由国家自然科学基金委主任基金应急项目、重大项目、重点项目及国际合作项目。1998-2018年在全国23个省/市/自治区随机抽取大约一半县市进行八次跟踪调查,累计入户访问11.3万人次,其中最需照料的80岁及以上高龄老人占总样本67.4%,其余为较低龄老人和中年对照组;包括:2.01万人次百岁老人,2.68万人次90-99岁老人,2.93万人次80-89岁老人,2.01万人次65-79岁老人,1.12万人次35-64岁中年人;同时访问2.89万位65+岁已死亡被访老人的直接家庭成员,收集了老人死亡前健康状况、生活质量与医疗和照料需求成本等详细数据。

在这里插入图片描述

1998-2018年八次老龄健康跟踪调查累计入户访问11.3万人次,其中最需照料的80岁及以上高龄老人占总样本67.4%,其余为较低龄老人和中年对照组;同时访问2.89万位65+岁已死亡被访老人的直接家庭成员,收集了老人死亡前健康状况、生活质量与医疗和照料需求成本等详细数据。“中国老年健康调查”免费向学者们提供数据,跟踪调查数据在删除个人隐私信息后已向社会和学界免费开放,包括:存活老人生理心理健康、认知功能、社会参与、行为、饮食营养、生活习惯、社会经济状况、家庭结构、代际关系、老年家庭照料需求、照料提供和成本等非常丰富的个体微观数据、以及65+岁已死亡老人死亡前健康状况、照料成本与生活质量等丰富个体微观数据,除了为国家健康老龄化科学决策应用研究服务外,已通过北京大学开放研究数据平台(http://opendata.pku.edu.cn/)和中国人口与发展研究中心执行的“国家人口宏观管理与决策信息系统(PADIS)”和“全民健康保障信息化工程”数据库平台向学界和社会开放免费使用。
据不完全统计,截至2021年10月15日,10327位学者(不包括他们的项目组其他成员)正式注册免费使用1998-2018年“中国老年健康调查”数据; 这些学者们使用该调查数据已发表成果:专著17本;国际匿名评审SCI和SSCI学术刊物论文431篇; 国内期刊论文731篇; 通过答辩博士论文99篇和硕士论文678篇;递交政策咨询报告68篇。

在这里插入图片描述
CLHLS数据下载的网址是:

https://opendata.pku.edu.cn/dataverse/CHADS?spm=5176.28103460.0.0.40f7451e1r7NtX

数据需要先通过申请才能下载,下载到电脑的数据如下图

在这里插入图片描述
数据每个年份是分开的,以sav格式保存。中国健康长寿纵向调查(CLHLS)的有前八波(1998、2000、2002、2005、2008、2011、2014和2018)。这些受访者于1998年首次接受采访,后面是对这些患者的跟踪随访。

在编码系统中,“写入格式:F3”表示变量的代码长度为3位数字,没有小数点,而“写入格式∶F8.6”表示变量代码长度为8位数字,小数点后有6位数字。后一种格式(带小数点)用于权重。

在这里插入图片描述
数据集中,大多数变量都被视为“数字”变量,而其中一些变量则被视为字符串变量。年龄、年、月、人数和天数等变量被视为“规模”类型。剩余的大多数变量被视为“名义”变量,包括“是”或“否”二项式问题。B部分中的变量、E部分中与ADL、IADL功能能力相关的变量以及D部分中幸存的个人问卷中的一些变量被视为“顺序”变量。死者死亡前的ADL功能也被视为“序数”变量。更详细的信息可以在编码系统的“测量级别”中找到。变量名称中第一个字母为“r”的变量表示问题是由受访者亲自回答或者由代理人回答。

以“_0”、“_2”、“_5”、“_6”、”_11”、“_14”和“_18”为后缀的变量分别用于2000年、2002年、2005年、2008年、2011年、2014年和2018年仍然活着并再次接受采访的人,而以“d0”、第二年、第五年、第八年、第十一年、第十四年和第十八年为前缀的变量则分别用于1998-2000年、2000-2002年、2002-2005年、2005-2008年、2008-2011年、2011-2014年和2014-2018年调查间隔内死亡的已故受访者。

“-6”用于表示该变量仅用于在世人员,不适用于已故人员。“-7”表示该变量仅用于已故人员,不适用于幸存的受访者。“-8”用于表示受访者在早期浪潮中死亡或失访,“-9”用于定义失访。此数据集中使用“-1”表示问题不适用于受访者的情况。“9”、“99”、“999”和“9999”通常用于表示不同变量中的缺失信息,而在大多数情况下(但不是所有情况下),“8”、“88”、“888”和“8888”用于表示受访者不知道问题答案的情况。在进行分析之前,用户需要估算由“8”、“88”、“888”、“8888”、”9”、“99”、“999”和“9999”表示的缺失值,特别是当“缺失”或“不知道”的比例大于5%时。目前没有用估算值替换缺失数据的数据集。

在这里插入图片描述
最后我总结一下,CLHLS的患者年龄偏大,基本大于80岁,包含有饮食数据和生活数据,数据提取方法也和chals类似,可以看作是chals数据的一个补充,可以发一些膳食/饮食指数之类数据的文章,后续将继续进一步介绍CLHLS。

http://www.xdnf.cn/news/13960.html

相关文章:

  • C++11可变参数模板从入门到精通
  • 【报错解决】Java 连接https报错「javax.net.ssl.SSLHandshakeException」怎么破?看这篇!
  • Kubernetes安全机制深度解析(一):从身份认证到资源鉴权
  • 京东开放平台获取京东商品详情API接口操作解答
  • opencl的简单介绍以及c++实例
  • echarts中给饼图加圆点
  • 从怀疑到依赖:CodeRider 2.0 如何重塑我的编程日常
  • 关于深度学习网络中的归一化BN
  • 玩转 Databend UDF
  • 巢 湖 流 域
  • 一[1]、ubuntu18.04 安装yolov8 + 实际测试
  • 1394B 模块 EP-H6277 使用指南
  • 国产最高性能USRP SDR平台:国产USRP X440 PRO, 搭载UltraScale+ XCZU48DR芯片
  • 如何将一个url地址打包成一个windows桌面版本的应用程序
  • 火山引擎扣子的具体作用
  • Dagster 构建可靠数据体系:从挑战到解决方案的完整路径
  • uniswap v4 TickBitmap库函数解析
  • git报错fatal: 远端意外挂断了
  • 利用亚马逊 API 实现商品详情实时数据采集(开发接入示例)
  • 价格性价比高系列的高性能单片机MS32C001-C
  • 多设备联动,canopen转Ethercat网关设备接入国产 PLC 控制系统方案落地
  • 将python脚本打包进docker
  • Java并发编程实战 Day 20:响应式编程与并发
  • STM32F103x6启动代码的详细分析
  • 如何在python中实现简单的app自动化测试框架?
  • 梯度下降相关
  • Git 首次使用完整设置指南
  • 【专业数据库探索 03】图数据库实战:Neo4j构建智能推荐与关系网络分析系统
  • 动态规划3——背包类动态规划详解
  • 一个圆的周长是如何进行推演计算的?都有哪几种方式?为啥要计算圆的周长?-六年级上册(还需要再学习和思考)