如何通过AI进行数据资产梳理
最终产出
- 数据资产清单
- 包含所有数据资产的详细目录,列出数据集名称、描述、所有者、格式、存储位置和元数据。
- 用途:帮助政府部门清晰了解数据资产分布和状态。
- 数据质量报告
- 数据质量评估结果,记录准确性、完整性、一致性等问题及改进建议,基于政府认可的数据质量框架(如英国数据质量框架)。
- 用途:为AI应用提供高质量数据基础,提升分析和决策效率。
- 元数据集合
- 标准化的元数据记录,涵盖数据来源、结构、更新频率和使用权限,发布至政府指定平台(如英国API目录)。
- 用途:提高数据可发现性和可访问性,支持跨部门共享。
- 数据共享与访问方案
- 安全数据共享机制(如Delta Sharing或数据清洁室)的实施计划,包含API接口或平台访问方式,符合政府标准(如英国GDS API标准)。
- 用途:确保数据在隐私保护下可安全共享和访问。
- 数据治理框架
- 数据所有权、角色责任和生命周期管理规范,明确从创建到销毁的管理流程,符合政府政策(如英国数据所有权模型)。
- 用途:确保数据合规性、可持续性和长期治理。
- 技术实施文档
- 使用的技术工具(如数据湖、治理平台)和配置说明,包含操作指南和维护计划。
- 用途:支持政府部门持续使用和优化数据资产。
- 价值展示报告
- 案例分析或试点项目报告,展示数据梳理如何提升公共服务效率、政策制定或AI应用效果(如USCIS使用Delta Sharing的案例)。
- 用途:证明服务价值,增强政府信任和合作意愿。
- 培训与支持材料
- 针对政府部门的数据使用培训手册、操作指南或工作坊计划。
- 用途:帮助部门克服文化障碍,有效利用梳理后的数据资产。
数据类别
可能涉及的数据类别及分类方法
方法A
数据类别
-
按敏感性/影响程度分类: 这是政府数据最常见的分类方式,直接关系到数据的保护级别。
- 绝密 (Top Secret): 未经授权披露可能对国家安全造成极其严重损害的数据 1。例如,高度敏感的国家安全信息、政府情报信息 3。
- 机密 (Secret): 未经授权披露可能对国家安全造成严重损害的数据 1。
- 秘密 (Confidential): 未经授权披露可能对国家安全造成损害的数据 1。这包括受法律、法规或合同保护的数据,如高度敏感的个人身份信息 (PII)、受保护健康信息 (PHI)、支付卡行业数据 (PCI DSS) 和联邦税务信息 (FTI) 3。
- 受限 (Restricted): 未经授权披露可能导致重大损害或伤害的数据,或严重影响机构履行法定职能的能力 3。这通常需要保密协议 (NDA) 保护 4。
- 内部 (Internal): 仅限组织内部使用,需有限控制保护的数据,如员工手册、公司政策和内部备忘录 4。
- 公开 (Public): 可供公众随时访问的数据,无需额外控制 3。例如,政府开放数据网站上的信息、营销或宣传材料 3。
-
按数据类型分类:
- 个人数据 (Personal Data): 任何与已识别或可识别的自然人相关的信息 3。
- 特殊类别个人数据 (Special Categories of Personal Data): 涉及种族或民族血统、健康数据、性生活或性取向、遗传数据、生物识别数据等高度敏感的个人数据 3。
- 非个人数据 (Non-Personal Data): 不包含个人身份信息的数据 3。
-
按结构化程度分类:
- 结构化数据 (Structured Data): 具有预定义格式和组织的数据,如关系型数据库中的数据。
- 半结构化数据 (Semi-structured Data): 具有一定结构但不如结构化数据严格的数据,如XML或JSON文件。
- 非结构化数据 (Unstructured Data): 没有预定义结构的数据,如文本文档、图像、音频和视频。
分类方法
数据分类通常结合自动化和人工方法。自动化方法可以通过规则(如正则表达式)来识别信用卡号等敏感信息 4。然而,技术难以理解数据的上下文,因此数据所有者(负责数据的业务负责人或部门)的人工标记至关重要 4。数据所有者负责根据预期用途分配适当的分类级别,并将其职责移交给数据保管员,由保管员负责应用相应的安全控制措施 。
方法B
数据类别
-
行政管理数据
- 描述:与政府日常运营相关的数据,如财务记录、人事档案、采购合同、项目管理数据。
- 示例:预算分配、员工考勤、供应商信息。
-
公共服务数据
- 描述:支持公共服务的核心数据,如医疗、教育、社保、交通等领域的服务记录。
- 示例:患者健康记录、学校学生信息、公共交通流量数据。
-
政策与决策支持数据
- 描述:用于政策制定、规划和评估的数据,如统计数据、调查结果、经济指标。
- 示例:人口普查数据、失业率统计、环境监测数据。
-
地理与空间数据
- 描述:与地理位置相关的数据,如地图、土地使用、城市规划数据。
- 示例:GIS地图、基础设施位置、灾害风险区域。
-
安全与执法数据
- 描述:涉及公共安全、执法和司法的数据,如犯罪记录、监控数据、法律文件。
- 示例:犯罪案件记录、交通违章数据、法院判决书。
-
开放与共享数据