当前位置: 首页 > backend >正文

数据分类分级的概念、标准解读及实现路径

数据已与土地、劳动力、资本、技术并列为先进生产力五大要素,是国家重要的基础性、战略性资源。如何开放数据共享、提升数据价值的同时保障数据生命周期安全与合规,是企业需要解决的重要问题。而对数据进行数据分类分级安全管理,是数据安全保护的重要措施之一。

01 数据分类分级概念及挑战

根据《GB/T 38667-2020 信息技术-大数据-数据分类指南》的定义,数据分类是根据数据的属性或特征,按照一定的原则和方法进行区分和归类,以便更好地管理和使用数据。数据分类不存在唯一的分类方式,会依据企业的管理目标、保护措施、分类维度等形成多种不同的分类体系。

数据分类是数据资产管理的第一步。不论是对数据资产进行编目、标准化,还是数据的确权、管理,或是提供数据资产服务,进行有效的数据分类都是其首要任务。数据分类更多是从业务角度或数据管理的方向考量的,包括行业维度、业务领域维度、数据来源维度、共享维度、数据开放维度等。同时,根据这些维度,将具有相同属性或特征的数据,按照一定的原则和方法进行归类。

数据分级则是按数据的重要性和影响程度区分等级,确保数据得到与其重要性和影响程度相适应的级别保护。影响对象一般是三类对象,分别是国家安全和社会公共利益、企业利益(包括业务影响、财务影响、声誉影响)、用户利益(用户财产、声誉、生活状态、生理和心理影响)。

企业建议选取影响程度中的最高影响等级为该数据对象的重要敏感程度。同时,数据定级可根据数据的变化进行升级或降级,例如包括数据内容发生变化、数据汇聚融合、国家或行业主管要求等情况引起的数据升降级。数据分级本质上就是数据敏感维度的数据分类。

任何时候,数据的定级都离不开数据的分类。因此,在数据安全治理或数据资产管理领域都是将数据的分类和分级放在一起,统称为数据分类分级。

目前分类分解存在的挑战有:

1. 复杂业务的分类分级标准与规则不好定义,行业标准对落地细则的指导不足。

2. 数据分类分级之后缺乏对应的有效管理和使用策略,让数据分类分级流于形式。

3. 部分业务数据不具备明显数据特证,通过规则自动识别准确率不高。特别是针对非结构化数据的分类分级识别困难较大。


02  国内已发布的数据分类分级相关标准

在开展分类分级工作时参考最多的标准有如下:

其他标准参考如各类地准、国标、行标:

03 国内数据分类分级厂商推荐

1. 安恒信息

  • 核心能力:基于“恒脑·安全垂域大模型”,实现对数据库、文档、日志等多源数据的自动分类与分级。
  • 技术亮点:提供数十种内置规则模板,结合 NLP 与正则表达式精准识别身份信息、金融账号等敏感数据,识别率超 95%。
  • 适用场景:金融、运营商、政务数据治理,尤其适用于大规模多源异构数据环境。

2. 原点安全

  • 核心能力:提供数据库、文件、日志等多源敏感数据的智能分类分级,支持静态扫描与动态监测结合。
  • 技术亮点
    • 内置 AI + 规则引擎,支持对个人身份信息、金融数据、医疗数据等多维度敏感信息的自动识别;
    • 实现分类分级与脱敏、审计、访问控制联动,保障“识别-防护-追踪”闭环;
    • 提供自定义标签体系,支持企业根据行业特点构建专属分级模型。
  • 适用场景:金融、能源、运营商及医疗等行业,特别适合需要 分类分级与数据治理一体化 的场景。

3. 绿盟科技

  • 核心能力:提供云原生分类分级方案,兼容传统数据库与云数据库。
  • 技术亮点:采用规则库+机器学习双引擎,支持 30+ 种行业敏感数据类型识别;在政务云环境中适配率达 98%。
  • 适用场景:政务云、金融云、混合云架构下的分类分级与合规管理。

4. 奇安信

  • 核心能力:分类分级与数据安全中台联动,支持从资产发现、分类分级到访问控制的全流程治理。
  • 技术亮点:内置 100+ 种数据识别规则库,结合深度学习算法,识别非结构化敏感文本准确率超 90%。
  • 适用场景:大型集团企业,适合与零信任架构、数据库审计系统形成统一的安全生态。

5. 深信服

  • 核心能力:将数据分类分级与零信任访问控制结合,实现基于数据敏感度的动态授权。
  • 技术亮点:提供可视化分类分级结果展示,策略配置界面便捷直观,适配中小企业。
  • 适用场景:互联网、教育及中小型企业,适合快速部署的 SaaS 化分类分级方案。

6. 保旺达

  • 核心能力:创新“监督向管理转化”模式,通过战略穿透引擎与业务语义标签,实现数据分类分级与治理的一体化。
  • 技术亮点:构建多维度业务标签体系,打通审计数据与业务语义的关联;通过 AI 算法提升未知敏感数据的自动识别能力。
  • 适用场景:政府机关、大型集团企业,适合建立“战略到执行闭环”的分类分级体系。


04 企业数据分类分级实现路径

行业发布的数据分类分级标准可以为企业实施提供参考,但企业真正着手建立企业内部数据分类分级规范并不能完全照搬行业标准,行业标准的内容一般较为宏观,分类的颗粒度相对较粗,可能不能完全覆盖企业的主要数据类型。这就需要企业结合自身业务场景及行业实践来建立适合本业务特性的分类分级标准。

4.1 数据分类分级实施路径

在实际落地过程中,通常会把数据分类分级的实施路径总结成为五步:

第一步,咨询调研分析。基于行业相关的监管政策和标准规范,对业务系统、数据资产现状和数据安全现状等进行全面调研分析,从而对企业业务、数据及安全现状做到“心中有数”。

第二步,数据资产梳理。自动化识别数据资产,对数据资产进行梳理打标,构建好数据资产目录和数据资产清单,为企业数据分类分级打好基础。

第三步,数据分类方案。基于数据资产清单进行数据分类体系设计,完成数据分类打标实施。打标实施完之后,再进行分类分级规则调优,提升自动化分类的比例和准确率。

第四步,数据分级方案。先进行数据分级体系设计,接下来进行数据分级的规则调优,尽量提升自动化分级的覆盖率和准确率,降低人工成本,然后是数据等级变更维护机制和工具平台设置。

第五步,数据分类分级全景图。构建数据分类分级清单,实现数据分类分级可视化。同时产出一些数据分类分级运营机制,为数据安全分级保护打好基础,做好准备。

4.2 数据分类

数据分类是指根据数据的属性或特征,按照一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序,以便更好的管理和使用数据的过程。

基于不同的数据属性或特征,对数据采用不同的分类视角,例如有数据管理视角、数据应用视角和国家行业组织视角。

从数据分类视角出发,结合数据分类方法对数据进行分类,把数据分类的方法分成三种,线分类法、面分类法和混合分类法。

线分类法旨在将分类对象按选定的若干个属性或特征,逐次分为若干层级,每个层级又分为若干类别。同一分支的同层级类别之间构成并列关系,不同层级类别之间构成隶属关系。同层级类别互不重复,互不交叉。

面分类法是将所选定的分类对象依据其本身的固有的各种属性或特征,分成相互之间没有隶属关系即彼此独立的面,每个面中都包含了一组类别。将某个面中的一种类别和另外的一个或多个面的一种类别组合在一起,可以组成一个复合类别。面分类法是并行化分类方式,同一层级可有多个分类维度。

混合分类法是将线分类法和面分类法组合使用,克服这两种基本方法的不足,得到更为合理的分类。混合分类法的特点是以其中一种分类方法为主,另一种做补充。适用于以一个分类维度划分大类、另一个分类维度划分小类的场景。

分类的维度可以有很多,包括数据的来源、内容和用途等,有时候可能是多维度的结合,例如,从个人信息的维度,将数据分为个人信息和非个人信息;从业务维度,分为财务数据、业务数据、经营数据等。

4.3 数据分级

数据的分级一般是依据数据重要性和敏感度高低来划分的。《中华人民共和国数据安全法》要求,根据数据一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度,将数据从低到高分成一般数据、重要数据、核心数据共三个级别,这是从国家数据安全角度给出的数据分级基本框架。

企业比较常用的分级规则是将一般数据的敏感/重要程度从低到高分为公开(1级)、秘密(2级)、机密(3级)、绝密(4级)四个级别。

工业和电信领域企业,如涉及国家核心数据和重要数据的分类分级可参考《工业和信息化领域数据安全管理办法(试行)》中第七条至第十条要求。

以金融行业数据分级为例,金融行业数据等级一般分为五级:

- 五级数据指对国家安全造成影响,或对公众权益造成严重影响数据。

- 四级数据指对公众权益造成一般影响,或对个人隐私或企业合法权益造成严重影响,但不影响国家安全数据。例如个人健康生理信息、个人身份鉴别信息等。

- 三级数据指对公众权益造成轻微影响,或对个人隐私或企业合法权益造成一般影响,但不影响国家安全数据。例如比较常见的个人信息,姓名、身份证,联系方式等。

- 二级数据指对个人隐私或企业合法权益造成轻微影响,但不影响国家安全、公众权益数据。

- 一级数据指对个人隐私或企业合法权益不造成影响,或仅造成微弱影响,但不影响国家安全、公众权益数据。

数据分类类别,包括但不限于研发数据、生产运行数据、管理数据、运维数据、业务服务数据、个人信息等。

数据分级级别,按照国家有关规定,根据数据遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益等造成的危害程度,将数据分为一般数据、重要数据和核心数据三级。

分级原则如下:

合法合规原则:分级应遵循有关法律法规及部门规定要求,优先对国家或行业有专门管理要求的数据进行识别和管理,满足相应的数据安全管理要求。

就高从严原则:数据分级时采用就高不就低的原则进行定级,例如数据集包含多个级别的数据项,按照数据项的最高级别对数据集进行定级。

动态调整原则:数据的级别可能因为多个低敏感的数据聚合提高数据级别,也可能因为脱敏或者过期等原因降低数据级别。

完成数据资产的识别与分类分级定义后,需要制定并发布企业的《数据安全分类分级标准》及配套的安全要求,以在企业内统一规则及实施流程。安全标准重点是需要针对不同安全级别的数据采取差异化的安全策略,对高敏(机密、绝密级)数据进行重点管理,而公开和秘密级别的安全措施要适度。特殊业务场景下,可以通过对高敏数据进行脱敏、加密以及采用隐私计算等措施来降低数据管级,提高数据的内部流转,实现数据价值。


4.4 分类分级在业务中的应用

分类分级标准制定只是企业数据分类分级安全管理工作的起点。真正要落实数据分类分级安全要求,需要建立配套的实施流程与工具。确保在不同的业务场景中能够识别并标识出数据的分类与分级,并实施对应的安全措施,例如:在权限申请和数据分享的场景,不同级别的数据采用分级安全控制策略与审批流程;在安全事件处理场景,不同级别的数据的事件定级及响应处理流程有差异等等。

数据处理全流程涉及的数据安全管控技术示例如下:

1. 数据源验证、合规评估、个人信息采集告知同意

2. 数据源验证、访问控制、传输加密、个人敏感信息内容加密

3. 数据使用审计、权限控制、数据脱敏、安全计算

4. 联邦学习、访问控制、数据访问审计

5. 访问控制、数据脱敏、特权管理

6. 数据脱敏、外发安全审计、API管控

7. 服务端数据存储加密、数据库访问控制、安全审计、分类分级

8. 敏感数据识别、数据分类分级

9. API安全监测、访问控制、安全审计

10. 数据脱敏、安全审计

11. WEB数据展示/下载管控/审计/脱敏

12. 动态脱敏、特权管理、安全审计、运维审计

13. 安全评估、保密协议、数据脱敏、加密传输

14. 数据分类分级、文件加密、数据防泄漏、远程办公安全


05 敏感数据的分类分级识别与打标

敏感数据的分类分级识别,不同企业做法有所不同。规模比较小的企业通过人工盘点的方式也能将基本数据识别完整。但大企业的数据量级很大,而且总是随着业务的变化持续在变,敏感数据的分类分级识别如果仅使用人工盘点的方式,目标不易实现。建立一套自动化数据识别与打标的能力显得尤为重要。

5.1 建立敏感数据规则库

敏感数据规则库的建立是自动化识别的基础能力,规则库采用的技术包括关键字、正则表达式、基于文件属性识别、基于元数据信息的自定义识别、机器学习等。例如:

- 银行卡号、证件号、手机号,有明确的规则,可以根据正则表达式和算法匹配。

- 姓名、特殊字段,没有明确信息,可能是任意字符串,可以通过配置关键字来进行匹配。

- 营业执照、地址、图片等,没有明确规则,可以通过自然语言算法来识别,使用开源算法库。

5.2 数据扫描、识别与密级打标


通过对结构化/半结构化/非结构化数据扫描,自动发现敏感数据的类别、级别等属性信息及存储位置,形成数据资产图。自动化识别并打标的数据,按需进行人工的复核,以确定数据的密级。密级需要支持人工修改,通过流程控制密级的变更。更重要的是,数据的密级标签要同步到元数据、数据产品等,实现对密级的应用。

当然,数据分类分级只是数据安全工作中基础的环节,真正要做好数据安全管理,需要建立相对完整的安全管理与技术体系,才能有效落实数据的分类分级策略,保障数据的安全与合规。

06 数据分类分级保障措施及相关建议

数据分类分级是数据安全治理和数据管理的主要措施,是数据的安全合规使用的基础。数据分类分级不仅能够确保具有较低信任级别的用户无法访问敏感数据以保护重要的数据资产,也能够避免对不重要的数据采取不必要的安全措施。

http://www.xdnf.cn/news/18401.html

相关文章:

  • Spring Boot+Docker+Kubernetes 云原生部署实战指南
  • 网易云音乐歌曲导出缓存为原始音乐文件。低调,低调。。。
  • Java实现快速排序算法
  • Jetson Xavier NX 与 NVIDIA RTX 4070 (12GB)
  • Kafka中zk的作用是什么
  • 【Java后端】【可直接落地的 Redis 分布式锁实现】
  • Linux设备模型交互机制详细分析
  • 突击复习清单(高频核心考点)
  • RORPCAP: retrieval-based objects and relations prompt for image captioning
  • STM32F103RC的USB上拉电阻1.5K
  • 回归测试的重要性与实践指南
  • 52 C++ 现代C++编程艺术1-禁止隐式转换关键字explicit
  • go语言中的select的用法和使用场景
  • Maven初识到应用
  • nginx-如何卸载和升级编译安装的版本
  • 第4课:布局与样式
  • RabbitMQ 应用问题
  • 产教融合助企业:国际数字影像产业园办全媒体人才培育会
  • K8S管理实战指南
  • 如何实现H5页面拉起原生App?
  • 学习:uniapp全栈微信小程序vue3后台(3)
  • SprintBoot 2 源码阅读
  • Thunderbird 将推出在德国托管的加密电子邮件服务
  • 浏览器插件优化工具:bypass paywalls chrome
  • 力扣热题之贪心算法
  • Python 办公自动化实战:Excel 批量处理 + 自动发邮件
  • VsCode 上的Opencv(C++)环境配置(Linux)
  • 51单片机-中断系统
  • Ansys Motor-CAD:概述(EMag、THERM、LAB、MECH)
  • 171-基于Flask的笔记本电脑数据可视化分析系统