智能数据治理:基于大模型、知识图谱
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1章 数据治理

1.1 数据治理概述

2022年7月发布的《国家数据资源调查报告(2023)》显示,2023年全国数据生产总量达32.85ZB,同比增长22.44%。随着数据的充分挖掘和有效利用,数据正在改变人们的生产、生活和消费模式,推动各行业、各领域的数据化变革进程的发展,对经济发展、社会生活和国家治理产生了重要作用。国外学界关于数据治理的认识始于2004年,H.Watson探讨了数据仓库治理在Blue Cross和Blue Shield of North Carolina两家公司的最佳实践,由此拉开了数据治理在企业管理中的帷幕。2005年之后,陆续有国内外学者对数据治理展开研究,讨论数据治理环境下企业、政府、医院的职能角色、模型、框架、因素与机制等。

1.1.1 数据治理概念

通常来说,狭义的数据治理是以数据管理为主的数据资产管控体系,即通过制定数据治理政策并付诸实践,对组织内外的数据集开展一系列数据管理活动。因此,数据管理政策的制定和执行对于数据治理实践的有效性至关重要。广义的数据治理倾向于数据工程,侧重于技术支撑平台的构建。国际标准化组织(International Standards Organization,ISO)于2008年对数据治理和数据管理提出差异化概念,即数据治理履行数据管理的主要职能,即数据治理规定在管理的过程中哪些决策应被制定,以及决策者是谁,而数据管理确保这些决策的制定与执行。因此,数据管理侧重于数据内容本身被动式的管理,而数据治理既包括对数据的管理,也包括对相关利益主体主动式的管理,管理范围更广,体系更完善,效果也更显著。

1.1.2 数据治理要素

制定长期稳定的数据治理规划对企业和组织的数字化管理至关重要。进行数据治理能否成功取决于以下6个关键要素:数据战略目标、数据治理组织、制度章程、流程管理、技术应用和成熟度模型。

�·要素一:数据战略目标

数据战略是企业发展战略中的重要组成部分,是指导数据治理的最高原则,为提高数据的质量,保证数据的完整性、安全性,以及保障数据存取规划而制定。数据治理与企业发展战略是否吻合也是衡量数据治理体系实施是否成熟、是否成功的重要标准。因此,需要在企业发展战略框架下建立数据治理文化,包括企业高层领导对数据治理的重视程度、能提供的资源、对重大问题的协调能力,以及对数据治理文化的宣传推广、培训教育等一系列措施。

�·要素二:数据治理组织

传统的数据治理存在组织架构复杂、管理范围狭窄、管理流程复杂、需要人工录入等多种弊端。构建高效的数据治理组织是达到预期治理目标的有力保证,包括制度组织和服务组织。制度组织通常是跨职能的,主要负责整体数据战略、数据政策、数据管理度量指标等数据治理规程的制定,如数据治理委员会、数据管理制度团队等。服务组织由数据管理专业人员构成,如数据质量分析师、元数据管理员等,主要执行数据治理各个领域的具体实施工作。无论哪种组织都需要明确组织架构、组织层次和组织职责,以保证数据治理目标的实现。

�·要素三:制度章程

制度章程是确保数据治理有效实施的认责制度,具体包括规章制度、管控办法、考核机制、技术规范等,其中,一些是数据治理的职责,另一些是数据管理的职责。

�·要素四:流程管理

流程管理包括流程目标、流程任务、流程分级等。首先,通过落实战略文化和规章制度做好事前预防,将相关制度规范和职责要求在系统中进行控制和约束,并由相应的组织和角色负责,实施认责机制。其次,通过平台和工具进行事中监测,如对数据结构变化情况、数据分布情况、数据对业务服务的满足情况、在线数据增长情况、数据空缺和质量恶化情况等进行监测。另外,定期对系统开展全面的数据治理状况评估,从问题率、解决率、解决时效等方面建立评价指标,通过系统记录并跟踪需要整改的数据问题,要求按期整改优化。

�·要素五:技术应用

技术应用包括支撑核心领域的数据治理工具和平台,如数据资产管理系统、数据质量管理系统和元数据管理系统等。其中,数据资产管理系统统一管理组织的数据资产,包括元数据、数据模型和数据标准等,并提供可视化的数据查询和展示功能。数据质量管理系统负责数据质量问题的发现、跟踪、治理、评价的全流程闭环管理,进而搭建数据生命周期管理平台。通过建设统一的数据仓库平台,满足组织的多种应用需求,持续提升其对数据的挖掘、分析和深度应用能力。

�·要素六:成熟度模型

能力成熟度模型集成(Capability Maturity Model Integration,CMMI)协会在2014年发布了能力成熟度模型(Capability Maturity Model,CMM),可以用来评估和提升企业的数据管理水平。CMM模型包括5个连续能力和25个提升的过程域,可以反映所有数据管理的内容,以促进企业建立自己的数据管理成熟度路线图。

总的来说,大多数组织的数据管理现状都是一个先污染后治理的过程,数据治理需要跨部门、跨条线、跨系统的沟通协调,以及大量的资金投入。因此在数据治理之前需要做好长期规划,包括制定各项规章制度和构建管理架构,以确保后续各项工作行之有效。