1.3 智能数据治理
1.3.1 传统数据治理与智能数据治理
国际数据管理协会简称DAMA国际,其对传统数据治理的定义是:数据治理是对数据资产管理行使权利和进行控制的活动集合。IBM公司认为传统数据治理是对企业中数据的可用性、相关性、完整性和安全性的全面管理。可以看出,传统数据治理侧重“治”和“理”,弱化“价值创造”。在大数据时代,传统的手动数据治理技术显然已经不能满足需求,快速发展的人工智能和机器学习技术正在改变21世纪的数据治理方式。数据被视为一种资产,其在推动数据智能革命方面发挥了巨大作用,很多高市值企业都将自己的成功归因于数据驱动的模式创新。
智能数据治理可以有效管理组织的海量数据和繁多的数据类型,即运用大数据、云计算和人工智能等技术实现治理手段的智能化。通过制定战略方针、建立组织架构、明确职责分工等,实现大数据的风险可控、安全合规、绩效提升、智能服务和价值创造。总的来说,传统数据治理和智能数据治理的关注点不同。传统数据治理的目的是保证数据的准确性、一致性、可访问性和合规性,而智能数据治理更强调发挥数据的应用价值,更关注如何将业务目标映射到数据分析任务上,如数据分类和数据建模等。传统数据治理是智能数据治理的基础,智能数据治理则是传统数据治理以数据驱动为目的的技术演进。
1.3.2 数据驱动概述
数据驱动的概念最早来自计算机科学领域,指在设计程序的过程中以数据库中的数据为导向进行程序设计。2013年,福斯特·普罗沃斯特(Foster Provost)和汤姆·福塞特(Tom Fawcett)在《数据科学与大数据、数据驱动决策的关系》一文中,将数据驱动决策定义为“基于对数据的分析,而不是仅仅依靠直觉进行决策的实践”。数据治理的主要应用场景是商业智能,而商业智能是数据驱动的实现途径。大数据时代如何采用数据驱动的方法优化服务过程、提高服务效率及判断决策的科学性至关重要。
由于现代工业高度发达,依据物理化学机理建立精确数学模型的传统控制理论方法已捉襟见肘。21世纪初,数据驱动的思路和理念广泛应用于计算机数字控制领域,各种数字传感器为控制系统设计提供了大量的输入输出数据。针对控制系统建模过程中遇到的种种困难,一个很直观的解决方案就是直接利用传感器采集的系统输入输出数据来设计控制器,避免了复杂耗时的建模过程。这种利用大量的离线和在线的数据和知识的控制方案称为数据驱动控制(Data driven control)。
本书中的智能数据治理引申于数据驱动的决策支持系统(Data Driven Decision Support System,Dara driven DSS),它是建立在数据仓库、数据挖掘和分布式多源数据分析处理等技术基础之上的一种数字化的组织数据管理方式。通过构建智能数据治理架构来帮助决策者高效利用内部和外部多种类型、多种来源的结构化和非结构化数据,进而对数据进行挖掘分析,识别某种数据序列模式,便于追溯、显示和分析历史数据,进而预测未来的发展方向或趋势。
1.3.3 智能数据治理解决方案
为了应对数据治理中的技术挑战,智能数据治理是组织管理不断增长的数据量和数据类型的应对之策。智能数据治理从数据资源的自动化管理到相关组织之间的智能协作,都可以在系统规范的框架下完成,如图1.5所示。
图1.5 智能数据治理
1)人工操作到可扩展的自动化
在传统的数据管理方法中,数据管理人员需要记录组织中各领域的信息,并建立全面的数据字典。针对大规模手工操作中耗时费力的问题,可扩展的自动化技术可以帮助组织高效完成烦琐的基础数据管理操作。智能数据处理技术帮助组织完成前期的繁复工作,如对于企业员工基本信息数据,在前期可以完成常见模式、重复数据类型识别和名称匹配。在进行数据治理的核心流程时,只需进行数据管护和微调即可,节省了大量时间。
2)复杂性到一致性
数据治理需要整合多源异构的数据类型,并将其运用到各种跨学科业务领域中。一些传统的数据治理方法使用完全开放的模型来记录资产类型及其相互关系,但这种方法产生的问题比要解决的问题更多,反而增加了数据治理的复杂性。
事实上,任何行业和组织的业务构成要素(如术语表述、系统、政策和流程等)都是相对一致的。为了避免重复工作,需要在一个更稳健的整体视图中操作。面对不同组织的数据处理需求,自动化和智能化过程中的一致性至关重要,组织保持的一致性越高,越能有效利用自动化和机器学习等智能技术。
3)孤立操作到可扩展模型
传统的数据治理部门和操作往往和组织相互孤立,无法和组织的业务目标建立有效连接。随着治理需求和覆盖范围不断扩大,越来越多的组织赋予了数据治理更丰富的内涵,如数据卓越、数据智能、数据策略和数据赋能。智能数据治理通过不同学科的融合和技术集成将不同治理阶段与业务目标相连接,便于业务领导者依据这些数据进行分析和决策。