智能数据治理:基于大模型、知识图谱
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.4 数据架构与智能数据治理架构

1.4.1 企业架构与数据架构

1.企业架构

企业架构理论的首创者是John Zachman,他提出的Zachman框架源自建筑学,其本质是从现状向目标迁移的过程。该框架包括当前架构、目标架构、迁移计划和IT路线图。企业架构通常由4个专业领域构成:业务架构、应用架构、数据架构和技术架构,如图1.6所示。业务架构定义了组织的业务战略、企业治理、组织机构和关键业务流程。应用架构为要部署的应用系统之间的交互,以及应用系统与组织核心业务流程的关系提供蓝图,并为集成业务功能提供公开的服务接口。数据架构描述了组织的逻辑和物理数据资产,以及相关数据管理资源的结构。技术架构描述了支持部署核心任务关键应用程序所需的硬件、软件和网络基础设施。

图1.6 企业架构

很多重要的企业架构都是由Zachman框架(见表1.1)发展而来的,该框架是一个6行6列的矩阵框架,是两种有几千年历史的分类法的交集。第一种以交流中原始疑问词为基础沟通要素,即WHAT(什么)、HOW(如何)、WHEN(何时)、WHO(谁)、WHERE(何地)、WHY(为何)。这些问题的答案形成一个闭环,对复杂问题进行全面、综合的描述。第二种是关于抽象的具象化,即古希腊哲学中关于抽象观念的实例化。为了维护Zachman框架的单元格中的文档版本和可跟踪性,需要投入非常大的精力,并需要高层管理人员的强有力的推进。

表1.1 Zachman框架

续表

Zachman框架只是一个概念性框架,而不是关于创建最终实例的方法论。为了补全方法论的缺失,1992年企业架构讲师Steven Howard Spewak提出了企业架构规划(Enterprise Architect Planning,EAP)方法论,并被美国联邦企业架构框架(Federal Enterprise Architecture Framework,FEAF)所引用。后来的许多框架,包括开放组织架构框架(TOGAF)、国防部架构框架(DoDAF)、联邦企业架构(FEA)等都深受Zachman框架思想的影响,吸纳其在分类上的优势,补充其实施方法论缺失的短板。

2.数据架构

数据架构作为企业架构的组成部分,随着信息技术的发展,其在不同时代的形态也不同。在单体应用架构时代,数据管理的概念尚在萌芽期,数据架构以数据模型和数据库设计为主,满足系统业务需求即可。随着组织数据的逐步积累,数据仓库应运而生,主要应用为联机分析处理(On-Line Analytical Processing,OLAP),支持复杂的数据分析、数据挖掘和决策支持。此阶段不仅关注数据模型,而且关注数据的分布和流向。

如图1.7所示,企业数据架构是一个整体的、企业级的、独立实施的逻辑数据模型,为企业提供通用一致的数据视图。企业数据模型包括数据实体、实体间的关系、关键业务规则和一些关键属性,为所有数据和与数据相关的项目奠定了基础。数据流设计定义了数据库、应用、平台和网络组件之间的需求和主蓝图。这些数据流展示了数据在业务流程、不同存储位置、业务角色和技术组件间的流动。数据价值链是基于企业核心业务价值链的数据分布和流向,与数据流设计一致。实施路线图描述了数据架构在3~5年内的发展路径,包括高层次里程碑事件、所需资源、成本评估、业务能力工作流划分,路线图和业务需求共同将目标数据架构变为现实。

图1.7 企业数据架构

1.4.2 智能数据治理架构

大数据时代的组织可以更灵活、高效地使用数据,并使数据处理的性能得到极大的提升。数据处理技术先后经历了从批处理到流处理、从大集中到分布式,从批流一体到全量实时的演变。智能数据治理即充分运用大数据、云计算、人工智能等技术实现数据治理手段的智能化,具体的数据治理方案通过嵌入微服务组件提供全生命周期的数据治理图谱,这满足了组织缩短研发周期、降低技术成本、提升数据价值的需求。

智能数据治理架构从被动管控转向主动式服务,实现了治理能力的赋能应用,可实现以下功能:破除部门壁垒,打通横向跨专业的分析挖掘通道;打通内部多层级数据通道,形成统一资源目录,实现上下级数据共享交换;消除内外数据的鸿沟,实现内外数据的关联分析;建立企业标准,实现统一管理统计口径;智能数据治理架构中的大数据治理平台统一对外提供数据服务和应用解决方案,与业务系统和数据应用充分协同,如图1.8所示。

图1.8 大数据治理平台

在技术上,传统的大数据架构基于Hadoop各类组件构建。数据存储用分布式文件系统(HDFS),数据采集用Sqoop、Flume、Kafka等处理框架,数据处理用MapReduce、Hive、Spark等分布式处理和数据库嵌入组件。例如,Lambda架构数据通道分为两条分支:实时流和离线。实时流依照流式架构保障了其实时性,离线则以批处理方式保障了其最终一致性。该架构由三层系统组成:批处理层(Batch Layer)、速度处理层(Speed Layer),以及用于响应查询的服务层(Serving Layer),具有较强的灵活性和多场景适用性。Kafka框架在Lambda架构基础上进行了优化,将实时数据和流处理部分进行了合并,将数据通道用消息队列替代,全程用流系统处理全量数据。