数据治理:从量变到质变的进化

上海新致软件有限公司保险事业部 杨进玉 张波涛 · 2015-01-04 12:19:50 · cfc365.com

国内大多数企业的数据治理工作仍然偏重于技术,主要工作还停留在现有业务环节的数据问题等方面,包括现有数据的清理、查重、映射、标准化等内容;而对更深层次的数据治理体系,例如涵盖企业业务数据总线的数据管控体系设计、数据规划设计、数据中心等方面还未有更多进展。

随着企业的业务持续发展和规模的不断扩大,以及同业竞争日益激烈,开拓新用户的成本也越来越高。所以很多企业的决策者,开始向内看,进一步挖掘企业现有资源的潜力。业务数据作为企业的重要资产,除了完成日常的对外的业务处理、对内的绩效考核、分析等功能外,决策者希望能从中获得更大的收益。于是进行数据集成的ODS等,进行数据分析和数据挖掘的数据仓库、数据集市,以及面向分析应用的统计分析应用开始建立起来。初期的建设以分析、挖掘目标为导向,并没有严格定义数据标准,以及进行有效的数据管控,这造成了一些应用因为在数据集成阶段中的数据质量问题,导致了实施效果大打折扣,有的应用不得不重新花费大量得精力去进行数据质量管理、数据校验的工作。

本文主要从ODS/EDW的层面上对企业的数据治理做了梳理和研究,根据业界实施的相关经验,对数据治理工作、方法、步骤做了进一步的总结、裁剪和提炼。“数据治理,一方面是要把数据当作资产来管理和应用;另一方面数据治理也是风险的最大来源,所以一个好的数据治理能从这两个方面解决问题,发挥数据资源价值的最大化,同时规避风险,这也是数据治理的目标。”

高质量的数据是实现高效IT和业务运营的关键,也有助于企业成功实施业务战略计划并取得长期的竞争优势。数据治理方案,帮助企业获取并维护准确、可靠的业务源数据,最大限度地降低了IT项目风险,为管理层决策提供及时的决策依据。最终,正确、及时的数据可以帮助企业提供精准客户服务、提高交叉销售和上行销售的效率,将更多的潜在顾客转变为真正的客户,为企业带来更大的经济效益。

一、企业数据治理问题及策略

1.数据治理面临的问题

数据治理工作,已经得到了越来越多的重视。很多企业都已经或正在开展数据治理方面的工作,或多或少具备了数据治理的雏形和基本方法。但是许多企业在实际操作中容易发生以下问题。

(1)缺少企业级的数据标准。业务系统与应用分析系统间数据交互频繁,统计口径、指标定义、加工方法等不一致,导致数据可信度低的问题,归结起来就是缺少有效的数据标准化管理体系造成的。数据标准化是数据平台建设中的重要环节,通过数据标准保证基础数据的一致性和严密性,合理制定标准并严格执行标准,保证各应用分析系统数据标准的一致性。

(2)缺少企业级数据质量管理。企业的数据质量管理涵盖数据质量的评估、问题识别、分析、监控、清洗等一系列活动。企业应当组建专业的数据质量管理团队,依靠数据质量管理平台,数据质量剖析工具持续地监控数据的流向,形成企业级数据质量管理机制。

(3)决策层对数据治理的忽视。企业的高层往往对数据质量管理、元数据管理、数据标准、数据生命周期管理等数据治理的主题不够关注,即使关注,也缺乏专门的管控部门来提供相关的报告。事实上,数据治理层次的提高也是业务水平提升的有力保证。

(4)数据治理工作的局限性。治理工作局限于单个应用系统或个别部门内部,无法形成跨部门的配合、实施和修正,不能实现部门和企业数据治理的整体战略目标及数据治理组织和流程。

(5)缺乏统一的数据治理方法和管理流程。每个参与人员都有自己的一套管理方法,很难统一并制定相应的实施细则,也难以在整个组织内部推广;依靠手工方法统计,缺少统一的管理支撑平台来协助数据治理的相关工作。所以,制定和推广统一的管理方法和管理流程,信息和数据资源实现企业层面的共享成为关键。

企业数据治理主要包括以下内容:通过前期调研,了解企业数据治理现状;结合企业IT战略,分析企业数据治理现状与企业战略目标的差距;确定策略重点,从元数据管理、数据质量管理、数据标准、数据生命周期、数据安全、主数据管理等方面规划企业数据治理体系的建设方案;跟踪建设方案的实施情况并不断的修正,以最终实现部门和企业数据治理的整体战略目标。所以,建设一个完整的数据治理平台作为数据管控系统,从制度、标准、监控、流程几个方面提升数据信息的管理能力,以解决目前所面临的数据标准问题、数据质量问题、元数据管理问题和数据服务问题。

2.建立健全企业级数据治理体系

企业级数据治理体系建立的前提是构建企业级数据标准。数据标准的核心是要建立统一的企业级规范,促进全司范围的数据有机共享,有效提高数据的管理和使用水平。大数据时代,企业要根据结构化、半结构化以及非结构化数据的不同特点,从加强内外部数据共享的角度为数据制定统一的业务解释和标准,加强协调相关部门对数据标准的不同需求,建立适用的统一模型和以数据共享为基础的数据标准、规范及流程。

制定前瞻性的数据质量规划是数据治理体系的基础。大数据的管理和应用要纳入企业统一的数据质量规划范畴。对于新建项目的业务范围和系统规划必须完全执行已正式发布的数据标准,对于已经建设完成的系统需在数据质量规划的要求下酌情进行适应性改造。

企业数据治理体系包括管控机制和管控手段两个层面。管控机制包括管控政策、管控组织、管控流程和管控支撑,为管控手段提供了政策性、方法性的指导和保障。管控手段包括数据管控的各个主题,企业可以根据自身实际情况和侧重点选择管控手段中的一个或多个主题来率先实现。通常来讲,数据管控手段主要包括数据质量、数据生命周期、数据标准和元数据等方面。


图1 数据管控手段和管控机制示意图

数据质量管理为数据标准的完善提供保证。数据生命周期管理强化了元数据管理,元数据管理和数据标准管理为数据质量管理和数据生命周期管理提供标准及规范的管理手段,元数据管理也为数据质量管理和数据生命周期管理提供支撑。数据管控政策的制定是将最高管理层对数据管控的设想变成思想和策略,并通过制度的制定和始终如一的执行来树立企业的数据管控理念,以确保数据管控组织围绕管控制度来进行工作目标的定义和实践。同时,明确各个相关部门的责任,改变或规范各个部门数据的管控。

国内大多数企业的数据治理工作仍然偏重于技术,主要工作还停留在现有业务环节的数据问题等方面,包括现有数据的清理、查重、映射、标准化等内容;而对更深层次的数据治理体系,例如涵盖企业业务数据总线的数据管控体系设计、数据规划设计、数据中心等方面还未有更多进展。

数据管控组织架构与人员角色的定义,明确了某类数据的责任人,规定不同数据责任人的管理职责,对某一特定数据范围内的信息正确性、一致性和及时性负责。针对每个管控手段提出相应的管理流程,定义数据管控各个领域的工作方法和步骤,明确各个相关部门在各领域中的分工和协作关系,并在此基础上形成企业的数据管控统一流程。


图2 数据治理体系示意图

通过对业务数据的探查、清洗、整合、监控和信息挖掘,提升主数据质量,将数据管理和企业组织机构相结合,以管理绩效为手段,加强保障数据质量的管控的执行力,使得数据治理在企业内部持续执行,以保证主数据的数据质量,为数据集成和数据挖掘等应用提供有力的保障。

3.构建企业级数据治理文化

数据治理工作的一项核心任务就是要在公司内培育企业数据治理文化,数据文化的成功与否主要体现在公司全员对数据的认识上,而培育企业数据文化就是要达成“真实的数据才是公司财富”的共识,形成人人关心数据、尊重数据与自觉维护数据的氛围,这既是数据治理工作的内容,也是能否达成治理目的的关键。

构建企业级的数据治理文化,仅仅依靠数据治理组织是不可能完成的,需要企业业务部门和IT部门的共同参与。一方面,需要专业的业务和技术人员组成数据治理组织承担数据管理者的职责,并负责落实企业数据治理的工作;另一方面形成健全的基于决策、沟通、监控、考核的数据管理及治理机制,提升数据使用者对数据治理的意识及对数据治理效益的认可程度。

在数据资产价值被高度认可的企业,数据治理不仅仅需要作为一项管理职能在企业内贯彻执行,也应该成为一种企业文化。建立企业数据文化是解决数据问题的基础和关键。数据治理文化的内容包括:(1)对数据及其价值的认识,应当在公司内部形成数据是公司的财富,是公司命脉的共识;(2)树立数据建设与维护人人有责,形成一种人人关心数据建设,人人参与数据管理,自觉维护数据质量的企业氛围;(3)确立数据质量是神圣不可侵犯,数据必须是客观真实,只有真实的数据才是有价值的数据理念,形成无论任何人、任何理由均不能更改数据的观念和行为规范。

4.通过应用实现闭环的数据治理

解决数据问题的最好办法就是应用。因为,数据的应用与数据的质量(管理)是一个相辅相成、相互推动的关系。不能指望数据质量问题彻底解决了,才去使用这些数据。相反,数据质量(管理)问题是需要通过对数据的应用来解决。只有不断地使用,才能够发现存在的问题,才能够有针对性地解决数据存在的问题。更重要的是通过应用,各级管理者才会真正认识并重视数据问题,数据问题的解决就有了压力和根本动力。

数据治理是一个长期、复杂的系统工程,企业各层级的数据管理人员必须不断的沟通、教育和推广数据资产价值的重要性以及数据治理职能的业务贡献,充分挖掘企业数据价值,提升企业核心竞争力。数据治理的最终目的是提升企业数据质量,通过有效的数据整合、数据应用与数据服务使企业真正具备业务信息化管理能力,其中数据应用与数据服务离不开面向财务管理、风险管理、绩效考核、客户营销这四个方面的支持。构建全面的数据治理体系,需从组织架构、管理流程和操作规范、IT应用技术、绩效考核支持等四个维度对企业数据模型、数据架构、数据管理 、数据生命周期等各方面进行全面的梳理、建设以及持续改进。

企业通过对数据质量的持续监控,要做到及时发现、及时解决、及时纠正,从源头强化数据质量的控制。通过定期发布数据质量报告、不定期对基础数据进行质量检测和抽查、把外部监管报送数据和内部经营管理数据的准确性和稳定性指标纳入绩效考核等措施手段,不断提升数据质量问题的解决效率并跟踪实际效果,构建闭环的数据质量管理模式。只有不断完善企业的数据治理,建立统一的数据标准,提升数据质量,改善服务水平,才能从海量的数据中挖掘更多的价值。

二、企业数据治理阶段论

1.数据质量梳理

当前,数据大集中是保险行业信息化建设的一个趋势。在数据大集中的环境下,如果没有标准化的数据,业务系统将面临很大的压力和困难,因此需要统一对系统处理的数据进行管理和标准化,构建出一个标准的数据处理平台,处理标准化的数据。企业数据治理的第一阶段是数据质量梳理和分析,其主要目的是构建企业数据标准,形成数据治理规则的雏形。
因为数据标准的制定是实现数据标准化、规范化,以及实现数据整合的前提,是保证数据质量的主要条件。

在这个阶段需要对数据治理范围之内的数据进行归纳和定义。制定出统一的数据标准化方案,使得后续数据治理、数据管控都在都在数据标准化基础之上进行实施。这个阶段主要有三部分的内容:(1)业务梳理;(2)数据梳理;(3)应用梳理。如图3,经过这三个方面的梳理分析,结合国家及保险行业制定的标准,建立适合保企业业自身的数据标准。通过这一系列数据定义、数据格式、数据应用的标准,建立起数据治理过程中相应的数据定义规则、数据清洗规则、数据应用规则。最后,数据标准和规则不是一成不变的 ,它会因为企业管理要求 、业务需求而变化,也会因为社会的发展、科学的进步而不断的推进,这就要求企业对标准和规则进行持续的改进和维护。


图3 数据质量梳理及分析示意图

2.数据质量评估

为了透彻地分析数据治理问题,需要建立数据治理问题的评估标准。从数据治理问题类型来看,数据治理问题可概括为信息标准、数据质量、信息安全三个方面,通常可从这三个方面建立数据治理问题的评估标准。从信息管理的角度看,信息标准、数据质量、信息安全既是金融企业完善数据治理架构、实现高效经营管理的三大支柱,也是数据治理发挥业务作用、体现数据治理商业价值的重要途径。

首页上一页123下一页尾页

 

国内大多数企业的数据治理工作仍然偏重于技术,主要工作还停留在现有业务环节的数据问题等方面,包括现有数据的清理、查重、映射、标准化等内容;而对更深层次的数据治理体系,例如涵盖企业业务数据总线的数据管控体系设计、数据规划设计、数据中心等方面还未有更多进展。

数据质量评估是数据治理的一个源头性问题。尽管对数据质量的涵义有不同的看法,但一般认为数据质量是一个层次分类(category)的概念,每个质量类最终分解成具体的数据质量维度。数据质量评估的核心在于如何具体地评估各个维度,目前方法主要分成两类:定性的策略和定量的策略。对各个维度从定性的角度来分析其“好”或“坏”,这是目前数据质量评估方法的主流。

数据质量的改善和提高是建立在数据质量的评估基础之上,通常对数据质量的评估都需要通过以下几个维度衡量。①完整性(Completeness):完整性用于度量数据是否丢失或者是否可用。②规范性(Conformity):规范性用于度量数据的存储格式是否规范。③一致性(Consistency):一致性用于度量信息数据的值在不同的业务系统中是否存在冲突。④准确性(Accuracy):准确性用于度量数据的正确性和时效性。⑤唯一性(Uniqueness):唯一性用于度量数据的重复性和属性的重复性。⑥关联性(Integration):关联性用于度量数据的可关联性。⑦及时性(timeliness):及时性用于度量交易数据是否延时和有效。

数据质量的评估内容包括关联性、增值能力、时效性、完整性与数据量。关联性是指数据与数据使用者的目标之间应该是相关的。数据质量越高,数据的增值能力就越强;同时,数据的增值能力越强,数据的质量也就相应地越高。时效性也是数据质量的一个非常重要的指标。比如,企业利用顾客的历史数据开展交叉销售,及时的数据才能反映顾客当前的经济状况和需求。数据的完整性对数据的可用程度也是一个非常重要的指标,就信用评级而言,如果数据不完整,信用评级模型的就不能完全反映顾客的真实状况。最后,数据量影响着数据的可代表性和完整性,因此,数据量也是数据质量的重要指标。

从理论的角度对数据质量从若干个维度进行分析和评估比较常见,但很少有文献和技术探讨和实现具体的维度评估方法。从宏观而言,通过数据整体统计分析、数据局部细节探查、数据的关联性分析等操作,获得表象的数据质量问题汇总报告,再进一步对数据库中主数据、敏感数据、数据库对象等作深入分析,并借助人工探索或者智能探索(数据质量检查软件等)将数据质量问题作深入的剖析,由表到里,由浅至深,发现数据质量所导致的根源问题。而对于生产环境,我们通常无法直接在生产库上做一系列数据质量评估的操作。通用的流程如图4所示,自下而上,自左至右,源系统卸载接口文件,在通信服务器进行文件级和记录级别的检查。在数据准备区进行键值及关联性检查;在数据整合区,接收数据质量评估维度的检查(包括完整性、规范性、一致性等),数据质量评估各个维度的检查是数据质量评估的重要环节。最后,在数据集市层进行业务指标的校验。这一系列的检查校验结果均和数据质量评估体系进行交互并最终汇总,从而形成全面而深刻的数据质量评估报告。


图4 数据质量质量评估流程示意图

3.数据质量改善

数据质量的改善由数据质量评估(DQA)作为开始,数据质量改进的方法并不单一,目前主要涉及实例和模式两个层面。数据清洗(data cleansing, data scrubbing ) 是数据质量改善技术研究的主要内容,它主要关注于数据实例层面的问题,集中在重复对象检测、缺失数据处理、异常数据检测、逻辑错误检测、不一致数据处理等几个方面。具有代表性的是在线数据清洗方法,它是在有干净参照表的条件下进行数据清洗的方法,其基本思路是首先对干净的参照表数据建立一个 ETI(error tolerance index)索引,每一个在线输入的数据根据这个索引迅速找到与之最匹配的干净记录, 然后用它来取代, 从而完成对输入数据的在线清洗。

XML数据作为具有代表性的半结构化数据,已成为网上数据传输和交换的标准,相比于传统的关系数据库数据,识别层次状的XML数据中的重复元素时,要面临着两个挑战性的问题:结构的多样性、复杂的元素和子元素间的依赖关系。为了解决XML文件的多样性问题,有研究者采用 XQuery 语言将具有不同子树结构的XML元素变换成统一的结构,并将同层次的XML元素的内容合并为一个元素来处理。但这种方法由于混淆了具有不同标签(元素名)的数据进行相似性计算,会损失精度。

图5从数据质量评估报告作为出发点,通过数据质量问题的深入调查,设计数据标准化规则,在对问题数据进行解析和标准化处理后,匹配相似的记录并基于预设的标准执行消除和整合,最终实现问题数据的重新生成。数据标准化-数据匹配-数据重新生成也被称为数据的重构。


图5 数据质量改善示意图

4.数据质量监控

要建立一定的监控机制,以确保数据治理过程被合理地实施,同时及时查找问题,发现问题,解决问题,减少损失,提高数据质量和实施数据质量改进工程的效果是数据质量监控的主要目的。数据质量持续监控,一方面确保为将来提供准确、一致和及时数据,使数据始终符合数据质量业务规则,确保企业数据始终保持最高的质量并防止随时间推移导致数据质量下降;另一方面基于企业对数据质量问题处理的要求合理制定数据质量监控处理流程,方便问题数据的处理和清洗。快速定位数据质量问题影响范围,通过元数据关联关系分析,可定位问题数据出错的源头和受影响的范围,及时通知关联方,降低由数据问题带来的影响。

图6描述了数据质量监控的示意图,以数据质量监控为核心,一方面元数据管理(元数据存储库)结合由数据质量管理所配置起来的一系列数据质量检查规则,形成数据质量检查知识库;另一方面数据集成平台持续不断地为数据质量监控平台服务,提供问题和劣质数据,数据质量监控平台经过一系列的检查和校验不断更新和新增数据质量检查知识库。这样,数据质量评估报告会更加全面和准确,同时可以对数据监控策略做相应的修正,形成良性交互。


图6 数据质量监控示意图

三、结束语

数据治理作为信息化过程中的必经之路,需要长期稳定、持续不懈的推进,企业高层决策者的战略支持和持续的资源投入是获得数据治理成效的重要保障。目前,国内大多数企业的数据治理工作仍然偏重于技术,主要工作还停留在现有业务环节的数据问题等方面,包括现有数据的清理、查重、映射、标准化等内容;而对更深层次的数据治理体系,例如涵盖企业业务数据总线的数据管控体系设计、数据规划设计、数据中心等方面还未有更多进展。期望国内企业会借鉴国外先进企业的数据集成、数据服务、数据管理的经验和优秀的数据治理构架策略,从组织、标准、流程、质量、运营等方面构建企业全生命周期的数据治理体系,不断探索建立数据治理机制的有效方式,切实提升企业信息化的应用水平,获得持续的核心竞争力。

文章来源:cfc365.com,如有侵权请联系:mjxxc@mingin.cn。 (责任编辑:鸣金网YAN)

收藏

分享