欢迎访问来到第一主机,开始互联网之旅!
正文

如何成功实现数据治理2017-06-28

如果你处理过大量数据,你也许听说过“数据治理”一词,你可能会想,它是什么?适不适合你?如何实施?简单来说,数据治理就是处理数据的策略——如何存储、访问、验证、保护和使用数据。数据治理包括制定获取方案:谁能访问、使用和共享你的数据。

这些问题正变得越来越重要,因为企业依靠收集、存储和分析大量数据,来达成业务目标。数据变成了企业的盈利工具、业务媒介和商业机密。数据泄露会导致法律纠纷,还会令消费者对公司的核心业务失去信心。

如果心存侥幸,全凭各个部门自行处理数据,那么你将缺乏统一管理数据的策略,也许会让各个部门制定自己的策略。这是无法想象的,就像是缺乏管理实物库存的策略,允许各个实体部门随心所欲地生产、储存和销售产品一样。数据使用不当就像库存使用不当一样,会给企业造成数百万美元的损失,因此必须制定策略,使数据具有一致性和安全性,并随时可用。这些应用于数据领域的策略就构成了数据治理。

数据治理的特点

数据治理策略必须涵盖数据的整个生命周期,从数据收集一直到数据管护。在这个生命周期中,数据治理必须解决以下问题:

· 从哪里获取数据以及如何获取,这是数据生命周期的起点。数据来源决定了数据治理策略的基础。例如,数据来源所决定的一个重要因素是数据集的大小。是从目标市场、现有客户和社交媒体收集数据?还是使用外部供应商收集数据或者分析你收集的数据?输入数据流是什么?数据治理必须着眼于这些问题,制定策略来管理数据的采集,引导外部供应商处理他们收集的数据或者分析你收集的数据,控制数据的路径和生命周期。

· 验证数据,尤其是验证多来源数据,这是一个让数据管理者十分头疼的问题。区分重要数据和噪声数据只是这个问题的开始。如果你是从附属企业收集数据,你必须确保数据是可靠的。如果你是从社交媒体网站收集数据,在你的策略中,必须有一种验证重要数据的方法。任何情况下,你都必须确保收集的数据是合法的,并且没有被篡改——这个问题在并行计算环境中尤其令人担心,因为并行计算常常被用来收集大量数据,这往往会使用云服务,故而增加了安全隐患。

· 数据治理策略必须解决存储问题,而存储方案在很大程度上取决于数据集的大小。以PB计的大数据必须存储在安全的冗余系统中,常常利用层次体系,根据使用频率来提供数据。这样一来,昂贵的在线系统提供的是被频繁请求的数据,而请求频率较低的数据则存储在不那么昂贵、可用率较低的系统上。不幸的是,这些优先级较低的系统也可能安全性较低,从而允许访问敏感但请求频率低的数据。因此,在制定数据存储方案时,良好的数据治理策略必须考虑到方方面面的因素。

· 数据治理必须制定访问控制策略,在需求和安全之间找到平衡。要让那些需要数据来完成工作的人,可以在必要时无障碍地访问数据。出于安全原因,他们能够访问的数据不应该超出他们的权限。数据应该在请求合法的前提下,才能被访问,但出于安全原因,对敏感数据应该加大访问难度,只向具有特定安全级别的用户开放。应该对用户和数据本身设置访问级别,管理账户时,应与人力资源部和采购部紧密互动,这一点非常重要,因为这样可以及时地使离职员工和停止合作的供应商不再拥有访问权限。处理好这些细节以及确保数据所有权和责任,这是构成完整的数据治理策略的一部分。

· 使用/共享/分析。数据如何被使用是数据治理策略至关重要的一部分。潜在用途包括,使用数据来管理账户,改善客户体验,投放定向广告,提供市场分析,与附属企业共享数据。必须仔细界定哪些数据可用于共享或者用于营销,并保护它们免遭攻击和泄露,因为数据本来就应该被用于纯粹的内部用途。要让客户知道,收集数据的所有公司都必须遵守数据使用和共享方面的规定。能够确保数据使用合规,这是拥有数据治理策略的另一个重要好处。

· 收集、验证、存储、访问和使用都是安全计划的必要组成部分,必须有一个全面的策略来解决这些问题以及其他安全问题。安全计划必须在不禁止用户使用的情况下发挥作用,但数据生命周期的各个阶段都可能因为疏忽大意而遭到攻击和泄露。对安全的追求必须是支持而不是妨碍必要的使用。数据治理策略必须制定数据安全方案,包括访问协议、对静态数据和传输中数据进行加密,等等。

· 管护/元数据。没有管护的数据生命周期是不完整的。管护的一个例子是把元数据应用于一个数据,以便识别检索。元数据包括数据的来源、生成和/或收集的日期、访问级别信息、语义分类以及企业需要的其他属性。数据治理能建立一个元数据词汇表,界定数据的有效期。要记住,数据也会过期,到某个时候,也许只能用于历史数据分析。

数据治理的组织问题

在创建数据治理的过程中,常常会遭到抵制,因为有些人担心无法再访问他们需要的数据,还有些人出于竞争的考虑,向来不愿共享他们的数据。数据治理策略必须消除这些担忧,让各方面的人都能接受。习惯了数据筒仓环境的公司,可能不太容易适应新的数据治理策略,但如今对大型数据集的依赖以及随之而来的诸多安全问题,使创建和实施覆盖全公司的数据策略成为一种必然。

数据日益成为企业基础设施的一部分,在企业一步步处理各种特定情况的过程中,决策就这样形成了。它以一次性的方式作出,常常是对某一特定问题的回应。因此,企业处理数据的方法会因为不同部门而改变,甚至会因为部门内部的不同情况而改变。即使每个部门已经有一套合理的数据处理方案,但这些方案可能彼此冲突,企业将不得不想办法调解。弄清数据存储的要求和需求是一件难事,如果做得不好,就无法发挥数据在营销和客户维系方面的潜力,而如果发生数据泄露,你还要承担法律责任。

另外一个问题是,在一家大公司里,部门之间会争夺资源,还会展开竞争,让自己的需求被领导听取。各部门只需要确保自己的生存能力,无论是盈利业务,还是支持中心,都是如此,因此它们视野狭窄,只注重自身需求,很难在没有调解的情况下达成妥协。