中国科学网手机版

首页 > 科技 > 资讯 > 文章详情页

百分点科技发布数据治理“PAI”实施方法论

 编者按:

数据作为第五大生产要素,已逐渐成为政府和企业决策的重要手段与依据。面对数据多样化、数据需求个性化、数据应用智能化的需求,以及在2B和2G行业中数据质量参差不齐、数据应用难以发挥价值、数据资产难以沉淀等问题,如何做好数据治理工作、提升数据治理能力成为了政府和企业数字化转型的重中之重。

百分点大数据技术团队基于多年的数据治理项目经验,总结了一套做好数据治理工作及提升数据治理能力的实施方法论。

结合数据治理项目实际落地实施过程以四大能力构建、PDCA实施指导思想提出了“PAI”实施方法论,即流程化(process-oriented)、自动化(automation)、智能化(intelligence)三化论,以逐步递进方式不断提升数据治理能力,为政府和企业后续的数据赋能业务及数据催生业务创新打下坚实基础。

流程化将数据治理项目执行过程进行流程化梳理,同时规范流程节点中的标准输入输出,并将标准输入输出模板化。另外对各流程节点的重点注意事项进行提示。

自动化针对流程化之后的相关节点及标准输入输出进行自动化开发,减轻人力负担,让大家将精力放在业务层面及新技术拓展上,避免重复人力工作。如自动化数据接入及自动化脚本开发等。

智能化针对新项目或是新领域结合历史项目经验及沉淀给出推荐内容,比如模型创建、数据质量稽核规则等。

一、数据治理流程化

2. 概要设计

3. 详细设计

详细设计针对项目实际落地的工作模块分别进行设计,明确每部分实现的设计,具体模块、工作内容、输入、输出如下所示:

二、数据治理自动化

在将数据治理项目流程化以后整个工作内容及具体工作产出已经比较明确了,但是会发现流程中会涉及到大量的开发工作,同时发现很多工作具有较高的重复性或相似性,开发使用的流程及技术都是一样的只是配置不同,因此针对流程化以后各节点的自动化开发应运而生。通过配置任务的个性化部分,然后统一生成对应的开发任务或脚本即可完成开发。

自动化处理一般有两种实现路径,其一是采购成熟数据治理软件,其二是自研开发相应工具。其中数据治理过程中可实现自动化处理的流程节点如“工序”标蓝色部分:

注:对于需求调研、模型设计等流程节点因为涉及到线下的访谈、业务的理解更多的是与人的沟通交流,进而获取相应的业务知识及需求,并非单纯的计算机语言同时“因人而异”的情况也比较常见,所以此部分相关工作暂时还以人工为主。

因数据接入、脚本开发及数据质量稽核在日常工作中占用时间较长,下面将详细讲解此三部分内容。

三、数据治理智能化

总结

流程化是数据治理工作开展第一步,是自动化和智能化的基础,将数据治理各节点开展过程中用到的内容进行梳理并规范,包括:业务流程图、网络架构图、业务系统台账等,行业知识梳理完善以后形成行业版知识(抽离通用版),如标准文件梳理:1.代码表整理,2.数据元标准整理(数据仓库行业模型对应标准梳理)。

自动化是将流程化标准后的工作进行自动化开发,涉及仓库模型设计、标准化、脚本开发、DQC、指标体系自动化构建,包括:自动化程序生成和自动化检查。自动程序生成一是解放生产力,提高效率而是提升开发的规范化。自动化检查包括:1.发现数据问题,出具质量报告(唯一性、空值等通用问题),2.行业知识检查(行业版内置,不同行业关注的重要数据问题,并且会不断完善知识库)。

智能化是在流程化、自动化基础之上针对数据拉通整合、主题模型、数据加工检查给出智能化建议,减少人工分析的工作。

总体思路先解决项目上标准化执行问题,然后提升建设效率及处理规范化问题(自动化处理),最后基于业务知识的沉淀最终实现全流程智能化构建。

【版权声明】凡本站未注明来源为"中国科学网"的所有作品,均转载、编译或摘编自其它媒体,转载、编译或摘编的目的在于传递更多信息,并不代表本站及其子站赞同其观点和对其真实性负责。其他媒体、网站或个人转载使用时必须保留本站注明的文章来源,并自负法律责任。 中国科学网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。

 
 
 

分类导航

关于我们 | 网站地图 | 网站留言 | 广告服务 | 联系我们 biz@minimouse.com.cn

版权所有 中国科学网www.minimouse.com.cn

{"error":401,"message":"site error"}http://www.minimouse.com.cn/plan/2021/0402/88370.html