数据智能时代:数据体系建设的实质、思路和方式

 

近日,Google Devfest 2019广州国际嘉年华圆满落幕,个推作为协办单位出席了本次大会。现场,个推CTO叶新江以“数据智能时代下数据体系建设的实质、思路和方式”为主题,分享了个推在数据智能领域的技术实践。

 

(以下根据演讲内容整理)

 

二十一世纪,互联网新科技层出不穷。伴随着大数据、云技术以及整个算力的发展,人工智能技术的研究及应用也迅速壮大,在语音、图像和自然语言方面取得了卓越的成绩。更为重要的是,政府也在大力发展数字经济,包括党的十九届四中全会首次增列了“数据”作为生产要素,这也进一步反映了随着经济活动数字化转型的加快,数据对提高生产效率的乘数作用凸显,成为最具时代特征新生产要素的重要变化。个推作为专业的数据智能服务商,于2010年成立至今,在大数据技术的发展过程中,收获了一些成果,也得到了自己的经验和体会。

 

2019年3月,个推(每日互动,300766.SZ)在创业板上市,主打数据智能。公司在该领域积极布局,并在实践中探索总结了数据沉淀、数据挖掘和数据应用的“三步走”数据智能方法论。关于底层,个推提供了消息推送、用户画像、应用统计、一键认证四种开发者服务,同时沉淀了海量数据;中间层是个推引擎层,通过对数据脱敏、筛选、清洗、整理,并经深度挖掘后建模,自主构建“个推大数据平台”。最上层为数据应用层,提供品牌营销、风控服务、人口空间规划、公共服务等多种大数据服务,增能诸多垂直领域。

 

 

本文将结合个推实践,主要围绕三个方面进行展开:数据智能时代的特征、企业面临的实际挑战、数据智能体系建设思路。

 

数据智能时代的特征

 

数据智能时代已经来临,如同《大数据时代》中阐述的那样,我们发现并印证了大数据对我们思维、商业、管理等方面存在着巨大的影响。

 

思维变革

 

在思维变革方面,我们认为数据智能时代的特征可以归纳为三点:更多、更繁杂、更相关。更多,意味着人们不再依赖于一小部分数据,而是使用全部数据,并从第三范式向第四范式跃进。

 

那么,第三范式和第四范式的区别是什么呢?以“雾霾形成的原因”为例进行说明。第三范式的雾霾研究过程是:首先,提出问题。比如说,想了解雾霾是什么?怎么预防?其次,提出理论。根据已有的机理认识,雾霾天气的形成不仅与源头、大气化学成分相关,还与气象因素,包括地形、风向、温度、湿度等有关。而参数之多,超过了我们常规监测的能力范围。

 

为此,我们只能去除一些看起来不怎么重要的参数,保留一些简单的参数,提出一个理论。然后收集数据、模拟计算,并根据计算结果对理论进行修正。最后获取可信度比较高的结果,对雾霾天气进行预测。

 

相对应地,第四范式的研究方法是怎样的呢?它的第一个环节与最后一个环节跟第三范式相同,但在中间两个环节两者顺序是相反的,即在第四范式中,我们要先进行数据收集再形成理论。

 

在第一步问题提出后,我们首先去做的并不是创建一个理论模型,而是把所有可能有用的数据收集起来,然后在此基础上通过机器学习的方法,或者说人工智能的方法,找出对于雾霾形成影响较大的因素,进而提出有关理论。最后,进行预测,验证结果。得益于大数据的出现,第三范式才能向第四范式跃进,这也带来了整个思维方式和方法论的变革。

 

思维变革的第二个特点是更繁杂,即从精确性向概率性的转变。精确性作为信息缺乏时代和模拟时代的产物,要求数据保证质量、减小误差。而大数据时代,海量的数据使我们无法一一验证数据的准确性。更多情况是,我们通过整个数据的分布,找出数据背后的概率性,然后找到有用的数据,剔除没用的数据。

 

思维变革的第三个特点是更相关。数据之间不是因果关系,而是相关关系,核心是建立在相关关系分析法上的预测。

 

总结起来,大数据时代思维变革的特点可以归纳为:

 

  1.  改变操作方式,使用收集到的所有数据,而不是样本;
  2.  不把精确性作为重心;
  3.  接受混乱和错误的存在;
  4.  侧重于分析相关关系,而不是预测背后的原因。

 

商业变革

 

在商业变革方面,数据智能时代的特点主要有三:一切皆可量化、无限的创新可能、数据的选择价值。

 

“一切皆可量化”指的是随着数据智能时代的发展,我们会发现身边所有的东西都在产生数据,也就是说我们所处的现实世界,与信息世界存在着对应关系。未来,我们物理世界里的每一种事物都将与数字孪生世界里的一一对应。

 

数据的真实价值犹如冰山,首要价值只是上面看得见的部分,而背后蕴藏着“无限的创新可能”。数据在完成直接的业务用途之后,看似好像没有用了,但是一旦跟别的行业数据结合,我们会发现其协同效应非常强,可以创造出巨大的使用价值。也就是说,目前看似没有价值的业务数据或许在以后能发挥出重要作用。因此我们建议数据较为丰富的企业或者公司,最好能从现在开始,把业务数据通过某种方式予以保存,譬如采用数据湖的方案。

 

数据的价值是其所有可能用途的总和,面对这些无限可能的潜在用途就像是在选择,这些选择的总和便是数据的价值,即数据的选择价值。

 

总结起来,在商业变革方面,数据智能时代的特点主要可以概括为:

 

  1. 数据的选择价值意味着无限可能;

     2.数智时代要求我们对待数据有别于传统资产;

     3.数据的创新意味着很大的不确定性。

 

我们面临的实际挑战

 

数智时代我们面临挑战的本质在于数据组织及管理要求(侧重稳定性)与业务的创新需求(侧重灵活性)的冲突。

 

使用数据核心要解决的几个问题

 

数据不可知:用户不知道大数据平台有什么样的数据,也不知道这些数据和业务的关系是什么。虽然用户意识到了大数据的重要性,但不清楚平台中是否存在能解决业务问题的关键数据以及该如何寻找相关数据。

 

数据不可控:数据不可控是从传统数据平台开始就一直存在的问题,在大数据时代表现得尤为明显。缺乏统一的数据标准导致数据难以集成,缺乏质量控制导致许多数据因质量过低而难以被利用。 

 

数据不可取:用户即使知道自己业务所需要的是哪些数据,也不能自助便捷地拿到数据。实际上,数据获取需要很长的开发过程,漫长的需求响应与大数据时代需要快速出具问题解决方案的目标相违背。

 

数据不可联:大数据时代,企业虽然拥有海量数据,但企业数据知识间的关联还比较弱,尚未把数据和知识体系关联起来。此外,企业员工难以做到数据与知识之间的快速转换,无法对数据进行深入探索和挖掘,这导致数据的深层价值难以凸显。

 

我们在公司内部对数据问题进行收集,发现存在几大困难点:业务响应速度慢、数据质量问题频发、数据使用难且取数慢、开发效能低、试错成本高以及数据能力重复建设等。

 

 

数据智能技术体系建设思路

 

总体目标

 

1.敏捷地支撑业务部门的创新需求,打造快速响应商业需求的服务能力;   

2.把不同领域的数据实时打通,体现数据的最大价值;

3.把数据作为资产进行管理。

 

大多数情况下,我们通过业务的需求,反过来推进公司数据智能体系的建设,其直接的价值体现是成本节约、效率提升和质量提升。 

 

建设思路和原则

 

1.主要面向内部客户,特别是公司的研发人员及建模人员,以提高业务开发效率为目标;

2.做好元数据、血缘关系管理,提高数据治理程度,以保证数据的质量和安全;

3.提炼公共服务能力等复用程度高的能力优先建设,如:数据提取分析速度、数据治理平台、数据开发平台;

4.数据能力原则上由相应领域熟悉业务,有一定技术积累的团队一起参与建设;

5.能力建设需要重点考虑几大标准:稳定、易运维、可运营、可审计。

 

在能力建设方面,公司可以设立三层结构:底层是技术中台;中层是数据中台;上层是业务系统。需要注意的是,有了平台并不意味着问题就解决了。我们认为最理想的方式是平台与人的能力相结合。平台沉淀证明了的、可复用的能力;而人更多地去应对创新需求,利用知识创造工具和完善平台。这也是一个螺旋上升的过程。平台需要专门的人进行运营、推广;业务需要有会使用平台的、能快速产生解决方案的人,来保证与平台人员的良好沟通与协作。

 

基于这样的想法,个推在公司的组织保障上构建了这样一个体系:上层目前是虚拟的数据中台部,在合适的时候会成为一个实体部门。架构组与技术组参与建设数据中台。此外,我们把部分与数据相关的技术人员派驻到业务部,这样不仅能更好地把数据应用于业务,还能让他们把业务部门的使用效果及问题予以反馈,以此形成一个闭环,我们把它称之为DO(Data Owner)。

 

互联网的发展将大家带入了大数据时代,而数据智能时代是大数据时代一个重要的发展阶段,机会与挑战并存。个推将积极把握机会、应对挑战,不断探索数据智能与行业应用的结合点,以创新的技术为开发者提供增能服务、为移动互联网和品牌营销等各垂直领域提供定制化的大数据解决方案。未来,个推将持续用数据的力量,携手更多的行业伙伴,创建数据智能共赢生态!

  • 在线咨询
  • 技术咨询
  • 业务咨询
  • 电话咨询