个推TechDay治数训练营第四期《标签体系建设实践》
- 数据智能
- 大数据
标签作为当下最普遍的数据资产类型之一,对企业洞察用户画像、开展精细化运营等具有重要的支撑作用。企业标签体系的建设并非一蹴而就的,需要结合业务视角进行整体的规划,更涉及到复杂的数据治理和数据资产管理等工作。
本文对个推TechDay“治数训练营”第四期进行了回顾,为大家分享企业级标签体系的建设方法论、搭建流程及实践经验。
课程回顾
当前不少企业都已经或正在投入建设自身的标签体系,但是由于数据未得到有效治理、缺少整体的标签体系规划、未能对标签数据资产进行持续的运营管理等原因,一些企业在建设标签体系的过程中仍然面临标签数据用不起来、数据经验无法沉淀等难题。
针对以上情况,个推深度梳理自身标签体系建设经验,最终总结出企业级标签体系建设的方法论,通过简单五步即可完成高质量标签体系的构建。
一、确定目标
首先,我们需要根据业务需求来确定标签体系的建设目标。根据标签的使用场景,标签体系的建设目标可分为业务目标和系统目标两种。
①业务目标,指的是最终给业务带来实际收益的目标。比如通过标签体系的建设和应用,使用户的次日留存率提升20%。
②系统目标,指的是使用功能和系统性能等方面的目标要求。比如最终建设完成的标签系统/平台要能够支持可视化创建和管理标签;在性能方面,能够在1小时内完成千万级用户的标签计算和目标圈选。
二、标签体系设计
确定了标签体系建设目标后,接下来要开始标签体系的顶层设计。这其中,有以下几个核心问题需要关注:
1.如何确定标签目录?
我们建议企业充分结合业务需求和数据资产情况来确定标签目录,由“业务+数据”共同驱动标签的生产。
业务驱动比较好理解,即根据业务诉求来确定要生产的标签,比如企业为提升风险识别能力,需要创建“风险账号”和“黑名单”等标签;而为了提升付费转化率,可以创建“商品偏好”和“价格敏感度”等标签。
数据驱动是指基于数据资产情况提出标签需求。一般而言,业务人员更聚焦业务,对于底层数据情况往往了解较少。这就需要数据开发工程师、数据分析师等深度介入,从数据资产中挖掘和提炼出有价值的标签,比如根据场景偏好数据,提炼出常驻地、旅游地偏好等标签;根据电商APP端内数据,提炼出消费水平、消费偏好等标签。
值得注意的是,企业在实际设计标签目录和标签体系的过程中,并不是仅仅依靠单纯的业务驱动或单纯的数据驱动就能实现,而是需要业务方和数据方不断沟通磨合,将业务需求和数据资产情况进行匹配,最终完成一份标签目录的设计。
经验总结
关于标签目录的确定,经常会遇到以下两个常见误区。
误区一:标签越多越好。其实业务方并不需要过多的标签,一般来说20%的标签就能满足业务方80%的需求。
误区二:标签越高级越好。一些算法工程师或技术人员往往花费大量的时间优化模型,构建复杂的模型标签。其实,把基础标签、规则标签做好,基本就能满足业务方的绝大多数需求。
因此企业在建设标签体系的过程中需要考虑投入产出比,评估标签的实际应用需求强度、衡量不同标签对业务的提升效果。
2.当前数据基础能否支撑标签体系构建?
数据建设是标签体系的基石,企业只有打好数据基础,才能构建出一套高质量的标签体系。因此在进行标签体系的搭建之前,企业需要对数据进行综合治理,提升数据的质量和可用性。
3.如何确定标签规则?
根据生产方式的不同,标签可以分为事实标签、规则标签、模型标签等类型。
事实标签的规则定义比较简单,数据分析师在理解业务数据的前提下,从业务方的原始数据中提取即可。比如从用户注册信息中提取用户来源渠道、性别或者年龄阶段等标签。
规则标签拥有很强的业务属性,需要业务人员和数据分析师一起去分析探索,基于原始数据进行标签规则的创建和拼接。比如要创建一个“大学生”标签,那就需要从各个维度对“大学生”进行特征定义,比如年龄方面一般在18-25岁之间,线上应用偏好方面安装了一些大学生课程管理类App等等。
个推每日治数平台DIOS实现智能特征洞察
结合自身标签体系建设实践以及服务行业客户的经验,个推发现,标签规则定义是企业搭建标签体系过程中所普遍面临的痛点、难点。即使是专业的数据分析师团队和业务专家也需要先花费大量的时间和精力去理解数据和用户之间的关联性,再从中提炼出标签规则。
为了提升企业客户的标签生产效率,个推打造的数据智能操作系统——每日治数平台DIOS,实现了目标智能特征洞察以及智能数据推荐,帮助客户快速定位所需数据、自动提炼标签规则,更加高效地进行标签生产。
模型标签往往是参考已有事实数据来预测群体的偏好、特征和分类,例如根据流失用户群的特征来预测其他用户群的流失概率。一般在事实标签和规则标签的覆盖量级、饱和度、准确度等不足的情况下,我们就需要创建模型标签,来满足相关业务需求。
个推每日治数平台DIOS实现零代码搭建机器学习模型
传统的模型标签创建流程还是比较复杂的,涉及到算法开发、模型搭建、模型调优等复杂的工作。个推每日治数平台DIOS将自身建模方法论“五步法”产品化,实现了零代码建模能力,没有编程经验的业务人员也能在DIOS的可视化界面上拖拖拽拽,快速完成机器学习模型的搭建。
三、标签开发
完成了整体的标签体系设计,接下来就进入到标签开发环节。一般而言,标签开发的过程可以拆解为工程开发、工程测试、工程上线等三个阶段。在工程开发阶段,研发工程师根据标签规则以及数据源情况进行工程的开发;然后由测试工程师结合业务诉求及工程结果对标签质量进行测试验收,确保标签准确性后最终上线。
这其中涉及到一个非常重要的问题,即如何对新构建的标签进行准确性校验。
常见的校验方式有三种:
①通过TGI进行逻辑自洽性校验。比如新构建了一个男性标签,通过TGI发现被打上男性标签的人群中有很大一部分也被打上了女性的标签,显然这是一种很不合理的现象。(说明:“TGI”指的是洞察人群某特征占比与对照组人群该特征占比的比值,用于比较人群间的特征差异。)
②使用第三方平台校验。比如通过广点通,使用第三方数据来进行准确性的校验。
③进行广告投放。圈选不同标签下的目标群体,进行A/B测试,根据投放结果校验标签的准确性。
完成了工程测试和标签准确性校验,就可以正式上线运行标签体系。我们建议,企业可以先在实际业务场景中进行小范围的多次检验,再大规模进行标签体系的上线,避免后期出现大范围的调整和改动。
四、标签全生命周期管理
作为一种重要的数据资产,企业还需要在标签体系上线以后,对标签资产进行全生命周期的精细化管理。
此外,我们还建议企业建立标签质量保障体系,设立责任人制度,确保标签第一负责人能够及时响应相关事项;梳理标签开发、上线的流程和经验,实现后续标签的开发、测试、上线等流程规范化和标准化;更加体系化地进行标签质量监控,比如通过定时工程监控标签计算工程、量级、饱和度等信息。
五、应用与反馈
企业建立标签体系的最终目的是服务业务。常见的标签业务应用场景有几种:
①开发数据类产品。比如智能推荐系统正是基于标签大数据和算法实现。
②用于目标群体的特征洞察和圈选。比如个推基于自身数千种标签和亿级别的特征数据,帮助品牌主、APP对细分人群进行画像分析,并使用不同的标签组合,智能圈选出符合目标特征的人群,为客户做广告投放、用户触达提供支撑。
③精细化运营。完成对目标群体的画像洞察后,就可以进行更加精细化的运营。比如品牌主可以针对不同兴趣偏好的消费者群体制定差异化的广告素材、选择不同的媒体平台,提升广告投放效果。
针对在不同场景下的标签应用结果,企业还需要做好后效的分析,科学评估标签的质量、覆盖度等,并把新产生的下游数据进行入库处理,使整个标签体系的全生命周期得到体系化的管控,真正实现数据资产的持续增值。
以上是对个推TechDay“治数训练营”第四期直播内容的回顾,大家可以观看直播回顾视频进一步了解标签体系建设的相关要点。
关注个推技术实践微信公众号,后台回复“标签”,获取本期直播课件~
2022年已经接近尾声,个推TechDay“治数训练营”系列直播课(第一季)到这里也正式收官啦!大家可以关注个推技术实践视频号,查看往期精彩课程。
-
每日互动官方微信号
公司动态、品牌活动
-
个推官方微信号
新品发布、官方资讯
-
个推技术实践
技术干货、前沿科技