个推TechDay直播回顾 | 免费领取《大数据降本提效实战手册》及直播课件
- 数据智能
- 大数据
- 系统架构
近日,个推TechDay“大数据降本提效”技术直播专场圆满举办。来自每日互动(个推)的大数据研发工程师以及行业的技术专家,围绕大数据任务优化、标签存算、透明存储、在/离线混部等内容,从实战出发,为大家深入解读了大数据降本提效的破局思路。
个推还重磅发布了业内首本《大数据降本提效实战手册》。手册集技术解析、应用实践于一体,深度剖析了七大经典存算场景实践,分享了Flink、Spark等多个主流大数据引擎的调优技巧,干货满满,不容错过!
直播回顾
接下来本文对直播间三位讲师分享的干货内容进行了提炼总结,同时也挑选了直播间的精彩提问做了Q&A梳理。
一、个推透明存储实践
分享嘉宾:筱得 个推数据部降本提效团队 资深数据研发工程师
列式存储(Column-oriented Storage)是大数据场景中面向分析型数据的主流存储方式。与行式存储相比,列式存储只提取部分数据列、同列同质数据,具有更优的编码及压缩方式。目前,个推的核心数据正逐步切换为Parquet等新型数据格式存储以获得更高的I/O性能和更低的存储成本。
筱得围绕透明存储概念、文件读取流程、透明存储实现方式等,为大家详细解读了个推透明存储优化的全过程。
Q&A
Q1:如何量化和评估透明存储的收益?
A:量化维度分两方面,首先是从提效方面来衡量,即使用效率是否提升,比如用户(数据分析师)处理业务需求时的数据使用效率提升情况。目前我们结合多个类型的任务综合来看,透明存储能够使跑数时间缩短30%;其次是降本方面,即资源消耗是否有减少,可以通过CPU核的使用时长以及内存使用时长进行量化评估。
Q2:透明存储如何实现历史工程对数据格式的兼容和切换?
A:在兼容方面,我们是通过扩展Hadoop的读写API,来增加存储格式自动识别和切换能力;在切换方面,我们先对Hadoop、Spark的提交命令进行了扩展,增加hook,并引入了切换数据格式的黑白名单,从而让任务启动时能够获取要变更的信息;通过以上方式,最终实现了对历史工程的数据格式无感知切换。
二、标签存算在每日治数平台的实践之路
分享嘉宾:之昂 个推每日治数平台团队 高级数据研发工程师
个推依托海量数据资源和强大的建模能力,形成3,000余种数据标签,构建了丰富、立体、多维的画像标签体系,从而为行业客户提供数据洞察相关服务,比如APP精细化运营、广告投放人群定向等。
由于业务方的标签组合复杂多样,所以在对大规模数据进行计算和标签构建的过程中,如何加速标签计算,实现秒级人群圈选和洞察便成为我们需要攻克的难题。
之昂基于每日治数平台DIOS的开发实践,深度剖析了有效提升标签存算以及人群圈选效率的核心技术手段。
立即观看直播回顾视频,了解每日治数平台如何实现秒级人群圈选和洞察!
Q&A
Q1:Spark的shuffle和Hadoop的shuffle(MapReduce)有什么区别?
A:MapReduce的shuffle和Spark的shuffle在功能上是几乎没有区别的,都是对Map端的数据进行分区(有聚合排序和不聚合排序两种方式),然后在Reduce端或者下一个调度阶段拉取数据,从而完成Map端到Reduce端的数据传输功能。
Q2:直播中讲到ClickHouse不支持高并发,原因是什么?对于集群的ClickHouse写入,有哪些需要注意的地方?
A:ClickHouse之所以快是因为底层采用了并行处理机制,默认单次查询使用的CPU核数是服务器核数的一半,所以对高并发的使用场景支持得不是很好。如果一定要支持高并发,建议在查询层增加限流。
三、提升IT资源效率,显著降低IT总投入
分享嘉宾:杨少华 中科院计算所博士,前阿里大数据平台ODPS/MaxCompute主要创始成员,现任贝联珠贯合伙人、大数据团队负责人。
降低企业IT成本的一个有效手段是大幅提升IT资源的利用效率。麦肯锡的一份研究报告显示,全球服务器的平均每日利用率通常低于10%,Flexera的一份报告也显示,企业上云后平均浪费了30%的云支出,云成本优化是企业在2021年最想做的事情。那么如何提升IT资源效率,降低IT总投入?
来自贝联珠贯的杨少华博士为大家分享了大数据任务优化、在/离线混部等能够有效提升IT资源效率的核心技术手段。
-
每日互动官方微信号
公司动态、品牌活动
-
个推官方微信号
新品发布、官方资讯
-
个推技术实践
技术干货、前沿科技