三种AI技术帮你判别谁才是真正的工藤新一
- 大数据
作者:包包大人 数据建模工程师
前言
2019年,《名侦探柯南:绀青之拳》上映,内地票房1.66亿,成柯南剧场版内地票房历史最高。“新兰”关键词三冲微博热搜,画面是这样的。
满屏都是甜甜甜。新兰两人“聚少离多”,小编不禁着急起来,毛利兰何时才能真正认清“真爱就在眼前呢”?在过去的900多集中,小兰多次怀疑过柯南就是新一,却又遗憾错失真相。作为柯南粉,小编在回顾柯南电视剧及剧场版的各大经典场景时,总结了三套AI技术,能从细节入手,快速整理线索,帮助判别小学生柯南就是新一本人,而假扮新一的怪盗基德不是新一。一起来看看吧。
一、关系型数据的清晰展示:图数据库
柯南全集涉及几千个人物,关系错综复杂,即使是老粉也难免遗忘各种细节,更不用提小兰当局者迷。该如何理清二次元世界中的关系网络呢?首选当然是图数据库。小兰使用这一工具能够更快、更清晰地洞察周围人物的社交关系,以便自己早些掌握新一消失前后身边关系网的变化情况,从而找出新一的下落。
图数据库并非展示图像的数据库,而是将实体间的关系以“节点”和“边”形式展现,让使用者能够快速、清晰地了解实体间的相互关系。如下图所示的一个图结构:顶点可以是一种实体,例如一个人;边关系规定了实体间的联系情况和连接属性,即“顶点A与顶点B以何种方式相连”。以人物为例,边连接的属性可以是共同去过一家餐厅、相互认识、具有共同的线上行为模式等等。
图一:图结构
大数据应用中,图的应用可能涉及亿级别的存储和万级别的界面显示,需要前后端产品联动才能完成即时提数的产品功能。在传统行列式存储表中,一行通常代表一个实体,列向量表示特征集合。如果我们想存储角色的性别、职业,传统数据库将以如下形式入库:
表一. 传统数据库入库形式
角色 |
性别 |
职业 |
|
1 |
工藤新一 |
男 |
高中生 |
2 |
柯南 |
男 |
小学生 |
..... |
|
不同于传统数据库,图数据库更为注重关系的展示,故我们将边连接单独保存在一张表中(表二)。此外,我们还需将每一实体节点保存在节点属性表中,其入库形式可以与表一保持一致。
表二. 边连接入库形式
角色1 |
角色2 |
边属性 |
|
1 |
工藤新一 |
柯南 |
?? |
2 |
工藤新一 |
小兰 |
同学 |
..... |
|
当我们完成边的定义后,人物关系得以清晰展示。我们可以尝试通过梳理剧情,逐步将人物关系入库。例如在96集《走投无路的名侦探 连续两大杀人事件》中,小兰帮熟睡中的柯南摘掉了眼镜,发现他的长相与小时候的新一一模一样,使得小兰不由怀疑起柯南的身份。当小兰把柯南领到新一家门口逼他招供时,新一妈妈有希子及时出现,帮柯南隐瞒了身份。有希子解释说:新一和柯南是亲戚啦,天天和新一在一起玩才会神态如此相像。由此我们可以定义出:有希子、柯南、新一为相互熟知的关系。
在192集《危命的复活》中,柯南面临生死危险,需要同样的血型才能救活,小兰在此时确定自己与柯南、新一三人血型一致。
在398集《奇妙一家的委托》中,小兰在柯南手机中,发现了自己发给新一的短信。由此可以了解到新一与柯南持有同一部手机。
将种种关系入库后,我们可以得到这样一个清晰的图谱展示:
图二:人物关系图
除了这一优势,图数据库更具有高效筛选和指标计算的功能。小兰如需快速梳理柯南与新一的重叠关系,可以以其名为主键,在全库中进行筛选,得到相关边连接,了解两者与亲属朋友的直接关系,而不必探究他人的动态情况。
指标计算相关模块利用各种图计算的方法,对图结构进行挖掘探索,进而发现关于实体的特殊行为特征,以帮助数据洞察。在图二的结构中,我们可以通过计算发现柯南与新一的邻接节点群组高度重合,同属于一个社群。同时,两者节点的入度(入度指一个节点在图中作为边连接的终点的次数,表示节点在图结构中的重要程度)非常高,同为全局的核心人物。在现实应用中,这些图计算方法能够帮助营销、风控人员快速发现重点需要关注的目标对象,及时采取行动。
二、规则引擎与自动化建模流程
人的容貌可能会发生改变,但许多行为模式依旧不变。在剧集中,柯南的饮食习惯、推理逻辑、行事风格等等特征,都在提示小兰,新一近在眼前。如果小兰掌握了端-端机器学习服务,便能从大量特征中提取出有效信息,自动完成发现目标对象的目的。
端-端机器学习服务的入模方法主要包括两种:规则引擎、自动建模。自动化建模指客户提供样本,自动为客户进行特征筛选、机器学习模型的构建、效果评估的过程(图三)。
图三:AutoML自动建模流程
规则引擎指为客户提供的定制规则构建与模型建立的接口。技术人员通过构建逻辑判断层次,定制提数建模流程完成整个逻辑判断链路。图四描述了一个风控规则引擎的构建流程。
图四:风控规则引擎构建流程
三、深度学习AI识别
除了上文提及的社交模式、个体行为判别的方式,小兰还可以依托深度学习方法,通过生物体识别的技术,找出新一。在剧场版3 《世纪末的魔术师》中,怪盗基德扮成了新一,与柯南同时出现,打消了小兰的疑虑。
在现实生活中,当两个人的面部特征近乎一致时,该如何识别目标对象呢?相比DNA与人脸识别,声纹识别和步态识别成本更低。声纹识别是根据说话人的声波特性进行身份辨识的服务,广泛应用于智能家居、智慧建筑等领域。
步态识别是一种新型的生物特征识别技术,它通过相机记录人的行走动作,利用躯干变化模式做单体判断,从而快速准确地在人群中进行身份识别。步态识别具有非接触远距离和不容易伪装的优点。
总结
数据库帮助关系洞察,规则引擎与自动化建模工具AutoML构建端-端筛查方案,AI深度学习助力精准识别。在新的一年中,小编希望青山大大能够尽快填补“死神小学生”的剧情坑,让小兰与新一能够早日相认,也期待更多AI新技术能够运用于各行各业,为其提供定制化的大数据解决方案。
-
每日互动官方微信号
公司动态、品牌活动
-
个推官方微信号
新品发布、官方资讯
-
个推技术实践
技术干货、前沿科技