作者:包包大人  数据建模工程师

 

前言

 

2019年,《名侦探柯南:绀青之拳》上映,内地票房1.66亿,成柯南剧场版内地票房历史最高。“新兰”关键词三冲微博热搜,画面是这样的。

 

 

满屏都是甜甜甜。新兰两人“聚少离多”,小编不禁着急起来,毛利兰何时才能真正认清“真爱就在眼前呢”?在过去的900多集中,小兰多次怀疑过柯南就是新一,却又遗憾错失真相。作为柯南粉,小编在回顾柯南电视剧及剧场版的各大经典场景时,总结了三套AI技术,能从细节入手,快速整理线索,帮助判别小学生柯南就是新一本人,而假扮新一的怪盗基德不是新一。一起来看看吧。

 

一、关系型数据的清晰展示:图数据库

 

柯南全集涉及几千个人物,关系错综复杂,即使是老粉也难免遗忘各种细节,更不用提小兰当局者迷。该如何理清二次元世界中的关系网络呢?首选当然是图数据库。小兰使用这一工具能够更快、更清晰地洞察周围人物的社交关系,以便自己早些掌握新一消失前后身边关系网的变化情况,从而找出新一的下落。

 

图数据库并非展示图像的数据库,而是将实体间的关系以“节点”和“边”形式展现,让使用者能够快速、清晰地了解实体间的相互关系。如下图所示的一个图结构:顶点可以是一种实体,例如一个人;边关系规定了实体间的联系情况和连接属性,即“顶点A与顶点B以何种方式相连”。以人物为例,边连接的属性可以是共同去过一家餐厅、相互认识、具有共同的线上行为模式等等。

 

图一:图结构

 

大数据应用中,图的应用可能涉及亿级别的存储和万级别的界面显示,需要前后端产品联动才能完成即时提数的产品功能。在传统行列式存储表中,一行通常代表一个实体,列向量表示特征集合。如果我们想存储角色的性别、职业,传统数据库将以如下形式入库:

 

表一. 传统数据库入库形式

 

角色

性别

职业

1

工藤新一

高中生

2

柯南

小学生

.....

   

 

 

不同于传统数据库,图数据库更为注重关系的展示,故我们将边连接单独保存在一张表中(表二)。此外,我们还需将每一实体节点保存在节点属性表中,其入库形式可以与表一保持一致。

 

表二. 边连接入库形式

 

角色1

角色2

边属性

1

工藤新一

柯南

??

2

工藤新一

小兰

同学

.....

   

 

 

当我们完成边的定义后,人物关系得以清晰展示。我们可以尝试通过梳理剧情,逐步将人物关系入库。例如在96集《走投无路的名侦探 连续两大杀人事件》中,小兰帮熟睡中的柯南摘掉了眼镜,发现他的长相与小时候的新一一模一样,使得小兰不由怀疑起柯南的身份。当小兰把柯南领到新一家门口逼他招供时,新一妈妈有希子及时出现,帮柯南隐瞒了身份。有希子解释说:新一和柯南是亲戚啦,天天和新一在一起玩才会神态如此相像。由此我们可以定义出:有希子、柯南、新一为相互熟知的关系。

 

 

在192集《危命的复活》中,柯南面临生死危险,需要同样的血型才能救活,小兰在此时确定自己与柯南、新一三人血型一致。

 

 

在398集《奇妙一家的委托》中,小兰在柯南手机中,发现了自己发给新一的短信。由此可以了解到新一与柯南持有同一部手机。

 

 

将种种关系入库后,我们可以得到这样一个清晰的图谱展示:

 

图二:人物关系图

 

除了这一优势,图数据库更具有高效筛选和指标计算的功能。小兰如需快速梳理柯南与新一的重叠关系,可以以其名为主键,在全库中进行筛选,得到相关边连接,了解两者与亲属朋友的直接关系,而不必探究他人的动态情况。

 

指标计算相关模块利用各种图计算的方法,对图结构进行挖掘探索,进而发现关于实体的特殊行为特征,以帮助数据洞察。在图二的结构中,我们可以通过计算发现柯南与新一的邻接节点群组高度重合,同属于一个社群。同时,两者节点的入度(入度指一个节点在图中作为边连接的终点的次数,表示节点在图结构中的重要程度)非常高,同为全局的核心人物。在现实应用中,这些图计算方法能够帮助营销、风控人员快速发现重点需要关注的目标对象,及时采取行动。

 

二、规则引擎与自动化建模流程

 

人的容貌可能会发生改变,但许多行为模式依旧不变。在剧集中,柯南的饮食习惯、推理逻辑、行事风格等等特征,都在提示小兰,新一近在眼前。如果小兰掌握了端-端机器学习服务,便能从大量特征中提取出有效信息,自动完成发现目标对象的目的。

 

端-端机器学习服务的入模方法主要包括两种:规则引擎、自动建模。自动化建模指客户提供样本,自动为客户进行特征筛选、机器学习模型的构建、效果评估的过程(图三)。

 

图三:AutoML自动建模流程

 

规则引擎指为客户提供的定制规则构建与模型建立的接口。技术人员通过构建逻辑判断层次,定制提数建模流程完成整个逻辑判断链路。图四描述了一个风控规则引擎的构建流程。

 

图四:风控规则引擎构建流程

 

 

三、深度学习AI识别

 

除了上文提及的社交模式、个体行为判别的方式,小兰还可以依托深度学习方法,通过生物体识别的技术,找出新一。在剧场版3 《世纪末的魔术师》中,怪盗基德扮成了新一,与柯南同时出现,打消了小兰的疑虑。

 

 

在现实生活中,当两个人的面部特征近乎一致时,该如何识别目标对象呢?相比DNA与人脸识别,声纹识别和步态识别成本更低。声纹识别是根据说话人的声波特性进行身份辨识的服务,广泛应用于智能家居、智慧建筑等领域。

 

步态识别是一种新型的生物特征识别技术,它通过相机记录人的行走动作,利用躯干变化模式做单体判断,从而快速准确地在人群中进行身份识别。步态识别具有非接触远距离和不容易伪装的优点。

 

总结

 

数据库帮助关系洞察,规则引擎与自动化建模工具AutoML构建端-端筛查方案,AI深度学习助力精准识别。在新的一年中,小编希望青山大大能够尽快填补“死神小学生”的剧情坑,让小兰与新一能够早日相认,也期待更多AI新技术能够运用于各行各业,为其提供定制化的大数据解决方案。