CompanyDepot系统的Cluster-level机构归一化及实验评估

释放双眼,带上耳机,听听看~!
本文讨论了CompanyDepot系统中的Cluster-level机构归一化问题,并对实验结果进行了评估。通过KDD 2017会议的论文分享了解更多相关信息。

导语

本文是上一篇论文CompanyDepot系统的后续工作,作者考虑了机构之间的聚类情形。

1 简介

这篇论文中,作者又提出了一个新的问题叫做Cluster level的机构归一化。而这篇文章中的entity level的机构归一化就是之前的任务。

Entity-level问题定义

实体E ={𝑒_1、𝑒_2……𝑒_𝑘}。
机构名称和关联的位置上下文用Q ={𝑞_1,𝑞_2,……𝑞_𝑐}表示,其中𝑞_ =(𝑛_,𝑙_)是雇主名称和关联的位置对。其中𝑙_𝑖=(𝐶𝑖𝑡_𝑖,𝑆𝑡𝑎𝑡_𝑖,𝐶𝑜𝑢𝑛𝑡𝑟_𝑖),可以为空。

这个问题可以概括为推断一个映射函数𝒇_𝑬(𝒒)⇒𝒆,其中q∈𝑄而且einE∪{NIL}einEcup{NIL}

Cluster-level问题定义

聚类函数𝑪(𝒆)⇒<e:1>,其中e∈E,r∈R⊂Ee in E, rin R subset E,R是所有聚类代表实体的集合(每个聚类代表实体对应一个聚类),R是e所属聚类的代表实体。
聚类级别的归一化是推断一个映射函数𝒇_𝑪(𝒒)⇒<e:1>,其中q∈𝑄而且r∈R∪{NIL}rin R cup{NIL}

CompanyDepot系统的Cluster-level机构归一化及实验评估

CompanyDepot系统的Cluster-level机构归一化及实验评估

这里举个例子,比如Walmart 和 wormart pharmacy在实体层面是两个实体,但这属于子公司和总集团的关系。在聚类时,相同集团下的子公司要被划分到一起,然后再选择一个名称来代表这个cluster。

2 CompanyDepot V2系统

整个系统仍由4部分组成:

CompanyDepot系统的Cluster-level机构归一化及实验评估

在构建搜索引擎方面,v2采用了5个mapping来源,构建了基本的知识库index、mapping index和cluster index三个搜索引擎。在检索阶段,使用了一种叫做query-expansion的技术。首先在mapping index里搜索,然后基于初步搜索结果再从KB index里进行搜索。这里的搜索步骤的规则相对v1系统也复杂了一些。

CompanyDepot系统的Cluster-level机构归一化及实验评估

同样,第三步是重排序步骤。这里新增加了url的特征。最后一步是进行验证和之前一样。

在cluster-level上,首先从5个mapping源中构建各个实体之间的关系,如果这条关系在一个mapping源中出现,那么边权重就为1,在两个mapping来源中出现边权重就为2,一次类推。

CompanyDepot系统的Cluster-level机构归一化及实验评估

构建好无向图后,对低质量的边进行删除,比如这里设置阈值为1,小于等于1的边将被删除。

CompanyDepot系统的Cluster-level机构归一化及实验评估

然后,寻找这个图中的连通分量作为一个cluster,

CompanyDepot系统的Cluster-level机构归一化及实验评估

最后,通过某些规则这这些类中选择一个实体名称来代表这个cluster

CompanyDepot系统的Cluster-level机构归一化及实验评估

选取代表实体后,对这些聚类进行校正。

3 实验与评估

在cluster-level,新增了Success Rate(SR)作为cluster level的预测准确率;

DRR作为衡量聚类效果的一个指标,其计算是通过以下公式实现。聚类约少,DRR越大。

CompanyDepot系统的Cluster-level机构归一化及实验评估

F-score作为二者的一个综合度量指标。

实验结果如下图所示:

CompanyDepot系统的Cluster-level机构归一化及实验评估

CompanyDepot系统的Cluster-level机构归一化及实验评估

CompanyDepot系统的Cluster-level机构归一化及实验评估

最后,我对比了一下v1和v2两版系统搜索时的差异,可以看到v2设计的更加复杂,同时取得了更好的效果:

CompanyDepot系统的Cluster-level机构归一化及实验评估

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

Hinton大佬最近分享的论文解读:The Forward-Forward Algorithm

2023-12-14 21:43:14

AI教程

基于深度学习的鱼类识别系统实现及应用

2023-12-14 21:55:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索