导语
本文是上一篇论文CompanyDepot系统的后续工作,作者考虑了机构之间的聚类情形。
- 会议:KDD 2017
- 链接:dl.acm.org/doi/10.1145…
1 简介
这篇论文中,作者又提出了一个新的问题叫做Cluster level的机构归一化。而这篇文章中的entity level的机构归一化就是之前的任务。
Entity-level问题定义
实体E ={𝑒_1、𝑒_2……𝑒_𝑘}。
机构名称和关联的位置上下文用Q ={𝑞_1,𝑞_2,……𝑞_𝑐}表示,其中𝑞_ =(𝑛_,𝑙_)是雇主名称和关联的位置对。其中𝑙_𝑖=(𝐶𝑖𝑡_𝑖,𝑆𝑡𝑎𝑡_𝑖,𝐶𝑜𝑢𝑛𝑡𝑟_𝑖),可以为空。
这个问题可以概括为推断一个映射函数𝒇_𝑬(𝒒)⇒𝒆,其中q∈𝑄而且einE∪{NIL}einEcup{NIL}。
Cluster-level问题定义
聚类函数𝑪(𝒆)⇒<e:1>,其中e∈E,r∈R⊂Ee in E, rin R subset E,R是所有聚类代表实体的集合(每个聚类代表实体对应一个聚类),R是e所属聚类的代表实体。
聚类级别的归一化是推断一个映射函数𝒇_𝑪(𝒒)⇒<e:1>,其中q∈𝑄而且r∈R∪{NIL}rin R cup{NIL}
这里举个例子,比如Walmart 和 wormart pharmacy在实体层面是两个实体,但这属于子公司和总集团的关系。在聚类时,相同集团下的子公司要被划分到一起,然后再选择一个名称来代表这个cluster。
2 CompanyDepot V2系统
整个系统仍由4部分组成:
在构建搜索引擎方面,v2采用了5个mapping来源,构建了基本的知识库index、mapping index和cluster index三个搜索引擎。在检索阶段,使用了一种叫做query-expansion的技术。首先在mapping index里搜索,然后基于初步搜索结果再从KB index里进行搜索。这里的搜索步骤的规则相对v1系统也复杂了一些。
同样,第三步是重排序步骤。这里新增加了url的特征。最后一步是进行验证和之前一样。
在cluster-level上,首先从5个mapping源中构建各个实体之间的关系,如果这条关系在一个mapping源中出现,那么边权重就为1,在两个mapping来源中出现边权重就为2,一次类推。
构建好无向图后,对低质量的边进行删除,比如这里设置阈值为1,小于等于1的边将被删除。
然后,寻找这个图中的连通分量作为一个cluster,
最后,通过某些规则这这些类中选择一个实体名称来代表这个cluster
选取代表实体后,对这些聚类进行校正。
3 实验与评估
在cluster-level,新增了Success Rate(SR)作为cluster level的预测准确率;
DRR作为衡量聚类效果的一个指标,其计算是通过以下公式实现。聚类约少,DRR越大。
F-score作为二者的一个综合度量指标。
实验结果如下图所示:
最后,我对比了一下v1和v2两版系统搜索时的差异,可以看到v2设计的更加复杂,同时取得了更好的效果: