CompanyDepot系统的Cluster-level机构归一化及实验评估

AI教程
23年12月14日
编辑

Q同学

释放双眼，带上耳机，听听看~！

本文讨论了CompanyDepot系统中的Cluster-level机构归一化问题，并对实验结果进行了评估。通过KDD 2017会议的论文分享了解更多相关信息。

导语

本文是上一篇论文CompanyDepot系统的后续工作，作者考虑了机构之间的聚类情形。

会议：KDD 2017
链接：dl.acm.org/doi/10.1145…

1 简介

这篇论文中，作者又提出了一个新的问题叫做Cluster level的机构归一化。而这篇文章中的entity level的机构归一化就是之前的任务。

Entity-level问题定义

实体E ={𝑒_1、𝑒_2……𝑒_𝑘}。
机构名称和关联的位置上下文用Q ={𝑞_1，𝑞_2，……𝑞_𝑐}表示，其中𝑞_ =(𝑛_，𝑙_)是雇主名称和关联的位置对。其中𝑙_𝑖=(𝐶𝑖𝑡_𝑖,𝑆𝑡𝑎𝑡_𝑖,𝐶𝑜𝑢𝑛𝑡𝑟_𝑖),可以为空。

这个问题可以概括为推断一个映射函数𝒇_𝑬(𝒒)⇒𝒆，其中q∈𝑄而且 $e inE \cup {N I L}$ 。

Cluster-level问题定义

聚类函数𝑪(𝒆)⇒<e:1>，其中 $e \in E, r \in R \subset E$ ，R是所有聚类代表实体的集合(每个聚类代表实体对应一个聚类)，R是e所属聚类的代表实体。
聚类级别的归一化是推断一个映射函数𝒇_𝑪(𝒒)⇒<e:1>，其中q∈𝑄而且 $r \in R \cup {N I L}$

CompanyDepot系统的Cluster-level机构归一化及实验评估

CompanyDepot系统的Cluster-level机构归一化及实验评估

这里举个例子，比如Walmart 和 wormart pharmacy在实体层面是两个实体，但这属于子公司和总集团的关系。在聚类时，相同集团下的子公司要被划分到一起，然后再选择一个名称来代表这个cluster。

2 CompanyDepot V2系统

整个系统仍由4部分组成：

CompanyDepot系统的Cluster-level机构归一化及实验评估

在构建搜索引擎方面，v2采用了5个mapping来源，构建了基本的知识库index、mapping index和cluster index三个搜索引擎。在检索阶段，使用了一种叫做query-expansion的技术。首先在mapping index里搜索，然后基于初步搜索结果再从KB index里进行搜索。这里的搜索步骤的规则相对v1系统也复杂了一些。

CompanyDepot系统的Cluster-level机构归一化及实验评估

同样，第三步是重排序步骤。这里新增加了url的特征。最后一步是进行验证和之前一样。

在cluster-level上，首先从5个mapping源中构建各个实体之间的关系，如果这条关系在一个mapping源中出现，那么边权重就为1,在两个mapping来源中出现边权重就为2，一次类推。

CompanyDepot系统的Cluster-level机构归一化及实验评估

构建好无向图后，对低质量的边进行删除，比如这里设置阈值为1，小于等于1的边将被删除。

CompanyDepot系统的Cluster-level机构归一化及实验评估

然后，寻找这个图中的连通分量作为一个cluster，

CompanyDepot系统的Cluster-level机构归一化及实验评估

最后，通过某些规则这这些类中选择一个实体名称来代表这个cluster

CompanyDepot系统的Cluster-level机构归一化及实验评估

选取代表实体后，对这些聚类进行校正。

3 实验与评估

在cluster-level，新增了Success Rate(SR)作为cluster level的预测准确率；

DRR作为衡量聚类效果的一个指标，其计算是通过以下公式实现。聚类约少，DRR越大。

CompanyDepot系统的Cluster-level机构归一化及实验评估

F-score作为二者的一个综合度量指标。

实验结果如下图所示：

CompanyDepot系统的Cluster-level机构归一化及实验评估

CompanyDepot系统的Cluster-level机构归一化及实验评估

CompanyDepot系统的Cluster-level机构归一化及实验评估

最后，我对比了一下v1和v2两版系统搜索时的差异，可以看到v2设计的更加复杂，同时取得了更好的效果：

CompanyDepot系统的Cluster-level机构归一化及实验评估

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

实验评估数据挖掘机构聚类知识库

Hinton大佬最近分享的论文解读：The Forward-Forward Algorithm

2023-12-14 21:43:14

基于深度学习的鱼类识别系统实现及应用

2023-12-14 21:55:14

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部