无监督学习中的通用框架和应用

释放双眼，带上耳机，听听看~！

这篇文章介绍了微软研究院和普林斯顿大学研究人员提出的通用框架，用于解决无监督学习问题中的噪声处理和算法设计。它涉及高斯分布、子空间聚类的混合等内容，并提出了一种新的元算法来解决这些问题。

11 月 13 日，微软研究院（Microsoft Research）和普林斯顿大学研究人员，提出了一个通用框架，用于设计无监督学习问题的有效算法，如高斯分布和子空间聚类的混合。

无监督学习中的通用框架和应用

研究人员所提的框架在解决噪声问题上，使用了一种下界学习计算公式的元算法。这是建立在 Garg、Kayal 和 Saha (FOCS ’20) 最近的工作基础上的，他们设计了这样一个框架，用于在没有任何噪音的情况下学习算术公式。元算法的一个关键要素是针对称为“稳健向量空间分解”的新问题的有效算法。

研究证明，当某些矩阵具有足够大的最小非零奇异值时，元算法效果很好。“我们推测这个条件适用于我们问题的平滑实例，因此我们的框架将为平滑设置中的这些问题产生有效的算法。”

该研究以《在存在噪声的情况下学习算术公式：无监督学习的通用框架和应用》（Learning Arithmetic Formulas in the Presence of Noise: A General Framework and Applications to Unsupervised Learning）为题，于 11 月 13 日发布在 arXiv 预印平台上。

无监督学习中的通用框架和应用

无监督学习涉及发现数据中隐藏的模式和结构，而不使用任何标签或直接的人类监督。

在这里，研究人员考虑具有良好数学结构或从数学上明确定义的分布生成的数据。前者的一个例子是，可以根据某些相似性模式将数据点分组为有意义的集群，并且目标是找到底层集群。后者的一个例子是混合建模，它假设数据是由简洁描述的概率分布（例如高斯分布）的混合生成的，目标是从样本中学习这些分布的参数。

解决许多无监督学习问题的通用框架是矩方法，它利用数据的统计矩来推断模型的底层结构或底层参数。对于许多无监督学习问题场景，其中基础数据具有一些很好的数学结构，数据的矩是参数的明确定义的函数。启发式论证表明，相反的情况通常应该成立，即结构/分布的参数通常由数据的一些低阶矩唯一确定。在这个大方向上，主要的挑战是设计算法来（近似地）从（经验）力矩中恢复潜在的参数。

我们还希望该算法高效、耐噪声（即，即使仅近似而不是精确地知道矩，也能很好地工作），甚至是异常容忍度(即，即使少数数据点不符合底层结构/分布也能很好地工作)。但即使是该领域最简单的问题也往往是 NP 困难的，并且即使没有噪声和异常值也仍然如此。

因此，人们实际上不能指望一种具有可证明的最坏情况保证的算法。但人们可以希望算法能够保证通常运行良好，即对于随机问题实例，或者更理想的是对于以平滑方式选择的实例。因此，针对无监督学习中的每个此类问题设计了许多不同的算法，具有不同水平的效率、噪声容忍度、离群值容忍度和可证明的保证。

在这项工作中，研究人员给出了一个适用于许多此类无监督学习问题的元算法。该研究的出发点是观察到许多此类问题都归结为学习算术公式的适当子类的任务。

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

无监督学习中的通用框架和应用

2024年AI行业六大变化预测

Transformer 架构简化研究：神经网络优化新思路

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

2024年AI行业六大变化预测

Transformer 架构简化研究：神经网络优化新思路

普林斯顿大学发布数学大语言模型LLEMMA，性能媲美谷歌Minerva 62B

微软研究院发布Phi-2小语言模型（SML）

Phi-2：微软研究院最新发布的语言模型

马斯克打造的ChatGPT竞品GroK，幽默感十足