K-Means聚类：理论、工作原理和示例

释放双眼，带上耳机，听听看~！

本文章介绍了K-Means聚类的概念、工作原理以及通过T恤尺寸问题的例子来解释该算法的应用。通过迭代过程和图像示例，读者可以直观理解K-Means聚类的工作原理。

目标

在本章中，将了解

K-Means聚类的概念以及其工作原理等

理论

本文将以一个常用的例子来处理这个问题。

T-shirt尺寸问题

假设一家公司将向市场发布新型号的T恤，将不得不制造不同尺寸的模型，以满足各种身材的人们需求。因此，该公司会记录人们的身高和体重数据，并将其绘制到图形上，如下所示：

K-Means聚类：理论、工作原理和示例

公司不会制作所有尺寸的T恤，因为代价太大。取而代之的是，可以将人划分为小、中和大三种尺寸，并仅制造这三种适合所有人的模型。可以通过**k均值聚类（k-means clustering）**将人员分为三组，并且算法可以提供最佳的3种大小，这将满足所有人员的需求。同样地，公司也可以将这些采样结果划分为更多的组，假设是五组，依此类推，如下图所示：

K-Means聚类：理论、工作原理和示例

如何工作

该算法是一个迭代过程。下面以图像的方式逐步解释它。

假设如下一组数据（可以将其视为T恤问题），我们需要将此数据分为两类。

K-Means聚类：理论、工作原理和示例

步骤:1 -算法随机选择两个质心 $C_1$ 和 $C_2$ （可以将任何两个数据作为质心）
步骤:2 –计算每个点到两个质心的距离。如果测试数据更接近 $C_1$ ，则该数据标记为0类，如果它更靠近 $C_2$ ，则标记为1类（如果存在更多质心，则标记为2，3等）

在上面的示例中，将所有标记为0的用红色标记， 1用蓝色标记得到下图：

K-Means聚类：理论、工作原理和示例

步骤:3 -接下来，分别计算所有蓝点和红点的平均值，将其作为新的质心， $C_1$ 和 $C_2$

转移到新计算的质心。（请记住，显示的图像不是真实值，也不是真实比例，仅用于演示）。

再次，使用新的质心执行步骤2，并将标签数据设置为0和1

K-Means聚类：理论、工作原理和示例

之后不断迭代步骤2和步骤3，直到两个质心都收敛到固定点。（或者可以根据提供的停止标准（例如最大的迭代次数或达到特定的精度等）将其停止）

固定点使得测试数据与其对应质心之间的距离之和最小。或者简单地说， $C1↔Red_PointsC1 leftrightarrow Red_Points$ 和 $C2↔Blue_PointsC2 leftrightarrow Blue_Points$ 之间的距离之和最小。

$Red_Pointsdistance(C1,Red_Point)+∑All Blue_Pointsdistance(C2,Blue_Point)]minimize ;bigg[J = sum_{All: Red_Points}distance(C1,Red_Point) + sum_{All: Blue_Points}distance(C2,Blue_Point)bigg]$

最终结果如下所示：

K-Means聚类：理论、工作原理和示例

上述仅仅是对K-Means聚类的直观理解。有关更多详细信息和数学解释，请阅读其它标准的机器学习教科书或查看其它资源。本文只是K-Means聚类的宏观层面，此算法有很多其它变体，例如如何选择初始质心，如何加快迭代过程等。

附加资源

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

K-Means聚类：理论、工作原理和示例

目标

理论

T-shirt尺寸问题

如何工作

附加资源

An Energy and GPU-Computation Efficient Backbone Network for Real-Time Object Detection

AI在游戏开发中的应用：现阶段AI生成3D素材的局限性

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

目标

理论

T-shirt尺寸问题

如何工作

附加资源

An Energy and GPU-Computation Efficient Backbone Network for Real-Time Object Detection

AI在游戏开发中的应用：现阶段AI生成3D素材的局限性

聚类和降维结合的项目完整过程

聚类算法及性能度量

聚类算法及评价指标

关联规则挖掘及示例代码