无监督学习
无监督学习
无监督学习(Unsupervised Learning),亦被称为无监督机器学习,它借助机器学习算法来对未标注的数据集进行分析,并实现聚类操作。这些算法无需借助人工的介入,就能自行发掘隐藏的模式或数据分组。该方法能够有效地洞察信息之间的相似性与差异性,因此成为探索性数据分析、交叉销售策略制定、客户细分以及图像识别等方面的理想解决方案。
常见的无监督学习算法
无监督学习算法可以分为三个主要种类:聚类、关联和降维。
聚类
在聚类中,具有相似特征的样本会被归为同一簇,而不同簇之间的样本则具有较大差异。聚类的目的是发现数据中潜在的自然分组结构,帮助理解数据的分布和模式。聚类算法可以分为几种类型,具体为独占、重叠、分层和概率。
独占和重叠聚类
独占聚类是一种分组形式,它规定一个数据点只能存在于一个聚类中。 这也可以称为“硬”聚类。 K均值聚类算法是独占聚类的一个例子。
而重叠聚类则与独占聚类有所不同,它允许数据点同时归属于多个聚类,且具有不同的隶属程度。“软”的或模糊 K 均值聚类就是重叠聚类的一个具体体现。
分层聚类
分层聚类是一种无监督的聚类算法,主要可以分为两种类型,即凝聚聚类和分裂聚类。凝聚聚类常被认为是一种“自下而上”的方法。在凝聚聚类中,数据点最初被划分到单独的分组里,之后再依据相似性不断地进行合并,直至形成一个聚类。通常来说,有四种不同的方法用于衡量相似度:
欧几里得距离是用于计算这些距离最常用的指标;不过,在相关文献中也会提及曼哈顿距离等其他指标。
分裂聚类的定义方式与凝聚聚类恰好相反;它采用的是“自上而下”的方法。在这种情况下,会依据数据点之间的差异来划分单个的数据聚类。分裂聚类并不常用,但在分层聚类的环境中依然值得关注。这些聚类过程通常会通过系统树图(一种树状的图表)直观地呈现出来,该图会记录每次迭代中数据点的合并或拆分情况。
概率聚类
概率模型是一类无监督技术,能够助力我们解决密度估计或“软”聚类之类的问题。在概率聚类中,数据点是依据它们归属于特定分布的概率来进行聚类的。高斯混合模型(GMM)是最常被采用的概率聚类方法之一。
关联
关联规则学习是一种基于规则的方法,用于发现给定数据集中各变量之间的关系。 这些方法常用于市场购物篮分析,使企业能够更好地了解不同产品之间的关系。 了解顾客的消费习惯有助于企业制定更好的交叉销售策略,开发更出色的推荐引擎。 在亚马逊的“购买此商品的客户也购买了”或 Spotify 的“每周发现”播放列表中,可以看到这方面的例子。 虽然有几种不同的算法用于生成关联规则,例如 APRIORIeclat算法和FP-Growth算法,但 APRIORI使用最为广泛。
降维
一般情况下,更多的数据会产生更精准的模型,进而产生更加准确的结果,但这也会影响机器学习算法的性能(例如:过度拟合),并且还会造成数据集可视化的难度提高。 因此,如果在给定数据集中的特征或维度数量过多,便会用到降维这种技术。 降维可将输入的数据量减少到可管理的大小,同时尽可能地保持数据集的完整性。 在数据预处理阶段通常会使用降维技术,可以采用几种不同的降维方法:主成分分析、奇异值分解和自编码器。
主成分分析
主成分分析(Principal Component Analysis, pca)是一种常用的统计方法,其核心在于通过正交变换将可能存在相关性的变量转换为一组线性不相关的变量,这些转换后的变量被称为主成分。
PCA的作用和意义在于降维,即减少变量的数量,同时尽可能保留原始数据的信息。因此一般用于减少冗余并通过特征提取来压缩数据集。 这种方法使用线性变换来创建新的数据表示,从而产生一组“主成分”。第一个主成分是使数据集方差最大化的方向。 虽然第二个主成分也找到了数据中的最大方差,但它与第一个主成分完全不相关,产生的方向与第一个成分垂直或正交。 这个过程根据维数进行重复,其中下一个主成分是与具有最大方差的先验成分正交的方向。
奇异值分解
奇异值分解(Singular Value Decomposition, SVD)是另一种降维方法。例如,将矩阵 A 分解为三个低秩矩阵。 SVD 由公式 A = USVT 表示,其中 U 和 V 是正交矩阵。 S 是一个对角矩阵,S 值被认为是矩阵 A 的奇异值。与 PCA 类似,这种方法通常用于降噪和压缩数据。
自编码器
卷积自编码器利用神经网络来压缩数据,然后重新创建原始数据输入的新表示形式。自编码器实现数据压缩主要通过以下步骤:
无监督学习的应用
无监督学习是一种机器学习技术,它不依赖于预先标记的数据来进行训练。这种学习方式主要应用于以下领域:
无监督学习的优点在于它不需要大量的带标签数据,因此可以使用更加广泛的数据集。然而,它也存在一些局限性,例如可能无法保证学习的准确性和稳定性。
参考资料
..2024-04-28
..2024-04-28
..2024-04-28
..2024-04-28
..2024-04-28
..2024-04-28
..2024-04-28
..2024-04-28
..2024-04-28
..2024-04-28
目录
概述
常见的无监督学习算法
聚类
独占和重叠聚类
分层聚类
概率聚类
关联
降维
主成分分析
奇异值分解
自编码器
无监督学习的应用
参考资料