数据挖掘算法学习(四)PCA算法,数据挖掘pca
数据挖掘算法学习(四)PCA算法,数据挖掘pca
算法简介
主成分分析(PrincipalComponentAnalysis,简称PCA)是一种常用的基于变量协方差矩阵对信息进行处理、压缩和抽提的有效方法。主要用于对特征进行降维。
算法假设
数据的概率分布满足高斯分布或是指数型的概率分布。方差高的向量视为主元。
算法输入
包含n条记录的数据集
算法输出
降维或压缩后的数据集
算法思想
•1.计算所有样本的均值m和协方差矩阵S; •2.计算S的特征值,并由大到小排序; •3.选择前n'个特征值对应的特征矢量作成一个变换矩阵E=[e1,e2, …, en’]; •4.最后,对于之前每一个n维的特征矢量x可以转换为n’维的新特征矢量y=transpose(E)(x-m)
weka运行结果
以weather.nominal.arff为例运行结果部分截图如下:
算法应用
人脸识别
图像压缩
信号去噪
原创文章,转载请注明出处,谢谢。
我最近刚开始接触数据挖掘,在学习kmeans,由于随着kmeans中心的随机改动,聚类结果有些不合理的变化,所以正在试图将初始中心定下来 我不知道,没研究过
入门就看韩家威的《数据挖掘概念与技术》这本圣经就好了,但是要学好看懂看透彻,还是得基础牢固,这就得学习机器学习、模式识别、统计学习这些辅助基本课程。
数据挖掘算法由于方向角度,学习起来应该从survey开始,这样能够较系统的学习。
评论暂时关闭