数据挖掘学习指引<一>,数据挖掘学习指引


        对于当前热门的大数据、云计算等技术,被百度、阿里等国内互联网巨头炒的很火,数据挖掘作为一门很实用的技术,在商业管理、市场分析、科学计算等大数据方面发挥着大作用。


       数据挖掘技术也变得很火,why?

       1、数据挖掘作为市场营销的一个手段,可以将潜在的商业信息捕获。指商业公司根据客户以前的消费记录,预测消费者的喜好、兴趣,可以开展定向营销,以促进双方赢利。典型的尿片+beer组合就不说了;例如,银行系统可以根据客户突然的大范围消费,可以预测该客户可能买房、结婚等,进而向楼盘、婚庆所介绍生意等。

        2、数据挖掘可以为决策者提供知识。数据很大,知识很少;在数据库中保存的巨大数据,如何利用这些数据,寻找客户消费、分类等潜在的规律。这个优势在电信、银行、超市等行业有很多体现。例如,某国电信公司将10年的国民打电话数据发给研究机构,以制定出合适的电话收费方案和管理政策。

        随着电子商务、股票系统、信用卡交易等商业范畴内的大数据兴起,数据挖掘在发现新知识以提供定制的客户关系管理(CRM)。


       简单介绍了数据挖掘的几个实际应用案例后,什么是数据挖掘?

       data mining,从巨大的数据集中发掘有用的、新奇的、可理解的模型。data mining通过数据库、机器学习(贝叶斯分类器、决策树等)、数理统计、神经网络等多学科的理论、规则来实现的。

       

       掌握数据挖掘,需要了解数据挖掘的几种模型和数据库类型。

       1、关联规则:从数据库中找到高频出现的属性组或项目组。例如,beer和尿布,badminton 和 battledore等。

       2、分类器:从数据训练建立分类器,输入新数据进行分类。例如,决策树等,在信用卡评估中银行根据记录的客户信用卡交易、借贷偿还等数据评估信用等级。

       3、聚类(clustering):将数据集分组,使得组内元素间有很高的相似性,组间无相似性。例如,电商通过客户浏览相似商品判断客户的分类,通过判断生物特征进行物种分类。

       4、顺序挖掘:根据很多个序列,找到高频发生的子序列。例如,商家卖给你一台电脑,可能9个月后会推荐给你一台打印机或者路由器。

       5、异常检测:给出n个点,发现某个点k的值超过范围,k点具有异常性。

       

       数据挖掘,前提是大数据,从海量数据中发现模型和知识,所以模型建立的基础必须基于数据。而各种各样的数据类型,即为数据挖掘带来了发展空间又带来了挑战。现在介绍数据挖掘中常见的几种数据类型:

       1、关系型数据库中的链表。题外话,关系型数据管理系统能简单提供数据查询,但是并不能带来更多的知识。

       2、数据仓库。数据仓库是将数据库中的数据进行清理、集成,为数据挖掘建立模型提供源数据。

       3、空间数据。例如遥感卫星采集的地图信息、集成电路的pcb设计与检测等

       4、图,多媒体,文本数据库等

  

       数据挖掘虽然发展很成熟,但是了解这门技术最新的发展方向和遇到的挑战、改进的地方也很有必要。

        1、数据挖掘高性能、高移植性的算法发现。经典算法的使用难道几十年都不变?

        2、与用户的交互性改进。数据库技术有专门的数据查询语言SQL,数据挖掘能发展出一门语言吗?

        3、数据挖掘结果的可视化。

        更多的专业技术的探讨和研究可以参考数据挖掘的国际会议与期刊,例如 IEEE ICDM,PKDD,ACM data mining and knowledge discovery。


        数据仓库和OLAP技术

        数据仓库是数据挖掘的处理对象,在做数据分析时,需要从海量的数据库中汇合数据,集成后变成数据仓库,然后利用数学分析和建立模型来分析数据,然后得到知识应用于决策分析。所以数据仓库具有集成、面向主题的特征,区别于面向事务的数据库;数据库考虑的是事务流处理,建立一个表,每个属性代表着解决事物的具体意义,数据仓库是集成不同源的数据库,通过模型分析,找到具有某种内在联系的规律或者分类。

       OLTP和OLAP是分别针对DBMS和DM提出来的在线处理,OLTP实时处理事务,例如顾客注册、图书登记、商品上架等;OLAP则是利用模型处理过去某段时间里的数据集。

       前面讲了这么多数据仓库和数据库的区别与联系,怎么建立数据仓库呢?下面要介绍的是从表和电子表格中建立数据立方块(data cube)。

       data cube,是数据仓库中的多维数据模型,方便做统计与分析。不同的维代表着不同的item,可以roll up 和drill down来累加某个维度上的数据。

       数据仓库的概念模型(conceptual modeling),主要有三种:star schema、snowflake schema、fact constellation,也就是星型模型、雪花模型、星座模型,这些模型的建立就像各自的外在表现一样,星型模型呈中心发散状,雪花模型呈末端发散状,星座模型呈多个雪花状相互联系的状态。重要的是数据仓库不仅包含schema中每个维度的item,还包含对这些维的操作(measures)。

        数据预处理,是构建数据仓库的重要环节,包含数据清理、数据变换、数据降维等。

        数据清理,主要是指某些数据无意义、数据缺失、挑选某些属性关联的工作;数据变换,主要指标准化数据,归一化等;数据降维,指某些维数相关的数据可以消去等。


数据挖掘怎学习?

建议楼主不要这样、先弄懂理论、 再学习技术、在实践中得到经验、

祝楼主成功!
 

怎学习数据挖掘

【转自网络】
首先,我要说的是我觉得你是一名在校大学生!Data Mining不是你想的那么简单,他不单单和数学有关系,还包括了计算机领域的诸多学科。还有社会工程学、逻辑学等文科和理科的交叉学科!他是一门庞大的体系。你要是真想学我只能给你指条比较快的成才之路,后面的东西自己慢慢学都赶趟!慢慢充实自己!大学四年好好利用!学无止境!
既然是数据分析那你的高等数学必须要过硬,别着急这只是你的其他学科的基础课。其次是概率与统计,这才是正科,大学那点玩意就是糊弄人的,你要多看这方面的书。这个一定要学好!线性必须要会要精通。因为数据划分是数据挖掘里最重要的一个环节。这个就是线性范畴里的了。也要精通,学会线性分析你就发现你就学会了很多。数学有这三个底子就可以了。数学分析不要看了。因为那只是高数的延伸!
计算机你一定要懂。数据库你必须得学会。三大数据库ORACLE.SQL.MYSQL原理基本类似触类旁通!
还有就是培养你的思维,尽量缜密敏捷。这样才可以发现数据中的不同!因为有的数据挖掘是计算机处理的。有的则是纸面上的。所以必须学会记录
好了,就先这么多了。你学会了这几个就是你进军下一步的基础,这几个就够你学一阵子的了。
祝你好运哥们!
数据挖掘的起点很高——
1、统计学
2、机器学习
3、数学——图论,最优化理论等。
WEB上的数据结构更加复杂。
python语言————应该学习

抱歉,事情太多,如果不追着就忘了!我认为你作为企业员工对数据挖掘感兴趣,最主要的就是从应用和解决问题开始,所以我想把数据挖掘这个狭义定义的内容改成你应该对数据分析感兴趣,数据挖掘只是数据分析的一个重要工具和解决方法之一!
数量统计知识方面:我认为统计思想是数学在实践中最重要的体现,但对于实际工作者最重要的是掌握统计思想,其实统计理论非常复杂,但实际应用往往是比较简单的!比如,很多人都在大学学了假设检验,但实际应用中假设就是看P值是否小于0.05,但是H0是什么?拒绝还是接受的是什么现实问题;要理解!
掌握软件问题:从软件角度学,是非常好的思路,我基本上就是这样学的。我常说编软件的人最懂理论,否则编不出来,编软件的人最知道应用,否则软件买不出去;现在软件越来越友好,把软件自带案例做一遍,你会自觉不自觉的掌握软件解决问题的思路和能解决的问题类型;
数据仓库问题:OLAP和数据挖掘是数据仓库建立基础上的两个增值应用,从企业整体角度,数据挖掘应该建立在企业数据仓库完备的基础上。所以说数据仓库是针对企业级数据挖掘应用提出的,但我们应该记住,企业从来不是为了数据挖掘建立数据仓库,而是因为有了数据仓库后必然会提出数据挖掘的需求!现在随着数据挖掘软件的工具智能化,以及数据仓库和ETL工具的接口友好,对数据库层面的要求越来越少;
数学不好可能反应了一个人思考问题的方式或深入理解问题的能力,但数学不是工具是脑具,不断解决问题的过程可以让我们思考问题更数学化!
沈浩老师建议:
不急,一步一步来!先把本职工作中的数据分析问题理解了,干好了!
熟练玩好Excel软件工具,这个可以看《Excel高级应用与数据分析》我写的书,当然有很多Excel论坛和网站,从我的博客就可以连接到。
学习好统计分析方法,我不是单指统计原理,而是统计分析方法,比如回归分析,因子分析等,不断进入统计分析解决问题的思考方式;这个可以看看SPSS软件方面的书和数据案例,通过软件学习解决数据分析的统计问题,这方面的书很多,当然你也可以关注我的博客,不断增加统计分析方法解决数据分析问题的思路,自己对照着完成!
在上述问题有了比较好的理解后,也......余下全文>>
 

相关内容