Mahout初步认识,Mahout认识
Mahout初步认识,Mahout认识
Apache Mahout项目主要包括以下五个部分:频繁模式挖掘:挖掘数据中频繁出现的项集。
聚类:将诸如文本、文档之类的数据分成局部相关的组。
分类:利用已经存在的分类文档训练分类器,对未分类的文档进行分类。
推荐引擎(协同过滤):获得用户的行为并从中发现用户可能喜欢的事务。
频繁子项挖掘:利用一个项集(查询记录或购物目录)去识别经常一起出现的项目。
在Mahout实现的机器学习算法:
算法类 |
算法名 |
中文名 |
分类算法 |
Logistic Regression |
逻辑回归 |
Bayesian |
贝叶斯 |
|
SVM |
支持向量机 |
|
Perceptron |
感知器算法 |
|
Neural Network |
神经网络 |
|
Random Forests |
随机森林 |
|
Restricted Boltzmann Machines |
有限波尔兹曼机 |
|
聚类算法 |
Canopy Clustering |
Canopy聚类 |
K-means Clustering |
K均值算法 |
|
Fuzzy K-means |
模糊K均值 |
|
Expectation Maximization |
EM聚类(期望最大化聚类) |
|
Mean Shift Clustering |
均值漂移聚类 |
|
Hierarchical Clustering |
层次聚类 |
|
Dirichlet Process Clustering |
狄里克雷过程聚类 |
|
Latent Dirichlet Allocation |
LDA聚类 |
|
Spectral Clustering |
谱聚类 |
|
关联规则挖掘 |
Parallel FP Growth Algorithm |
并行FP Growth算法 |
回归 |
Locally Weighted Linear Regression |
局部加权线性回归 |
降维/维约简 |
Singular Value Decomposition |
神秘值分解 |
Principal Components Analysis |
主成分分析 |
|
Independent Component Analysis |
独立成分分析 |
|
Gaussian Discriminative Analysis |
高斯判别分析 |
|
进化算法 |
并行化了Watchmaker框架 |
|
推荐/协同过滤 |
Non-distributed recommenders |
Taste(UserCF, ItemCF, SlopeOne) |
Distributed Recommenders |
ItemCF |
|
向量相似度计算 |
RowSimilarityJob |
计算列间相似度 |
VectorDistanceJob |
计算向量间距离 |
|
非Map-Reduce算法 |
Hidden Markov Models |
隐马尔科夫模型 |
集合方法扩展 |
Collections |
扩展了java的Collections类 |
Mahout既可以在本地模式下运行,还可以利用Hadoop的MR运行作业。
Mahout API分为以下几部分:
org.apache.mahout.cf.taste:基于协同过滤的Taste相关的API。
org.apache.mahout.clustering:聚类算法相关的API
org.apache.mahout.classifier:分类算法
org.apache.mahout.fpm:频繁模式算法
org.apache.mahout.math:数学计算相关算法
org.apache.mahout.vectorizer:向量计算相关算法
1.KMeansConfigKeys接口
DISTANCE_MEASURE_KEY:K-Means聚类算法使用的距离测量方法
CLUSTER_CONVERGENCE_KEY:K-Means聚类算法的收敛值
CLUSTER_PATH_KEY:K-Means聚类算法的路径
2.KCLUSTER类
通常被主函数调用,通过给定的新聚类中心和距离函数来计算新的聚类,
并判断聚类是否收敛。
类KCLUSTER的主要函数列表
KCLUSTER(Vertor center,int clusterId,DistanceMeasure mesure)
:初始化K-Means聚类算法的构造方法,使用输入的点作为聚类的中心
来创建一个新的聚类。参数measure用于比较点之间的距离,center
为新的聚类中心,clusterId为新聚类的ID
public static String formatCluster(Kcluster cluster)
:格式化输出
public boolean computeConvergence(DistanceMeasure measure,
double convergenceDelta)
:计算该聚类是否收敛
3.KMeansDriver类
该类为执行聚类的入口函数,包括buildClusters、clusterData、
run及main等函数,
函数列表:
public static void run(org.apache.hadoop.conf.Configuration conf,
org.apache.hadoop.fs.Path input,org.apache.hadoop.fs.Path clusterIn,
org.apache.hadoop.fs.Path output,DistanceMeasure measure,double convergenceDelta,
int maxIterations,boolean runClustering,double clusterClassificationThreshold,
boolean runClustering,double clusterClassificationThreshold,boolean runSequential)
throws IOException,InterruptedException,ClassNotFoundException
参数的意义:
conf,输入点的目录路径名
input,初始化计算的输入点所在路径名
clustersIn,初始化及计算聚类的路径
output,输出聚类点的路径名
measure,距离测算法的类名
convergenceDelta,收敛值
maxIterations,最大迭代次数
runClustering,迭代完成之后是否继续聚类
clusterClassificationThreshold,低于该值的点将不会参数聚类
runSequential,是否执行sequential算法
篮球的起源
(
根据这5条基本原则,奈史密斯先生制定出最原始的篮球竞赛规则。最原始的篮球竞赛规则一共有13条。这13条的基本内容是:
1.球员可以用单手或双手向任何方向扔球。
2.球员可以用单手或双手向任何方向抢、打球,但绝对不能用拳头击球。
3.球员不能带球走。
4.必须用手持球,而不允许用头顶、脚踢球。
5.不允许球员用肩撞、手拉、手推、手打、脚绊等方法来对付另一方的队员。任何队员违反此规则,第一次被认为是犯规,第二次再犯规,就要被强行停止比赛,直到命中一个球后才能重新上场参加比赛。如果有意伤害对方球员,就要取消他参加整个比赛的资格,且不允许替补。
6.用拳击球就是违反第3条和第4条规则
7.如果任何一方连续犯规3次,就要算对方命中一球。连续犯规的意思是指:在一段时间里,对方队员未发生犯规,而本方队员接连发生犯规。
8.如果防守者没有触到球或干扰球,当球投入篮内并停留在篮里就算中篮。如果球停在篮筐上,而对方队员触动了篮筐,也算命中一球。
9.当球出界,球将由第一个接触球者扔进场内。若有争论,裁判员将球扔进场内。掷界外球允许5秒钟,如果超过5秒钟,球判给对方。
10.主裁判员是球员的裁判,他有权吹犯规。当某队连续3次犯规,他将通知副裁判员。他有权宣布取消某队员的比赛资格。
11.副裁判员是球的裁判,他可决定什么时候球在比赛中,并要计时、决定球的命中、记录命中的球数以及承担通常裁判员应该承担的责任。
12.比赛在两个 15分钟内进行,中间休息5分钟。
13.球命中最多的一方获胜,如果平局,经双方队长的同意,比赛可延至再命中一球为止。
这原始的13条篮球竞赛规则,虽然不系统,不完整,有些条文还不够明确,但对初期篮球运动的发展起着很大的推动作用。特别是篮球运动发展到今天成为现代篮球运动,技、战术水平越来越高,规则就显得更加重要,它要求严格、科学、系统地管理篮球竞赛。
基本规则一:
1.比赛方法
一队五人,其中一人为队长,候补球员最多七人,但可依主办单位而增加人数。比赛分四节,每节各10分钟,每节之间休息5分钟,中场休息 10 分钟。比赛结束两队积分相同时,则举行延长赛 5 分钟,若 5 分钟后比数仍相同,则再次进行 5 分钟延长赛,直至比出胜负为止。
2.得分种类
球投进篮框经裁判认可后,便算得分。 3 分线内侧投入可得 2 分;3分线外侧投入可得 3 分,罚球投进得 1 分。
3.进行方式
比赛开始由两队各推出一名跳球员至中央跳球区,由主审裁判抛球双方跳球,开始比赛。掷界外球。
4.选手替换
每次替换选手要在20秒内完成,替换次数则不限定。交换选手的时间选在有人犯规、争球、叫暂停等。裁判可暂时中止球赛的计时。
5.罚球
每名球员各有 4 次被允许犯规的机会,第五次即犯满退场(NBA中为6次)。且不能在同一场比赛中再度上场。罚球是在谁都不能阻挡、防守的情况下投篮,是做为对犯规队伍的处罚,给予另一队的机会。罚球要站在罚球线后,从裁判手中接过球后 10秒内要投篮。在投篮后,球触到篮框前均不能踩越罚球线。
6.违例
大致可分为(1)普通违例:如带球走步、两次运球、脚踢球或以拳击球。(2)跳球违例、(3)跳球时的违例:除了跳球球员以外的人被可在跳球者触到球之前进入中央跳球区。
基本规则二:
24秒钟规则
---进攻球队在场上控球时必须在24秒钟内投篮出手(NBA,CB......余下全文>>
一般的会计其实是一个技术活,并不需要多少知识深度,但是高级别的会计就不一样了,需要很多理财的知识,
一般学历要求是大专或者本科
对一个企业来说,非常重要,
企业的目的是营利。而会计就是计算营利额的职位。
评论暂时关闭