Mahout初步认识,Mahout认识


Apache Mahout项目主要包括以下五个部分:
频繁模式挖掘:挖掘数据中频繁出现的项集。
聚类:将诸如文本、文档之类的数据分成局部相关的组。
分类:利用已经存在的分类文档训练分类器,对未分类的文档进行分类。
推荐引擎(协同过滤):获得用户的行为并从中发现用户可能喜欢的事务。
频繁子项挖掘:利用一个项集(查询记录或购物目录)去识别经常一起出现的项目。

在Mahout实现的机器学习算法:

算法类

算法名

中文名

分类算法

Logistic Regression

逻辑回归

Bayesian

贝叶斯

SVM

支持向量机

Perceptron

感知器算法

Neural Network

神经网络

Random Forests

随机森林

Restricted Boltzmann Machines

有限波尔兹曼机

聚类算法

Canopy Clustering

Canopy聚类

K-means Clustering

K均值算法

Fuzzy K-means

模糊K均值

Expectation Maximization

EM聚类(期望最大化聚类)

Mean Shift Clustering

均值漂移聚类

Hierarchical Clustering

层次聚类

Dirichlet Process Clustering

狄里克雷过程聚类

Latent Dirichlet Allocation

LDA聚类

Spectral Clustering

谱聚类

关联规则挖掘

Parallel FP Growth Algorithm

并行FP Growth算法

回归

Locally Weighted Linear Regression

局部加权线性回归

降维/维约简

Singular Value Decomposition

神秘值分解

Principal Components Analysis

主成分分析

Independent Component Analysis

独立成分分析

Gaussian Discriminative Analysis

高斯判别分析

进化算法

并行化了Watchmaker框架

 

推荐/协同过滤

Non-distributed recommenders

Taste(UserCF, ItemCF, SlopeOne)

Distributed Recommenders

ItemCF

向量相似度计算

RowSimilarityJob

计算列间相似度

VectorDistanceJob

计算向量间距离

非Map-Reduce算法

Hidden Markov Models

隐马尔科夫模型

集合方法扩展

Collections

扩展了java的Collections类



Mahout既可以在本地模式下运行,还可以利用Hadoop的MR运行作业。

Mahout API分为以下几部分:

org.apache.mahout.cf.taste:基于协同过滤的Taste相关的API。
org.apache.mahout.clustering:聚类算法相关的API
org.apache.mahout.classifier:分类算法
org.apache.mahout.fpm:频繁模式算法
org.apache.mahout.math:数学计算相关算法
org.apache.mahout.vectorizer:向量计算相关算法


1.KMeansConfigKeys接口

DISTANCE_MEASURE_KEY:K-Means聚类算法使用的距离测量方法
CLUSTER_CONVERGENCE_KEY:K-Means聚类算法的收敛值
CLUSTER_PATH_KEY:K-Means聚类算法的路径

2.KCLUSTER类
通常被主函数调用,通过给定的新聚类中心和距离函数来计算新的聚类,
并判断聚类是否收敛。

类KCLUSTER的主要函数列表

KCLUSTER(Vertor center,int clusterId,DistanceMeasure mesure)
:初始化K-Means聚类算法的构造方法,使用输入的点作为聚类的中心
来创建一个新的聚类。参数measure用于比较点之间的距离,center
为新的聚类中心,clusterId为新聚类的ID

public static String formatCluster(Kcluster cluster)
:格式化输出


public boolean computeConvergence(DistanceMeasure measure,
double convergenceDelta)
:计算该聚类是否收敛




3.KMeansDriver类
该类为执行聚类的入口函数,包括buildClusters、clusterData、
run及main等函数,


函数列表:
public static void run(org.apache.hadoop.conf.Configuration conf,
org.apache.hadoop.fs.Path input,org.apache.hadoop.fs.Path clusterIn,
org.apache.hadoop.fs.Path output,DistanceMeasure measure,double convergenceDelta,
int maxIterations,boolean runClustering,double clusterClassificationThreshold,
boolean runClustering,double clusterClassificationThreshold,boolean runSequential)
throws IOException,InterruptedException,ClassNotFoundException
参数的意义:
conf,输入点的目录路径名
input,初始化计算的输入点所在路径名
clustersIn,初始化及计算聚类的路径
output,输出聚类点的路径名
measure,距离测算法的类名
convergenceDelta,收敛值
maxIterations,最大迭代次数
runClustering,迭代完成之后是否继续聚类
clusterClassificationThreshold,低于该值的点将不会参数聚类
runSequential,是否执行sequential算法


篮球的初步认识

  篮球的起源

  (
  根据这5条基本原则,奈史密斯先生制定出最原始的篮球竞赛规则。最原始的篮球竞赛规则一共有13条。这13条的基本内容是:

  1.球员可以用单手或双手向任何方向扔球。

  2.球员可以用单手或双手向任何方向抢、打球,但绝对不能用拳头击球。

  3.球员不能带球走。

  4.必须用手持球,而不允许用头顶、脚踢球。

  5.不允许球员用肩撞、手拉、手推、手打、脚绊等方法来对付另一方的队员。任何队员违反此规则,第一次被认为是犯规,第二次再犯规,就要被强行停止比赛,直到命中一个球后才能重新上场参加比赛。如果有意伤害对方球员,就要取消他参加整个比赛的资格,且不允许替补。

  6.用拳击球就是违反第3条和第4条规则

  7.如果任何一方连续犯规3次,就要算对方命中一球。连续犯规的意思是指:在一段时间里,对方队员未发生犯规,而本方队员接连发生犯规。

  8.如果防守者没有触到球或干扰球,当球投入篮内并停留在篮里就算中篮。如果球停在篮筐上,而对方队员触动了篮筐,也算命中一球。

  9.当球出界,球将由第一个接触球者扔进场内。若有争论,裁判员将球扔进场内。掷界外球允许5秒钟,如果超过5秒钟,球判给对方。

  10.主裁判员是球员的裁判,他有权吹犯规。当某队连续3次犯规,他将通知副裁判员。他有权宣布取消某队员的比赛资格。

  11.副裁判员是球的裁判,他可决定什么时候球在比赛中,并要计时、决定球的命中、记录命中的球数以及承担通常裁判员应该承担的责任。

  12.比赛在两个 15分钟内进行,中间休息5分钟。

  13.球命中最多的一方获胜,如果平局,经双方队长的同意,比赛可延至再命中一球为止。

  这原始的13条篮球竞赛规则,虽然不系统,不完整,有些条文还不够明确,但对初期篮球运动的发展起着很大的推动作用。特别是篮球运动发展到今天成为现代篮球运动,技、战术水平越来越高,规则就显得更加重要,它要求严格、科学、系统地管理篮球竞赛。

  基本规则一:

  1.比赛方法

  一队五人,其中一人为队长,候补球员最多七人,但可依主办单位而增加人数。比赛分四节,每节各10分钟,每节之间休息5分钟,中场休息 10 分钟。比赛结束两队积分相同时,则举行延长赛 5 分钟,若 5 分钟后比数仍相同,则再次进行 5 分钟延长赛,直至比出胜负为止。

  2.得分种类

  球投进篮框经裁判认可后,便算得分。 3 分线内侧投入可得 2 分;3分线外侧投入可得 3 分,罚球投进得 1 分。

  3.进行方式

  比赛开始由两队各推出一名跳球员至中央跳球区,由主审裁判抛球双方跳球,开始比赛。掷界外球。

  4.选手替换

  每次替换选手要在20秒内完成,替换次数则不限定。交换选手的时间选在有人犯规、争球、叫暂停等。裁判可暂时中止球赛的计时。

  5.罚球

  每名球员各有 4 次被允许犯规的机会,第五次即犯满退场(NBA中为6次)。且不能在同一场比赛中再度上场。罚球是在谁都不能阻挡、防守的情况下投篮,是做为对犯规队伍的处罚,给予另一队的机会。罚球要站在罚球线后,从裁判手中接过球后 10秒内要投篮。在投篮后,球触到篮框前均不能踩越罚球线。

  6.违例

  大致可分为(1)普通违例:如带球走步、两次运球、脚踢球或以拳击球。(2)跳球违例、(3)跳球时的违例:除了跳球球员以外的人被可在跳球者触到球之前进入中央跳球区。

  基本规则二:

  24秒钟规则

  ---进攻球队在场上控球时必须在24秒钟内投篮出手(NBA,CB......余下全文>>
 

你对会计的初步认识

一般的会计其实是一个技术活,并不需要多少知识深度,但是高级别的会计就不一样了,需要很多理财的知识,
一般学历要求是大专或者本科
对一个企业来说,非常重要,
企业的目的是营利。而会计就是计算营利额的职位。
 

相关内容