阿里大数据比赛sesson2_RF&GBRT(上),阿里比赛sesson2_rf


----------一点比赛心得,供不太熟悉Xlab RF和GBRT调用的同学参考,不喜勿喷,大神绕道,么么哒。。。。。----------


6月初的时候LR 做到4.9后一直上不去,看群里火热的讨论RF,转而使用RF,几经折腾上手后,在当时的那批对LR来说很好的特征处理下,结果F1只有3.5左右,心灰意冷。。。然后又看到火热讨论GBRT,再转gbrt,刚上手,效果和RF差不多,看到别的同学直接从LR转到RF和GBRT都效果好很多,那个急啊,然后又是考试周,就一直拖拉到6月下旬,终于下定决心重新做一遍,因为gbrt训练时间比较长,且RF和GBRT对特征的效果相当,RF预测时间相对较短一些,便重新做RF,慢慢的有效果了,停止了F1终于开始往上涨:4.9->5.16->5.66...最近开始再添加特征,相信还会有提升,下面把我们的RF和GBRT的训练和预测方法大概讲一下(主要以截图为主)


1、Xlab GBRT上手


1.1、训练特征表准备

训练的特征表gbrt_offline_section_one_24格式为:user_id,brand_id,feature1,feature2...Label      

见下图:


1.2 、建立特征稀疏表,为训练做准备

特征稀疏表可直接在Xlab由原始特征表转换得到,截图如下


进入普通表转稀疏矩阵界面后,在选择列里填上: user_id对应的列号(表默认从0列开始),brand_id对应的列号,以及想要使用的众多特征对应的列号(不需要填写标签对应的列号!!!);然后在输出表里填上转换成的稀疏矩阵gbrt_offline_section_one_24_1;如下图



1.3 、GBRT训练

       利用训练的特征表gbrt_offline_section_one_24,进行GBRT训练,如下图所以


进入配置界面,勾选训练的标签,稀疏矩阵名处输入刚才转好的稀疏矩阵gbrt_offline_section_one_24_1,模型输出表处填写模型输出表名,参数配置处根据效果进行配置(最开始默认就可以的)。如下图所示:



配置好只好就可以进行训练了,等待训练好之后等到GBRT预测模型:gbrt_offline_section_one_25;


1.4、GBRT预测特征表准备

训练的特征表gbrt_offline_section_two_11格式与训练特征表格式一样,为:user_id, brand_id, feature1, feature2...Label      见下图:


1.5、建立预测稀疏矩阵表

特征稀疏表可直接在Xlab由原始特征表转换得到,方法和原来一样,直接截图如下


需要注意的是,选择列必须和训练时候一样!!!


1.6、GBRT预测

利用转好的预测稀疏矩阵表gbrt_offline_section_two_11_1进行预测,如下图所示


进入界面如下:model 处填写刚才训练好的GBRT模型表:gbrt_offline_section_one_25;输出表名处填写预测结果输出表 gbrt_offline_section_two_13,然后进行预测,如下图所示:


1.7、GBRT碎碎念

GBRT预测好之后,得到的结果为与原始预测表gbrt_offline_section_two_11一一对应的单列值y_var(搞不懂为什么不提供类似RF那样预测结果追加user_id,brand_id 列),如下图:


所以,还得进行追加ID列,进行zxs_gbrt_offline_section_two_13_1和zxs_gbrt_offline_section_two_11_1两张表的合并,得到类似user_id,brand_id,y_val的表,取阈值进行推荐就可以了,下图为xlab里提供的脚本,追加ID列代码。



-----------__-----------PS---------__----------


数据分析是“大海捞针” 阿里数据挖掘了?

导读:大数据是如何产生价值的,大数据是无所不能的吗,应用边界在哪里?这些问题,似乎人人都有一个模糊的概念,但始终没有一个统一的答案。 今日关于“大数据”的讨论达到了一个高峰,数据就是未来已经不置可否地成为了互联网企业的未来新战略发展的中心。什么是大数据,大数据是如何产生价值的,大数据是无所不能的吗,应用边界在哪里?这些问题,似乎人人都有一个模糊的概念,但始终没有一个统一的答案。 说到大数据,首当其冲的应该是已经围绕数据海洋中耕耘已久并衍生出金融借贷业务的阿里系。马云将集团下的阿里金融与支付宝两项核心业务合并成立阿里小微金融,并将之前呼声最高的接班人彭蕾安排到阿里小微金融掌舵,马云对未来数据战场的重视可见一斑。作为筹备中的阿里小微金融服务集团数据平台,负责人冯春培也对数据有着独到的见解,他向作者表示目前国内对于大数据的讨论更偏重技术方向,即“如何沉淀数据”,对于数据的应用则思考较少。数据如何产生价值?这需要要从大数据的本质说起。 线上数据才是大数据 要搞清楚什么是大数据,首先你要知道什么样的数据才是有用的。按照冯春培的理解,任何行为本身都会产生数据,但只有线上数据有可能被沉淀和利用。“比如不通过淘宝,原本人们的交易行为在线下也是产生数据的,只不过这种交易行为是私密的,除了买卖双方,其他人是不知道我的交易行为的,同时交易双方也是匿名的,从数据的性质上来说无法沉淀,从来源上来说也没有一个方法能有效地收集。” 大数据是什么?冯春培的理解似乎更贴近本质:“拥有数据的本质,是你对这个世界,你对这些人,你对这些企业,你对这个时代,有了一个更全面而清楚的认知,你能理解这些人的需求,你能理解这个世界的任何的变化。” 你可以这么理解,如果你是阿里系的深度用户(比如淘宝卖家),他们掌握了你足够多的数据,对你的信用评估也会更加全面,这个数据不仅可以在金融领域中起作用,比如帮助你在阿里小贷更方便的贷款,在生活中也可以反映你的信用状况,“比如相亲 ,你怎么证明你的收入?你拿出支付宝的账单,女孩子一看一年花了100万,你说你的信用良好,每个月信用卡还的都很及时,比你说破嘴皮有用多了吧?” 数据就是生产资料 如果数据仅仅是作为辅助参考信息,也必要投入如此多的精力。从生产要素来说,数据到底是什么角色?冯春培的定义是“生产资料”。“我们部门的名字是‘商业智能部’,数据更多的像是一种业务的辅助决策,作为一个“参谋”的角色,现在我们要逐步的让这个数据融入到我们的业务和产品这个流程里面去,数据和业务就像两个齿轮,能扣在一起转。当我们对数据的挖掘和理解越来越强,最终数据不仅可以产生价值,还可以直接催生产品,比如阿里金融的一些数据,我们把它定义为生产资料。” 这就是阿里系未来要做的事情,把数据变成生产资料。与传统的生产资料不同的是,数据是可以无限次使用的,并且是越使用越丰富的。 近期阿里巴巴在移动互联网市场频频出手,未来也许有可能将数据进行融合,用户的各种信息得以呈现在一个全景图里面,即使在完全陌生的城市,借助这种服务,你也能知道附近哪家店支持支付宝付款,微博上哪个网友刚刚在附近的咖啡店歇脚。 数据分析是“大海捞针” 与大多数互联网产品存在的问题相同,互联网产生的数据是有可能被伪造的,同时也是无序的、碎片化的。 对于这一点,冯春培也毫不讳言,“短期的伪造数据当然是有可能的,用特定的维度去伪造数据也是完全可能的,但是因为我们的业务是基于长期数据进行跟踪分析的,采纳的维度也更广,伪造数据的成本和难度会越来越大。按照我们现在的信用模型,伪造数据的收益是不太可能覆盖成本的,那么我们可以基本判断,数据......余下全文>>
 

大数据与阿里小贷的关系

阿里小贷利用大数据的分析方法,制定贷款策略
 

相关内容