【教程分享】基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析


基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析

 课程讲师:迪伦

 课程分类:Java

 适合人群:高级

 课时数量:96课时

 用到技术:MapReduceHDFSMap-ReduceHiveSqoop

 涉及项目:Greenplum Hadoop大数据分析平台

 更新程度:完毕

对这个课程有兴趣的朋友可以加我的QQ2059055336和我联系

下载地址:链接:   pan.baidu.com/s/1nthYpKH 密码: niyi

  随着云计算、大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈。谷歌、淘宝、百度、京东等底层都应用hadoop。越来越多的企 业急需引入hadoop技术人才。由于掌握Hadoop技术的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员。

   Hadoop入门薪资已经达到了 8K 以上,工作1年可达到 1.2W 以上,具有2-3年工作经验的hadoop人才年薪可以达到 30万—50万 

   一般需要大数据处理的公司基本上都是大公司,所以学习hadoop技术也是进大公司的捷径!

   本课程讲师拥有多年Greenplum和Hadoop实战经验,课程注重实践,原理剖析,实践分享,让学员能快速全面地掌握Greenplum操作和调优,以及Hadoop的搭建与运用实战。

   课程实战、实用、实际,总共 96 课时,系史上最全最深入的讲解Greenplum、Hadoop、云计算相关领域的技能课程,北风仅以此课程献给有志于从事大数据行业,追求高薪的有想法的程序员。

   课程亮点多多:

      亮点一、技术混搭

              Greenplum+Hadoop,让你全面掌握玩转大数据的倚天剑和屠龙刀,让你学到不一样的精彩,成为不一样的复合型               人才!

      亮点二、高成低也就

      亮点三、既注重技术基础,手把手传授技术,通过实操实战的讲授过程让学员沉淀技术,打好牢固坚实的基础;另外,也不                忘从行业、架构的高度,帮助大家扩宽视野,游刃有余。

      亮点四、注重实践:原理剖析,实践分享;让学员能快速全面地掌握Greenplum操作和调优,以及Hadoop的搭建与运用实战。

             实战、实用、实际

      亮点五、 全面覆盖了Greenplum完整知识体系,及关系型数据库管理和调优思想;

      亮点六、课程涵盖Hadoop生态系统中所有常用组件;

      亮点七、 学完此课程可以获得IT行业高薪职业发展能力。

 

 

课程大纲

 

  第一部分 Greenplum 分布式数据库基础(41课时)

 

         1 Greenplum架构

            什么是Greenplum

            Greenplum体系结构

            Greenplum高可用性架构

 

         2 安装Greenplum

            配置环境

            安装并初始化GPDB系统

            启停数据库

            配置GP系统

 

         分布式数据库存储

            数据是如何存储的

            分布策略

 

         4 GBDB查询处理

            查询命令的执行

            SQL查询处理机制

            并行查询计划

 

         角色权限及客户端认证管理

            客户端认证

            管理用户和组

 

         客户端接口和程序

            pgAdmin III

            PSQL

 

         定义数据库对象

            创建并管理数据库

            创建并管理表空间

            创建并管理模式

            创建并管理表

            分区表

            数据分布与分区

            压缩存储与行列存储

            序列、索引与视图

 

         管理数据

            插入、更新、删除记录

            事务管理

            空间回收和统计

 

         查询数据

            定义查询

            使用函数和运算符

            查询分析

 

         10 工作负载及资源管理

            GP工作负载管理概述

            配置工作负载管理

            创建资源队列

            分配资源队列

            检查资源队列状态

 

         11 装载和卸载数据

            GP装载命令概述

            装载数据到GP

            从GP卸载数据

            格式化数据文件

 

         12 备份恢复

            串行备份和恢复

            并行恢复和恢复

 

         13 性能调优

            如何进行调优

            常见的性能问题

         14 GP系统配置参数

            关于GPMaster参数与本地化参数

            设置配置参数

            配置参数种类

 

         15 开启高可用性

            GP高可用概述

            开启GPMirror

            获知Segment何时失败

            恢复失败的Segment

            恢复失败的Master

 

         16 GP MapReduce

            MapReduce基础

            GP MapReduce编程

            MapReduce作业执行和故障诊断

 

 

      第二部分 Hadoop分布式平台(55课时)

 

         1 Hadoop的起源和体系

            Hadoop思想起源:Google

            Hadoop子项目家族

            Hadoop的架构

 

         2 Hadoop的安装与配置

            准备和配置环境

            三种运行模式

            完全分布式模式安装

 

         3 HDFS-大数据存储

            HDFS概念与体系结构

            HDFS的可靠性

            HDFS文件操作

            HDFS API

 

         关于MapReduce

            MapReduce编程模型

            MapReduce的集群行为

            MapReduce任务的优化

            MapReduce工作机制

            错误处理及作业调度机制

 

         5 MapReduce应用开发

            Hadoop Eclipse插件开发

            数据筛选程序开发

            倒排索引程序开发

 

         6 Hadoop监控与管理

            页面监控

            hadoop备份

 

         7 HBase数据库

            Hbase体系结构

            HBase shell

            HBase API应用实例

            HBase场景应用

            HBase模式设计

 

         8 Hive数据仓库

            Hive组件与体系架构

            Hive安装配置

            Hive的服务接口

            HiveQL常用操作

            Hive的优化

            Hive UDF编程

            Hive综合实战

 

         9 Pig数据分析平台

            Pig框架

            Pig安装配置

            Pig的使用

            Pig的数据模型

            常用Pig Latin操作

            Pig UDF编程

            Pig数据分析实战

 

         10 ZooKeeper分布式服务框架

            ZooKeeper工作原理

            ZooKeeper设计目标

            ZooKeeper的数据结构和组成

            ZooKeeper的安装配置

            ZooKeeper命令行工具

            ZooKeeper API

            ZooKeeper实战:Hadoop任务调度

 

         11 Chukwa集群监控系统

            Chukwa的组成

            Chukwa架构和设计

            Chukwa安装与配置

            常用Chukwa命令

            实现自定义数据处理

 

         12 Hadoop商业应用案例

            云计算概念和特征

            云计算服务模式和形态

            Hadoop在云计算的运用

            京东商城

            百度

            阿里巴巴

            腾讯

 

         13 Greenplum Hadoop集群

            集成架构的特征

            集成架构的优势

            配置gphdfs协议使用环境

            使用HDFS外部表

 

 

相关内容