专注大数据培训
我们一直在领跑

适合人群

在职Java开发程序猿

希望通过业余时间提升专业技能,转行晋升大数据开发

渴望扩展技术面,向往全栈工程师的有志青年

学习方式

周末学习

线上方式:跟随线下班进度,每周末收看实时课堂直播

线下方式:每周末,到多易教学楼参加线下面授

学习时长

线下学习周期:8个周末

>>>  获取优惠及报班直达  <<<

HADOOP离线计算系统

模块名称内容提要
Hadoop基础Hadoop生态体系简介;
HDFS基本架构;
HDFS核心原理;
HDFS客户端编程实战;
HDFS集群运维与调优经验;MapReduce基本架构;
MapReduce核心原理;
MapReduce编程实战等;
Hadoop高级 MapReduce组件自定义案例实战;
MapReduce高级应用;
Yarn资源调度机制;
Yarn调度策略最佳实践;
Hadoop运维,Hadoop调优;Hadoop内核解析等;
Hive基础Hive核心架构;
Hive开发环境和使用方式;
Hive核心原理解析;
Hive核心概念(分区、分桶、外部表、内部表、文件格式等);
HQL查询详解等;
Hive高级Hive批处理脚本开发;
Hive函数详解;
Hive内部原理源码解析;
Hive执行计划剖析;
Hive高级特性与调优等;
Hbase基础Hbase核心架构;
Hbase开发环境及基本使用;
Hbase核心原理解析(物理存储、逻辑存储、角色架构、数据缓存机制、数据访问机制等);
Hbase客户端API详解等;
Hbase高级 Hbase索引机制与最佳实践;
Hbase集群运维;
Hbase与MapReduce整合;
Hbase region分裂与合并机制;
HFile合并机制;
Hbase调优案例等;
HADOOP外围组件Sqoop数据迁移工具;
Azkaban任务调度系统;
Oozie任务管理调度平台;
Atlas元数据管理系统;
Zookeeper分布式协调服务等;

DESCRIPTION

本阶段的重点在于通过HDFS和MAPREDUCE,建立起分布式大数据软件系统的整体架构概念,体会分布式并行计算的特点;框架应用方面,则重点且彻底地精通掌握HIVE

SPARK内存计算系统

模块名称内容提要
Scala函数式编程Scala基本语法与数据类型;
Scala函数与方法;
Scala面向对象高级特性;
Scala隐式转换;
Scala柯里化泛型界定等高级语法;Scala并发编程体系等;
Kafka消息缓存系统Kafka基本架构开发环境及基本使用;Kafka核心概念详解;
Kafka客户端编程API详解;
Kafka Streaming、Kafka原理深入剖析(Broker数据备份机制、Broker日志存储管理机制、消费者偏移量管理机制等);
Kafka集群日常运维技术等;
Spark CoreSpark开发环境及基本使用;
RDD/Stage/DAG等核心概念详解;
BroadCast广播变量;
Accumulator累加器;
RDD编程api详解;
RDD编程实战加强;
Spark原理解析(Stage划分机制、任务提交机制、任务运行机制、RDD数据缓存机制、Task序列化机制、Executor内存管理机制等);
Spark SQLDataFrame核心概念及api详解;
DataSet核心概念及api详解;
SparkSQL语法解析模块;
SparkSQL内存管理模型;
SparkSQL编程加强;
自定义函数UDF/UDAF/UDTF;
Spark StreamingSparkStreaming流式计算核心概念;
DStream数据模型及api详解;
Kafka等各类外围存储系统整合;
SparkStreaming Exactly Once;
分布式事务控制方案;
Spark MLlib机器学习算法核心概念详解;
常见机器学习算法数学思想;
SparkMLlib基础编程接口;
SparkMLlib特征工程编程工具;
SparkMLlib各类算法应用实战;

DESCRIPTION

本阶段是大数据平台体系的重中之重,Spark是当今企业界最主流的大数据计算引擎,已经是目前行业内的事实标准;可以说,你只要学好了spark技术体系,那么你就已经能够胜任大数据开发的绝大部分岗位;

FLINK实时流式计算

模块名称内容提要
Flink基础Flink基本架构;
Flink开发环境及基本使用;
Flink核心概念详解;
Flink与Spark Streaming对比;
Flink流式处理API详解;
Flink批处理API详解;
Flink加强Flink核心原理深入剖析;
Flink的Checkoint原理和使用场景;Flink State的原理;
Flink WaterMark高级特性;
Flink 侧流输出等高级特性;
Flink与Redis、Kafka、Hbase等组件整合;
Flink On Yarn运行机制;
Flink源码剖析;
Flink集群运维与常用调优策略等;

DESCRIPTION

Flink是大数据圈内近期快速崛起的一匹流式计算黑马;它先进的流式计算架构理念为它带来了极为强悍而灵活的功能特性,能高度适应各种复杂及高性能要求的流式计算场景,在面世后即快速获得了业界的高度关注,而多易教育则是在培训圈中率先推出Flink课程的先驱,等别的机构跟进的时候,多易教育又快速更新迭代课程,让课程内容在短时间内即达到一个别的机构暂时无法跟进的高度;Flink是目前获取高薪Offer的一个杀手锏,重要!

大数据综合实战项目

重点项目

  1. 某著名生鲜卖场实时数据运营系统
  2. Titan大型综合数据运营平台
  3. 某同城用户画像及智能推荐数据挖掘系统
  4. 某著名搜索引擎搜索反作弊系统

附赠项目

  1. 玖富金融大数据数仓系统
  2. 中国天气网访客行为与流量分析系统
  3. 茄子快传用户大数据分析系统
  4. 某著名页游运营大数据分析系统
  5. 精准广告推送DMP系统
  6. 共享单车数据分析系统

说明

多易教育的项目课程一直有一个难题,就是项目太多!而由于培训周期的限制,不可能让学员将所有项目一一实践,所以,本阶段的重点在四大主打项目,学有余力的学员可以学习其他附赠项目; 项目课程的关键在实战性,真实性,深入性;不能光看项目名称来判断项目含金量,市场上大量的培训机构所讲授的项目,名字看起来像一回事,实际内容则与一个简单的入门小案例相差无几;

鉴于周末班学员已经具备较深的编程功底,以及受限于学习时长,项目部分主要进行架构、流程和关键技术的讲解,不会像其他班级一样带着学员从头至尾完整完整实践;不过,可以提供详细讲解版的视频供周末班学员自主学习;

实战项目(一): 某著名生鲜卖场实时数据运营系统

核心业务实现一个大型电商的各类用户浏览行为、交易行为、事件交互行为等数据流进行实时监控、分析、统计、核算等业务;
核心技术数据采集: FLUME
计算引擎: Flink FlinkSQL
存储系统: MySQL Redis Kafka HDFS
项目特色:Flink精确一次性语义Exactly-Once保证数据安全; 高吞吐量情况下的压测调优; 系统故障时的分析修复等;

实战项目(二): Titan大型综合数据运营平台

核心业务基于用户、app交互行为、加购、订单来等业务和用户行为数据,构建贴源层、数据集市、数据仓库层次架构,构建各类主题、领域模型,提供各类数据统计、分析、挖掘需求,为公司构筑全方位的数据运营系统。
核心技术核心运算引擎:Spark SQL/Impala/Hue
数据采集系统:SQOOP/FLUME/Canal
其他技术:HDFS/Nginx/Kafka/Spark MLlib/Spring Boot

实战项目(三)xx同城用户画像及个性化推荐系统

核心业务xx同城,一个神奇的网站,国内最大的分类信息网站,上千万级别的用户产生海量的数据,为了给用户提供更优质的服务,针对用户构建根个性化的用户画像系统;
核心技术核心运算引擎: Spark Flink
核心存储系统: HDFS Druid HBase Kafka Elasticsearch
其他技术: Canal FLUME SQOOP SPARK GRAPHX 图计算 SPARK MLLIB 机器学习算法

实战项目(四)某著名搜索引擎实时风控及反作弊系统

某著名搜索引擎实时风控及反作弊系统

核心业务实时监视搜索平台上的各类用户搜索行为,利用相关算法模型,主动侦测、发现刷榜黑产中的各类作弊行为,对作弊客户端进行实时黑名单标记以通知上层搜索风控策略系统进行数据回溯及警告等;
核心技术采集技术: FLUME SQOOP
运算引擎: SPARK CORE SPARK STREAMIG SPARK SQL
存储系统: KAFKA REDIS HDFS MYSQL HBASE ELASTIC SEARCH
数仓系统: HIVE
其他: ZOOKEEPER SPARK GRAPHX 图计算 SPARK MLLIB 机器学习算法 Hanlp 语义处理工具(分词、提取摘要、提取关键词TF-IDF) 爬虫及HTML页面内容提取;