Java开发转大数据

强大的课程体系

全程干货，绝不用web内容充数

设计合理，绝不为好看而堆叠大量不关键的内容

拳拳到肉，全是精要技术点和业内最佳实践

强大的教学机制

通俗易懂，但又绝不会为好懂而降低难度

讲练结合，再难的技术也架不住反复锤炼

不光让听，还要带你讲出来，深入骨髓

无敌的就业保障

庞大项目库，支撑无敌项目经验

企业在职技术高管全程辅导，助攻就业

对接海量企业HR资源，长期就业合作内推

唯堆叠内容却不懂取舍，则百害而无一利矣

课程结构战力爆表

随着企业对大数据开发岗的要求变化，以及技术的更新迭代及流行程度变化，课程设计也随之吐故纳新，迭代升级，始终与前沿技术、最新需求保持同步

查看详细课程大纲

阶段1：编程基础

为大数据学习而设计的基础阶段，主要包含java语言，mysql数据库，sql语法，linux操作等.

阶段2：离线技术

大数据离线批处理系统的核心技术生态，主要包含hadoop，hive，scala，spark等.

阶段3：实时技术

大数据实时流式计算系统的核心技术上生态，主要包含kafka，canal，flink等.

注：java转大数据班的学员，跳过阶段1，直接从阶段2开始

真场景 · 真数据 · 真技术

大型项目精彩绝伦

100%还原企业需求场景
30TB级开发数据规模
20+物理服务器供实战测试
全程生产级代码现场开发
领先的技术架构技术选型
千行级SQL随处可见
框架扩展开发信手拈来
大量精妙设计引领企业跟随
掌握4大主项目，offer拿到手软

查看详细课程大纲

离线批计算框架及项目

hadoop平台，绝对的大数据基石，其HDFS组件至今依旧是大数据平台的底层文件系统行业标准，其MapReduce框架的设计思想，则是spark等新一代引擎的设计源头

主要学习内容：

分布式系统概述	HDFS元数据机制精讲	MAPREDUCE高阶调优精讲
Hadoop套件介绍	HDFS数据读写机制精讲	MAPREDUCE高阶编程精讲
Hadoop核心概念基础	HDFS高可用机制精讲	YARN核心概念基础
Hadoop组件介绍	HDFS高级运维技术精讲	YARN资源配置精讲
Hadoop安装部署	MAPREDUCE核心概念基础	YARN调度策略精讲
Hadoop集群启动管理	MAPREDUCE编程上手	YARN原理架构深入
HDFS核心概念基础	MAPREDUCE高阶API运用	YARN核心源码解析
HDFS核心操作详解	MAPREDUCE原理架构深入	YARN核心机制精讲
HDFS常见故障剖析	MAPREDUCE核心源码解析	MAPREDUCE ON YARN精讲
HDFS原理架构深入	MAPREDUCE SHUFFLE机制精讲	YARN高阶调优精讲
HDFS核心源码解析	MAPREDUCE Task工作机制精讲	YARN高阶运维精讲

本课程模块，学习时长约8天.

数据处理，首先需要收集数据，flume是一个apache旗下的开源数据收集系统，常用于各类业务日志的采集汇聚

主要学习内容：

数据采集概念基础	FLUME SOURCE详解	FLUME sink processor
FLUME概念基础	FLUME Channel详解	FLUME 自定义组件
FLUME组件介绍	FLUME SINK详解	FLUME 事务机制精讲
FLUME安装部署	FLUME channel selector	FLUME 高阶调优精讲
FLUME入门案例	FLUME 拦截器详解	FLUME 高阶运维精讲

本课程模块，学习时长约3天.

数据处理，首先需要收集数据，sqoop或datax，都可用于从业务系统的数据库中抽取数据到大数据平台，是实际开发中必不可缺的工具

主要学习内容：

ETL概念基础	SQOOP生成全量快照	DATAX增量导入
业务库与数据仓库对比	SQOOP空值处理	DATAX生成全量快照
SQOOP概念基础	SQOOP导出详解	DATAX空值处理
SQOOP核心组件	DATAX概念基础	DATAX导出详解
SQOOP入门案例	DATAX核心组件	DATAX并行度机制详解
SQOOP高阶配置详解	DATAX入门案例	DATAX流控机制详解
SQOOP全量导入	DATAX高阶配置详解
SQOOP增量导入	DATAX全量导入

本课程模块，学习时长约2天.

hive的横空出世，把大数据平台的使用难度瞬间降低，它可以让用户通过sql来操作大数据系统的数据，从简单的数据统计到大型的数据仓库，它都能胜任；也是课程的重中之重

主要学习内容：

数据仓库概念基础	Hive分区机制	Hive小文件问题详解
Hive概念基础	Hive分桶机制	Hive执行计划
Hive核心组件	Hive输入格式组件	Hive原理深入精讲
Hive原理基础	Hive输出格式组件	Hive高阶调优精讲
Hive安装部署	Hive SerDe组件详解	Hive索引详解
Hive基本操作	Hive自定义UDF	Hive事务机制详解
Hive DDL详解	Hive自定义UDAF	Hive整合Hbase
Hive DML详解	Hive自定义UDTF	Hive数据抽样精讲
Hive常用函数	Hive数据倾斜详解	Hive执行引擎配置
Hive窗口函数	Hive基础调优精讲	Hive综合案例实战

本课程模块，学习时长约8天.

hbase是一个基于HDFS的分布式nosql数据库，用于解决数据量庞大但查询逻辑较简单的场景，比如用于用户画像数据的存储和查询支撑

主要学习内容：

NoSql数据库概念基础	HBASE客户端高阶编程	HBASE BlockCache原理深入
HBASE概念基础	HBASE协处理器详解	HBASE数据索引原理深入
HBASE核心组件	HBASE Region机制详解	HBASE读数据机制源码解析
HBASE架构基础	HBASE Region分裂深入	HBASE高阶调优精讲
HBASE安装部署	HBASE Region合并深入	HBASE高阶运维精讲
HBASE基本操作	HBASE Compact机制深入	HBASE行事务机制详解
HBASE DDL命令详解	HBASE 底层存储架构深入	HBASE行键设计深入
HBASE DML命令详解	HBASE Skip-list原理深入	HBASE热点问题精讲
HBASE 运维命令详解	HBASE LSM-tree原理深入	HBASE内存优化精讲
HBASE客户端基础编程	Hbase MemStore原理深入	HBASE线上故障案例

本课程模块，学习时长约4天.

数据分析讲究实效，如果任何查询分析都需要借助mr、spark等计算引擎则时效低；为此涌现了一大批的即席查询系统（olap引擎），多易第一时间引入了dorisdb和clickhouse

主要学习内容：

计算机基本操作	数组的认识与使用	IO流工具体系
软件基本原理	面向对象编程概念	文件读写实战
Java语言特性	Java的类与对象	序列化原理深入
Java跨平台原理	类的继承与多台	网络编程基础
Java语言应用领域	接口与抽象类	网络IO工具体系
Java数据类型	类的构造过程详解	进程与线程
Java变量使用	常用工具类的使用	Java并发编程基础
逻辑分支语句	集合类的使用	Java并发编程高级
循环控制语句	集合底层数据结构

本课程模块，学习时长约6天.

scala是一门基于jvm的优秀的函数式编程语言，其在数据处理领域有先天优势，重量级数据处理平台spark就是基于scala开发，因此，学习scala就是为了spark奠定基础

主要学习内容：

Scala 基本概念	Scala Product体系	Scala 模式匹配
Scala 开发环境配置	Scala 样例类	Scala 泛型定义
Scala 数据类型	Scala 高阶函数	Scala 泛型界定
Scala 变量定义使用	Scala 柯里化函数	Scala 泛型协变
Scala 逻辑控制语法	Scala 传名调用	Scala 泛型逆变
Scala 函数详解	Scala 集合体系	Scala 文件读写
Scala 类与对象	Scala 隐式转换	Scala 并发编程
Scala 抽象类	Scala Traverable体系
Scala 特制Trait	Scala Iterable体系

本课程模块，学习时长约6天.

spark平台，超重磅的大数据计算框架，其优秀的架构设计，强大的编程模型，高效的内存计算，几乎已成了大数据计算引擎中的公认最佳选择，课程的重中之重

主要学习内容：

Spark 基础概念	Spark Shuffle机制概要	SparkSQL 编程模型
Spark 编程模型	Spark Shuffle机制源码深入	SparkSQL Dataset详解
Spark RDD属性介绍	Spark 并行度机制概要	SparkSQL 输入格式详解
Spark 开发环境	Spark 并行度机制源码深入	SparkSQL 输出格式详解
Spark 入门案例	Spark 运行时架构	SparkSQL Dataset与RDD转换
Spark RDD转换算子详解	Spark 运行时角色精讲	SparkSQL sql语法详解
Spark RDD行动算子详解	Spark Standalone模式详解	SparkSQL tableAPI详解
Spark 广播变量与闭包引用	Spark Yarn-Client模式详解	SparkSQL 抽样语法
Spark 累加器详解	Spark Yarn-Cluster模式详解	SparkSQL 数据倾斜调优
Spark 重分区算子	Spark 内存管理机制	SparkSQL 执行计划详解
Spark RDD原理深入	Spark 内存配置进阶	SparkSQL 执行计划深入
Spark DAG调度深入	Spark 综合案例实战	SparkSQL 执行原理源码解析
Spark Task调度核心概念	SparkSQL 基础概念	SparkSQL 综合实战案例

本课程模块，学习时长约10天.

实时流式处理技术

kafka名字萌萌哒，但它在大数据系统中的作用可不容小觑，几乎所有流式处理系统都会用上kafka，它是一个分布式消息缓存系统，它解耦数据源和处理引擎，它帮助削峰填谷

主要学习内容：

消息队列概念基础	Kafka序列化组件	Kafka高可用机制深入
消息队列常见框架	Kafka消费偏移量维护	Kafka数据一致性机制深入
Kafka基础概念	Kafka生产者编程	Kafka Controller原理
Kafka架构基础	Kafka底层存储结构解析	Kafka事务机制深入
Kafka组件详解	Kafka消费者组	Kafka负载均衡进阶
Kafka安装部署	Kafka消费者组原理	Kafka吞吐量优化进阶
Kafka命令操作	Kafka消费者原理深入	Kafka线上故障调优
Kafka消费者编程	Kafka生产者原理深入	Kafka数据高效读写原理深入

本课程模块，学习时长约4天.

实时流式处理也经常要针对业务库中的数据，大数据处理系统实时获取业务库的数据的利器则是阿里开源的canal，它监听mysql的binlog，实时获取增量数据并写入kafka

主要学习内容：

canal基本概念	canal实战配置	canal线上调优
canal核心机制	canal数据结构详解	canal整合kafka
canal安装部署	canal高级配置	canal案例实战

本课程模块，学习时长约1天.

实时流式计算中，经常需要一个存储系统提供快速查询和快速写入，一般数据库难以满足需求，而快如闪电的Redis正好适用

主要学习内容：

内存缓存组件概述	Redis数据结构详解	Redis底层存储机制
常见内存缓存组件	Redis数据结构深入	Redis数据TTL详解
Redis基础概念	Redis高级数据结构	Redis客户端编程
Redis架构原理	Redis集群架构	Redis运维进阶
Redis安装部署	Redis集群模式详解	Redis综合实战案例
Redis基础操作	Redis集群模式部署

本课程模块，学习时长约3天.

storm之后的第二代实时流式计算重量级引擎，基于spark-core，以无限的微批次处理来模拟实现流式计算，吞吐量大但实时性不够，现已基本上被第三代引擎flink所取代，因此sparkstreaming在课程中大大削减内容，仅做了解用于对比即可

主要学习内容：

sparkstreaming基本概念	sparkstreaming常用算子	sparkstreaming整合redis
sparkstreaming核心机制	sparkstreaming原理深入	sparkstreaming窗口计算详解
sparkstreaming编程模型	sparkstreaming整合kafka	sparkstreaming常见调优手段

本课程模块，学习时长约1天.

实时流式处理中的超级重磅框架，它的横空出世瞬间引爆了实时流式计算平台的兴起，而且成为当下实时流式计算的唯一选择，它灵活高效，事件驱动，时间语义丰富，能实现端到端一致性，优点太多，课程的重中之重

主要学习内容：

Flink基础概念	Flink时间语义	Flink Checkpoint详解
Flink核心架构介绍	Flink窗口计算编程	Flink Checkpoint深入
Flink开发环境	Flink窗口计算深入	Flink Savepoint详解
Flink集群部署	Flink WaterMark详解	FlinkSQL基础概念
Flink编程入门	Flink WaterMark原理深入	FlinkSQL TableAPI详解
Flink编程模型详解	Flink状态State管理编程	FlinkSQL常用函数
Flink批处理API详解	Flink状态State管理机制详解	FlinkSQL自定义标量函数
Flink流处理API详解	Flink底层高阶process API	FlinkSQL自定义聚合函数
Flink并行度详解	Flink容错机制详解	FlinkSQL自定义表生成函数
Flink并行度深入	Flink状态一致性机制	FLinkSQL自定义表聚合函数