Java开发转大数据

Java开发转大数据

强大的课程体系

全程干货,绝不用web内容充数

设计合理,绝不为好看而堆叠大量不关键的内容

拳拳到肉,全是精要技术点和业内最佳实践

强大的教学机制

通俗易懂,但又绝不会为好懂而降低难度

讲练结合,再难的技术也架不住反复锤炼

不光让听,还要带你讲出来,深入骨髓

无敌的就业保障

明确承诺,不就业全额退款

明确承诺,本科不达12k就业退全款

明确承诺,硕士不达15k就业退全款

Java开发转大数据

唯堆叠内容却不懂取舍,则百害而无一利矣

课程结构战力爆表

随着企业对大数据开发岗的要求变化,以及技术的更新迭代及流行程度变化,课程设计也随之吐故纳新,迭代升级,始终与前沿技术、最新需求保持同步

阶段1:编程基础

为大数据学习而设计的基础阶段,主要包含java语言,mysql数据库,sql语法,linux操作等.

阶段2:离线技术

大数据离线批处理系统的核心技术生态,主要包含hadoop,hive,scala,spark等.

阶段3:实时技术

大数据实时流式计算系统的核心技术上生态,主要包含kafka,canal,flink等.

注:java转大数据班的学员,跳过阶段1,直接从阶段2开始

真场景 · 真数据 · 真技术

大型项目精彩绝伦

100%还原企业需求场景
30TB级开发数据规模
20+物理服务器供实战测试
全程生产级代码现场开发
领先的技术架构技术选型
千行级SQL随处可见
框架扩展开发信手拈来
大量精妙设计引领企业跟随
掌握4大主项目,offer拿到手软

Java开发转大数据
Java开发转大数据
Java开发转大数据
Java开发转大数据

离线批计算框架及项目

hadoop平台,绝对的大数据基石,其HDFS组件至今依旧是大数据平台的底层文件系统行业标准,其MapReduce框架的设计思想,则是spark等新一代引擎的设计源头


主要学习内容:

分布式系统概述HDFS元数据机制精讲MAPREDUCE高阶调优精讲
Hadoop套件介绍HDFS数据读写机制精讲MAPREDUCE高阶编程精讲
Hadoop核心概念基础HDFS高可用机制精讲YARN核心概念基础
Hadoop组件介绍HDFS高级运维技术精讲YARN资源配置精讲
Hadoop安装部署MAPREDUCE核心概念基础YARN调度策略精讲
Hadoop集群启动管理MAPREDUCE编程上手YARN原理架构深入
HDFS核心概念基础MAPREDUCE高阶API运用YARN核心源码解析
HDFS核心操作详解MAPREDUCE原理架构深入YARN核心机制精讲
HDFS常见故障剖析MAPREDUCE核心源码解析MAPREDUCE ON YARN精讲
HDFS原理架构深入MAPREDUCE SHUFFLE机制精讲YARN高阶调优精讲
HDFS核心源码解析MAPREDUCE Task工作机制精讲YARN高阶运维精讲

本课程模块,学习时长约8天.

数据处理,首先需要收集数据,flume是一个apache旗下的开源数据收集系统,常用于各类业务日志的采集汇聚


主要学习内容:

数据采集概念基础FLUME SOURCE详解FLUME sink processor
FLUME概念基础FLUME Channel详解FLUME 自定义组件
FLUME组件介绍FLUME SINK详解FLUME 事务机制精讲
FLUME安装部署FLUME channel selectorFLUME 高阶调优精讲
FLUME入门案例FLUME 拦截器详解FLUME 高阶运维精讲

本课程模块,学习时长约3天.

数据处理,首先需要收集数据,sqoop或datax,都可用于从业务系统的数据库中抽取数据到大数据平台,是实际开发中必不可缺的工具


主要学习内容:

ETL概念基础SQOOP生成全量快照DATAX增量导入
业务库与数据仓库对比SQOOP空值处理DATAX生成全量快照
SQOOP概念基础SQOOP导出详解DATAX空值处理
SQOOP核心组件DATAX概念基础DATAX导出详解
SQOOP入门案例DATAX核心组件DATAX并行度机制详解
SQOOP高阶配置详解DATAX入门案例DATAX流控机制详解
SQOOP全量导入DATAX高阶配置详解
SQOOP增量导入DATAX全量导入

本课程模块,学习时长约2天.

hive的横空出世,把大数据平台的使用难度瞬间降低,它可以让用户通过sql来操作大数据系统的数据,从简单的数据统计到大型的数据仓库,它都能胜任;也是课程的重中之重


主要学习内容:

数据仓库概念基础Hive分区机制Hive小文件问题详解
Hive概念基础Hive分桶机制Hive执行计划
Hive核心组件Hive输入格式组件Hive原理深入精讲
Hive原理基础Hive输出格式组件Hive高阶调优精讲
Hive安装部署Hive SerDe组件详解Hive索引详解
Hive基本操作Hive自定义UDFHive事务机制详解
Hive DDL详解Hive自定义UDAFHive整合Hbase
Hive DML详解Hive自定义UDTFHive数据抽样精讲
Hive常用函数Hive数据倾斜详解Hive执行引擎配置
Hive窗口函数Hive基础调优精讲Hive综合案例实战

本课程模块,学习时长约8天.

hbase是一个基于HDFS的分布式nosql数据库,用于解决数据量庞大但查询逻辑较简单的场景,比如用于用户画像数据的存储和查询支撑


主要学习内容:

NoSql数据库概念基础HBASE客户端高阶编程HBASE BlockCache原理深入
HBASE概念基础HBASE协处理器详解HBASE数据索引原理深入
HBASE核心组件HBASE Region机制详解HBASE读数据机制源码解析
HBASE架构基础HBASE Region分裂深入HBASE高阶调优精讲
HBASE安装部署HBASE Region合并深入HBASE高阶运维精讲
HBASE基本操作HBASE Compact机制深入HBASE行事务机制详解
HBASE DDL命令详解HBASE 底层存储架构深入HBASE行键设计深入
HBASE DML命令详解HBASE Skip-list原理深入HBASE热点问题精讲
HBASE 运维命令详解HBASE LSM-tree原理深入HBASE内存优化精讲
HBASE客户端基础编程Hbase MemStore原理深入HBASE线上故障案例

本课程模块,学习时长约4天.

数据分析讲究实效,如果任何查询分析都需要借助mr、spark等计算引擎则时效低;为此涌现了一大批的即席查询系统(olap引擎),多易第一时间引入了dorisdb和clickhouse


主要学习内容:

计算机基本操作数组的认识与使用IO流工具体系
软件基本原理面向对象编程概念文件读写实战
Java语言特性Java的类与对象序列化原理深入
Java跨平台原理类的继承与多台网络编程基础
Java语言应用领域接口与抽象类网络IO工具体系
Java数据类型类的构造过程详解进程与线程
Java变量使用常用工具类的使用Java并发编程基础
逻辑分支语句集合类的使用Java并发编程高级
循环控制语句集合底层数据结构

本课程模块,学习时长约6天.

scala是一门基于jvm的优秀的函数式编程语言,其在数据处理领域有先天优势,重量级数据处理平台spark就是基于scala开发,因此,学习scala就是为了spark奠定基础


主要学习内容:

Scala 基本概念Scala Product体系Scala 模式匹配
Scala 开发环境配置Scala 样例类Scala 泛型定义
Scala 数据类型Scala 高阶函数Scala 泛型界定
Scala 变量定义使用Scala 柯里化函数Scala 泛型协变
Scala 逻辑控制语法Scala 传名调用Scala 泛型逆变
Scala 函数详解Scala 集合体系Scala 文件读写
Scala 类与对象Scala 隐式转换Scala 并发编程
Scala 抽象类Scala Traverable体系
Scala 特制TraitScala Iterable体系

本课程模块,学习时长约6天.

spark平台,超重磅的大数据计算框架,其优秀的架构设计,强大的编程模型,高效的内存计算,几乎已成了大数据计算引擎中的公认最佳选择,课程的重中之重


主要学习内容:

Spark 基础概念Spark Shuffle机制概要SparkSQL 编程模型
Spark 编程模型Spark Shuffle机制源码深入SparkSQL Dataset详解
Spark RDD属性介绍Spark 并行度机制概要SparkSQL 输入格式详解
Spark 开发环境Spark 并行度机制源码深入SparkSQL 输出格式详解
Spark 入门案例Spark 运行时架构SparkSQL Dataset与RDD转换
Spark RDD转换算子详解Spark 运行时角色精讲SparkSQL sql语法详解
Spark RDD行动算子详解Spark Standalone模式详解SparkSQL tableAPI详解
Spark 广播变量与闭包引用Spark Yarn-Client模式详解SparkSQL 抽样语法
Spark 累加器详解Spark Yarn-Cluster模式详解SparkSQL 数据倾斜调优
Spark 重分区算子Spark 内存管理机制SparkSQL 执行计划详解
Spark RDD原理深入Spark 内存配置进阶SparkSQL 执行计划深入
Spark DAG调度深入Spark 综合案例实战SparkSQL 执行原理源码解析
Spark Task调度核心概念SparkSQL 基础概念SparkSQL 综合实战案例

本课程模块,学习时长约10天.

实时流式处理技术

kafka名字萌萌哒,但它在大数据系统中的作用可不容小觑,几乎所有流式处理系统都会用上kafka,它是一个分布式消息缓存系统,它解耦数据源和处理引擎,它帮助削峰填谷


主要学习内容:

消息队列概念基础Kafka序列化组件Kafka高可用机制深入
消息队列常见框架Kafka消费偏移量维护Kafka数据一致性机制深入
Kafka基础概念Kafka生产者编程Kafka Controller原理
Kafka架构基础Kafka底层存储结构解析Kafka事务机制深入
Kafka组件详解Kafka消费者组Kafka负载均衡进阶
Kafka安装部署Kafka消费者组原理Kafka吞吐量优化进阶
Kafka命令操作Kafka消费者原理深入Kafka线上故障调优
Kafka消费者编程Kafka生产者原理深入Kafka数据高效读写原理深入

本课程模块,学习时长约4天.

实时流式处理也经常要针对业务库中的数据,大数据处理系统实时获取业务库的数据的利器则是阿里开源的canal,它监听mysql的binlog,实时获取增量数据并写入kafka


主要学习内容:

canal基本概念canal实战配置canal线上调优
canal核心机制canal数据结构详解canal整合kafka
canal安装部署canal高级配置canal案例实战

本课程模块,学习时长约1天.

实时流式计算中,经常需要一个存储系统提供快速查询和快速写入,一般数据库难以满足需求,而快如闪电的Redis正好适用


主要学习内容:

内存缓存组件概述Redis数据结构详解Redis底层存储机制
常见内存缓存组件Redis数据结构深入Redis数据TTL详解
Redis基础概念Redis高级数据结构Redis客户端编程
Redis架构原理Redis集群架构Redis运维进阶
Redis安装部署Redis集群模式详解Redis综合实战案例
Redis基础操作Redis集群模式部署

本课程模块,学习时长约3天.

storm之后的第二代实时流式计算重量级引擎,基于spark-core,以无限的微批次处理来模拟实现流式计算,吞吐量大但实时性不够,现已基本上被第三代引擎flink所取代,因此sparkstreaming在课程中大大削减内容,仅做了解用于对比即可


主要学习内容:

sparkstreaming基本概念sparkstreaming常用算子sparkstreaming整合redis
sparkstreaming核心机制sparkstreaming原理深入sparkstreaming窗口计算详解
sparkstreaming编程模型sparkstreaming整合kafkasparkstreaming常见调优手段

本课程模块,学习时长约1天.

实时流式处理中的超级重磅框架,它的横空出世瞬间引爆了实时流式计算平台的兴起,而且成为当下实时流式计算的唯一选择,它灵活高效,事件驱动,时间语义丰富,能实现端到端一致性,优点太多,课程的重中之重


主要学习内容:

Flink基础概念Flink时间语义Flink Checkpoint详解
Flink核心架构介绍Flink窗口计算编程Flink Checkpoint深入
Flink开发环境Flink窗口计算深入Flink Savepoint详解
Flink集群部署Flink WaterMark详解FlinkSQL基础概念
Flink编程入门Flink WaterMark原理深入FlinkSQL TableAPI详解
Flink编程模型详解Flink状态State管理编程FlinkSQL常用函数
Flink批处理API详解Flink状态State管理机制详解FlinkSQL自定义标量函数
Flink流处理API详解Flink底层高阶process APIFlinkSQL自定义聚合函数
Flink并行度详解Flink容错机制详解FlinkSQL自定义表生成函数
Flink并行度深入Flink状态一致性机制FLinkSQL自定义表聚合函数

本课程模块,学习时长约12天.

更多信息

联系我们

19910713760

在线咨询:qq号: 83544844

邮件:19910713760@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信