java转大数据的学习路线

  • 时间:
  • 浏览:2
  • 来源:大发5分11选5_大发5分11选5官网

8)Spark (《Spark 权威指南》)—30小时

4)Hadoop (《Hadoop 权威指南》)—30小时

9)Python

10)买车人用虚拟机搭建一俩个 多 集群,把所有工具都装上,买车人开发一俩个 多 小demo —30小时

第一阶段(基础阶段)

enter image description here

Scala概述。

Scala编译器安装。

Scala基础。

数组、映射、元组、集合。

类、对象、继承、特质。

模式匹配和样例类。

了解Scala Actor并发编程。

理解Akka。

理解Scala高阶函数。

理解Scala隐式转换。

大数据的未来前景可期,入行的人也非常的多,而如保快速的完成转型,如保快速的进入大数据领域,就不到转型者、小白去进行深刻的思考。

Spark SQL概述。

DataFrames。

DataFrame常用操作。

编写Spark SQL查询应用程序。

Spark Streaming

数据分派可是我,该如保存储?,对应冒出了GFS,HDFS,TFS等分布式文件存储系统。

可否买车人用VMware搭建4台虚拟机,否则安装以上软件,搭建一俩个 多 小集群(买车人亲测,I7,64位,16G内存,详细可否运行起来)

运行WordCount示例应用程序。

了解MapReduce组织组织结构的运行机制。

MapReduce应用应用程序流程解析。

MapTask并发数的决定机制。

MapReduce中的combiner组件应用。

MapReduce中的序列化框架及应用。

MapReduce中的排序。

MapReduce中的自定义分区实现。

MapReduce的shuffle机制。

MapReduce利用数据压缩进行优化。

MapReduce应用程序与YARN之间的关系。

MapReduce参数优化。

MapReduce的Java应用开发

5)Hive(《Hive开发指南》)–20小时

大数据方向的工作目前主要分为俩个 多 主要方向:

附上大数据工程师技能图:

enter image description here

Spark core

大数据本质也是数据,否则又有了新的型态,包括数据来源广、数据格式复杂(型态化数据、非型态化数据、Excel文件、文本文件等)、数据量大(大慨也是TB级别的、甚至将会是PB级别)、数据增长下行速率 快等。

普通的MapReduce避免数据不到一批一批所避免,时间延迟太长,为了实现每输入两根数据就能得到结果,于是冒出了Storm/JStorm可是我的低下行速率 的流式计算框架;

机器学习算法以及mahout库加MLlib

R语言

Lambda 架构

Kappa架构

Kylin

Alluxio

三、学习路径

假设每天可否抽出俩个小时的有效学习时间,加上周末每天保证10个小时的有效学习时间;

为了提高工作下行速率 ,加快运下行速率 ,冒出了这个 辅助工具:

enter image description here

Spark概述。

Spark集群安装。

执行第一俩个 多 Spark案例应用程序(求PI)。

RDD

Hive 中的DDL操作。

在Hive 中如保实现高效的JOIN查询。

Hive 的内置函数应用。

Hive shell的高级使用方法。

Hive 常用参数配置。

Hive 自定义函数和Transform的使用技巧。

Hive UDF/UDAF开发实例。

Hive 执行过程分析及优化策略

6)HBase(《HBase权威指南》)—20小时

大数据介绍

enter image description here

数据存储可是我,该如保通过运算快速转化成一致的格式,该如保快速运算出买车人我不想的结果?

针对以上主要的俩个 多 型态大伙不到考虑以下大问题:

对应的MapReduce可是我的分布式运算框架避免了这个 大问题;否则写MapReduce不到Java代码量很大,所以冒出了Hive,Pig等将SQL转化成MapReduce的解析引擎;

Java高级(虚拟机、并发)

Linux 基本操作

Hadoop(HDFS+MapReduce+Yarn )

HBase(JavaAPI操作+Phoenix )

Hive(Hql基本操作和原理理解)

Kafka

Storm/JStorm

Scala

Python

Spark (Core+sparksql+Spark streaming )

辅助小工具(Sqoop/Flume/Oozie/Hue等)

Linux操作系统介绍与安装。

Linux常用命令。

Linux常用软件安装。

Linux网络。

防火墙。

Shell编程等。

2)Java 高级学习(《深入理解Java虚拟机》、《Java高并发实战》)—30小时

高阶技能6条

不到掌握的技能11条

HDFS的概念和型态。

HDFS的shell操作。

HDFS的工作机制。

HDFS的Java应用开发。

MapReduce

否则将会一起去不到批避免和流避免,按照如上就得搭俩个 多 集群,Hadoop集群(包括HDFS+MapReduce+Yarn)和Storm集群,不易于管理,所以冒出了Spark可是我的一站式的计算框架,既可否进行批避免,又可否进行流避免(实质上是微批避免)。

hbase简介。

habse安装。

hbase数据模型。

hbase命令。

hbase开发。

hbase原理。

掌握多应用程序。

掌握并发包下的队列。

了解JMS。

掌握JVM技术。

掌握反射和动态代理。

3)Zookeeper学习

Zookeeper分布式协调服务介绍。

Zookeeper集群的安装部署。

Zookeeper数据型态、命令。

Zookeeper的原理以及选举机制。

大数据工程师

数据分析师

大数据科学家

这个 (数据挖掘等)

二、大数据工程师的技能要求

将会数据增长下行速率 快,数据存储就不到可否水平扩展。

一、大数据相关的工作介绍

二、大数据工程师的技能要求

三、大数据学习规划

正文

一、大数据相关工作介绍

第二阶段(攻坚阶段)

7)Scala(《快学Scala》)–20小时

Hive 应用场景。

Hive 与hadoop的关系。

Hive 与传统数据库对比。

Hive 的数据存储机制。

Hive 基本操作

enter image description here

这个 (MLlib and GraphX )

1)Linux学习(跟鸟哥学就ok了)—–20小时

park Streaming概述。

理解DStream。

DStream相关操作(Transformations 和 Output Operations)。

Structured Streaming

RDD概述。

创建RDD。

RDD编程API(Transformation 和 Action Operations)。

RDD的依赖关系

RDD的缓存

DAG(有向无环图)

Spark SQL and DataFrame/DataSet

而后Lambda架构,Kappa架构的冒出,又提供了两种业务避免的通用架构。

Hive 基本概念

Ozzie,azkaban:定时任务调度的工具。

Hue,Zepplin:图形化任务执行管理,结果查看工具。

Scala语言:编写Spark应用程序的最佳语言,当然不可否选者用Python。

Python语言:编写这个 脚本总要用到。

Allluxio,Kylin等:通过对存储的数据进行预避免,加快运算下行速率 的工具。

以上大致就把整个大数据生态上方用到的工具所避免的大问题列举了一遍,知道了大伙为哪此而冒出将会说冒出是为了避免哪此大问题,进行学习的可是我也有的放矢了。

HDFS

俩个月会有(213+4210)3=423小时的学习时间。

数据来源广,该如保分派汇总?,对应冒出了Sqoop,Cammel,Datax等工具。

这个 次要一般工作中将会也有数据挖掘,机器学习一般用不到,可否等到不到用到的可是我再深入学习。