大数据开发工程师的工作内容,大数据开发工程师日常工作
大数据又称暗数据,是指人脑无法处理的海量数据聚合而成的信息资产。广泛应用于民生、IT、金融、农业、通信等领域。未来五年,大数据行业将呈现井喷之势,人才需求火爆。2018年大数据人才缺口将高达900万。未来想从事大数据相关工作,需要学习哪些技术知识?
罗马不是一天建成的,大数据工程师也不是短时间能锻造出来的。如果你想成为一名大数据开发工程师,那也要看你的骨子里是不是很惊艳很有天赋!在学习大数据之前,还是需要有一定的基础!
1、
学习大数据需要的基础
1、java SE、EE(SSM)
90%的大数据框架都是Java写的。
2、MySQL
Hadoop上的SQL
3、Linux
大数据的框架安装在Linux操作系统上。
有了以上的技术基础支持,就可以开始我们大数据开发工程师的锻造之旅了。可以从以下三大方面借鉴。当然中间需要穿插一些项目练习,理论联系实战才能快速成长!
二、大数据需要学什么
1、大数据离线分析
T 1数据的一般处理(T:可能是1天、1周、1个月、1年)
A.Hadoop:一般不选新版本,踩坑很难解决问题。
(常用、HDES、MapReduce、YARN)
设置环境和处理数据的想法
b、Hive:大数据的数据仓库
通过写sql来操作数据,类似于MySQL数据库的SQL。
C.HBase:基于HDFS的NOSQL数据库
面向列的存储
D.协作框架:
Sqoop(桥:HDFS 《==》 RDBMS)
Flume:从日志文件中收集信息。
E.调度框架
anzkaban
理解:crotab(Linux自带)
宙斯(阿里巴巴)
Oozie(cloudera)
F.边界框架的扩展:
麒麟、黑斑羚、弹性搜索
2、大数据实时分析
主要基于spark框架。
Scala:OOP(面向对象编程)FP(函数就是编程)
SparkCore:类比MapReduce
SparkSQL:类比配置单元
火花流:实时数据处理
卡夫卡:消息队列
边疆延伸:弗林克
阿里巴巴:眨眼
3、大数据机器学习
Spark MLlib:机器学习库
Pyspark编程:Python和spark的结合
推荐系统
Python数据分析
Python机器学习
去修远的路很长。要成为一名大数据开发工程师,不仅需要有很多的技术基础,还需要对数据有一定的敏感度,这需要很长时间的处理和磨合。