大数据开发工程师的工作内容,大数据开发工程师日常工作

  大数据开发工程师的工作内容,大数据开发工程师日常工作

  大数据又称暗数据,是指人脑无法处理的海量数据聚合而成的信息资产。广泛应用于民生、IT、金融、农业、通信等领域。未来五年,大数据行业将呈现井喷之势,人才需求火爆。2018年大数据人才缺口将高达900万。未来想从事大数据相关工作,需要学习哪些技术知识?

  罗马不是一天建成的,大数据工程师也不是短时间能锻造出来的。如果你想成为一名大数据开发工程师,那也要看你的骨子里是不是很惊艳很有天赋!在学习大数据之前,还是需要有一定的基础!

  1、

学习大数据需要的基础

  1、java SE、EE(SSM)

  90%的大数据框架都是Java写的。

  2、MySQL

  Hadoop上的SQL

  3、Linux

  大数据的框架安装在Linux操作系统上。

  有了以上的技术基础支持,就可以开始我们大数据开发工程师的锻造之旅了。可以从以下三大方面借鉴。当然中间需要穿插一些项目练习,理论联系实战才能快速成长!

  

二、大数据需要学什么

  

1、大数据离线分析

  T 1数据的一般处理(T:可能是1天、1周、1个月、1年)

  A.Hadoop:一般不选新版本,踩坑很难解决问题。

  (常用、HDES、MapReduce、YARN)

  设置环境和处理数据的想法

  b、Hive:大数据的数据仓库

  通过写sql来操作数据,类似于MySQL数据库的SQL。

  C.HBase:基于HDFS的NOSQL数据库

  面向列的存储

  D.协作框架:

  Sqoop(桥:HDFS 《==》 RDBMS)

  Flume:从日志文件中收集信息。

  E.调度框架

  anzkaban

  理解:crotab(Linux自带)

  宙斯(阿里巴巴)

  Oozie(cloudera)

  F.边界框架的扩展:

  麒麟、黑斑羚、弹性搜索

  

2、大数据实时分析

  主要基于spark框架。

  Scala:OOP(面向对象编程)FP(函数就是编程)

  SparkCore:类比MapReduce

  SparkSQL:类比配置单元

  火花流:实时数据处理

  卡夫卡:消息队列

  边疆延伸:弗林克

  阿里巴巴:眨眼

  

3、大数据机器学习

  Spark MLlib:机器学习库

  Pyspark编程:Python和spark的结合

  推荐系统

  Python数据分析

  Python机器学习

  去修远的路很长。要成为一名大数据开发工程师,不仅需要有很多的技术基础,还需要对数据有一定的敏感度,这需要很长时间的处理和磨合。

大数据开发工程师的工作内容,大数据开发工程师日常工作