常用的hadoop操作,hadoop操作指令

  常用的hadoop操作,hadoop操作指令

  在这篇文章中,我们默认认为大数据环境已经由运维人员配置好直接可以使用。

  假设大数据的安装目录HADOOP_HOME为/home/admin/hadoop。

  启动与关闭

  启动大数据

  1.进入HADOOP_HOME目录。

  2.执行垃圾箱/开始-全部。嘘

  关闭大数据

  1.进入HADOOP_HOME目录。

  2.执行垃圾箱/全停。嘘

  大数据使用的是HDFS,能够实现的功能和我们使用的磁盘系统类似。并且支持通配符,如*。

  查看文件列表

  查看分布式文件系统中/用户/管理员/亚伦目录下的文件。

  1.进入HADOOP_HOME目录。

  2.执行sh bin/Hadoop fs-ls/用户/管理员/亚伦

  这样,我们就找到了分布式文件系统中/用户/管理员/亚伦目录下的文件了。

  我们也可以列出分布式文件系统中/用户/管理员/亚伦目录下的所有文件(包括子目录下的文件)。

  1.进入HADOOP_HOME目录。

  2.执行sh bin/Hadoop fs-LSR/用户/管理员/亚伦

  创建文件目录

  查看分布式文件系统中/用户/管理员/亚伦目录下再新建一个叫做纽迪尔的新目录。

  1.进入HADOOP_HOME目录。

  2.执行sh bin/Hadoop fs-mkdir/用户/管理员/aaron/新目录

  删除分布式文件系统中/用户/管理员/亚伦目录下一个名叫需要删除的文件

  1.进入HADOOP_HOME目录。

  2.执行sh bin/Hadoop fs-RM/user/admin/aaron/需要删除

  删除分布式文件系统中/用户/管理员/亚伦目录以及该目录下的所有文件

  1.进入HADOOP_HOME目录。

  2.执行sh bin/Hadoop fs-rmr/用户/管理员/亚伦

  上传一个本机/home/admin/newFile的文件到分布式文件系统中/用户/管理员/亚伦目录下

  1.进入HADOOP_HOME目录。

  2.执行sh bin/Hadoop fsput/home/admin/new file/user/admin/aaron/

  下载分布式文件系统中/用户/管理员/亚伦目录下的新文件文件到本机/home/admin/newFile中

  1.进入HADOOP_HOME目录。

  2.执行sh bin/Hadoop fsget/user/admin/aaron/new file/home/admin/new file

  我们可以直接在分布式文件系统中直接查看文件,功能与类是猫类似

  查看分布式文件系统中/用户/管理员/亚伦目录下的新文件文件

  1.进入HADOOP_HOME目录。

  2.执行sh bin/Hadoop fscat/home/admin/new文件

  数据处理作业操作

  提交数据处理作业

  原则上说,Hadoop所有的数据处理作业都是一个冲突包。

  运行一个/home/admin/hadoop/job.jar的数据处理作业

  1.进入HADOOP_HOME目录。

  2.执行sh bin/Hadoop jar/home/admin/Hadoop/job。jar[jobMainClass][jobArgs]

  杀死某个正在运行的工作

  假设作业身份为:job_201005310937_0053

  1.进入HADOOP_HOME目录。

  2.执行sh bin/Hadoop job-kill job _ 2010 05 310937 _ 0053

  更多大数据的命令

  上面介绍的这些大数据的操作命令是我们最常用的。如果你希望了解更多,可以按照如下的方式获取命令的说明信息。

  1.进入HADOOP_HOME目录。

  2.执行sh bin/hadoop

  我们可以看到更多命令的说明信息:

  用法:hadoop [ - config confdir]命令

  其中命令是下列之一:

  命名节点-格式格式化深度优先搜索文件系统

  次要名称运行深度优先搜索辅助节点

  命名节点运行深度优先搜索命名节点

  datanode运行DFS数据节点

  DFS管理员运行深度优先搜索管理客户端

  检查运行深度优先搜索文件系统检查实用程序

  满量程运行通用文件系统用户客户端

  平衡器运行集群平衡实用程序

  jobtrackerrun MapReduce作业跟踪器节点

  管道运行管道作业

  运行一个数据处理任务跟踪器节点

  作业操作数据处理作业

  队列获取有关作业队列的信息

  版本打印版本

  运行一个冲突文件

  递归复制文件或目录

  存档-存档名称名称src * dest创建大数据归档文件

  daemonlogget/设置每个守护进程的日志级别

  或者

  类名运行名为类名的类

  大多数命令在没有参数的情况下调用时都会打印帮助。

常用的hadoop操作,hadoop操作指令