linux下的hadoop配置

时间：2025-05-11

转自别人的一篇文章,希望能和大家分享,该文章的hadoop配置,包括单节点、单机伪分布式,分布式下的各种配置方法,写的很详细。

Hadoop 部署、配置与运行

扉言:此文档为自己部署过程中的记录。配置后演示了单节点、单机伪分布和两台机器之间的分布运行、并对伪分布和完全分布做了初步对比以增进理解，最后演示了在 eclipse下运行hadoop自带例子 wordcount 的步骤。

=====================================================

系统配置 =====================================================

(一)资源需求

Linux Ubuntu 9.10

//最新版本可上官方网站免费下载 //也可以向 Ubuntu 社区申请免费安装

Hadoop 0.20.0 包

//最新版本可在 Apache 提供的镜像服务器下载

// → download → 镜像服务器 →hadoop

Sun-java6-jdk 包

//在终端机里输入:apt-get install sun-java6-jdk //系统会自动下载包以及所有的依存包,同时进行包的安装

SSH 包(为远程登录会话提供安全性协议)

//在终端机里输入:apt-get install ssh

Eclipse 包

//官方下载最新版本:

(二)配置流程

1. 安装 ubuntu 9.04

2. 更新 deb 软件包列表

$ sudo apt-get update

3. 安装系统更新

$ sudo apt-get upgrade

4. 安装 JDK

转自别人的一篇文章,希望能和大家分享,该文章的hadoop配置,包括单节点、单机伪分布式,分布式下的各种配置方法,写的很详细。

$ sudo apt-get install sun-java6-jdk

//默认路径在/usr/lib/jvm,安装时需要 TAB 键选择 OK

5. 设置 java-6-sun 为默认的 java 程序

$ sudo update-alternatives --config java

//JDK 唯一,不需选择 $

sudo update-java-alternatives -s java-6-sun

6. 设置 CLASSPATH 和 JAVA_HOME 系统环境变量

$ sudo gedit /etc/environment

添加以下两行内容:

CLASSPATH=".:/usr/lib/jvm/java-6-sun/lib"

JAVA_HOME="/usr/lib/jvm/java-6-sun"

7. 调整系统虚拟机的优先顺序

在文件顶部添加一行

如果文件/etc/jvm 不存在则自己新建 $ sudo gedit /etc/jvm

多节点分布式环境下的两个必要条件

a、每个节点有相同的用户名,如 shiep205

b、hadoop 文件路径相同,如/home/shiep205/hadoop

9. 下载 hadoop-*.tar.gz 至 /home/shiep205/

$ cd ~

$ sudo tar xzf hadoop-0.20.0.tar.gz

$ mv hadoop-0.20.0 hadoop //选择默认路径 //解压至当前路径 //重命名为 hadoop

//赋予shiep205权限

10. 更新 hadoop 环境变量

gedit hadoop/conf/hadoop-env.sh #export JAVA_HOME=/usr/lib/jvm/java-6-sun

11. export JAVA_HOME=/usr/lib/jvm/java-6-sun 配置 SSH $ sudo chown -R shiep205:shiep205 hadoop

$ sudo apt-get install ssh

$ sudo apt-get install rsync //远程同步,可能已经安装了最新版本 $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

转自别人的一篇文章,希望能和大家分享,该文章的hadoop配置,包括单节点、单机伪分布式,分布式下的各种配置方法,写的很详细。

$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

$ ssh localhost //验证配置成功与否

===================================================== 单节点配置

===================================================== 在前面工作已经做好的基础上,单节点的运行,运行在非分布模式,hadoop 作为单个 java 进程。运行命令,查看 hadoop 的使用文档

Bin/hadoop

以下例子复制压缩的 conf 目录作为输入,查找并显示正规式的匹配。输出写到 output 目录

$ mkdir input

$ cp conf/*.xml input

$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'

$ cat output/*

转自别人的一篇文章,希望能和大家分享,该文章的hadoop配置,包括单节点、单机伪分布式,分布式下的各种配置方法,写的很详细。

===================================================== 单机伪分布

===================================================== 伪分布运行模式是在运行在单个机器之上,每一个 hadoop 的守护进程为一个单独的 java 进程。

(一)配置三个文件

conf/core-site.xml:

<property> <value>hdfs://localhost:9000</value>

</property>

</configuration>

conf/hdfs-site.xml:

<name>dfs.replication</name>

</property>

</configuration>

conf/mapred-site.xml:

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

</configuration>

(二)格式化 HDFS

进入 hadoop 的 bin 目录,运行命令:

转自别人的一篇文章,希望能和大家分享,该文章的hadoop配置,包括单节点、单机伪分布式,分布式下的各种配置方法,写的很详细。

$ sudo bin/hadoop namenode -format

10/02/21 00:15:08 INFO http://www.77cn.com.cnNode: STARTUP_MSG:

/************************************************************ STARTUP_MSG: Starting NameNode

STARTUP_MSG: host = master/127.0.1.1

STARTUP_MSG: args = [-format]

STARTUP_MSG: version = 0.20.0

STARTUP_MSG: build =

https://http://www.77cn.com.cn/repos/asf/hadoop/core/branches/branch-0.20 -r 763504; compiled by 'ndaley' on Thu Apr 9 05:18:40 UTC 2009 ************************************************************/ 10/02/21 00:1 …… 此处隐藏：14297字，全部文档内容请下载后查看。喜欢就下载吧 ……

linux下的hadoop配置.doc 将本文的Word文档下载到电脑

下载这篇word文档

上一篇：博思堂复地比稿获胜方案及2012推广

下一篇：2021年最新疫情防控要求范文模版