linux下的hadoop配置
时间:2025-05-11
时间:2025-05-11
转自别人的一篇文章,希望能和大家分享,该文章的hadoop配置,包括单节点、单机伪分布式,分布式下的各种配置方法,写的很详细。
Hadoop 部署、配置与运行
扉言:此文档为自己部署过程中的记录。配置后演示了单节点、单机伪分布和两台机 器之间的分布运行、并对伪分布和完全分布做了初步对比以增进理解,最后演示了在 eclipse下运行hadoop自带例子 wordcount 的步骤。
=====================================================
系统配置 =====================================================
(一)资源需求
Linux Ubuntu 9.10
//最新版本可上官方网站免费下载 //也可以向 Ubuntu 社区申请免费安装
Hadoop 0.20.0 包
//最新版本可在 Apache 提供的镜像服务器下载
// → download → 镜像服务器 →hadoop
Sun-java6-jdk 包
//在终端机里输入:apt-get install sun-java6-jdk //系统会自动下载包以及所有的依存包,同时进行包的安装
SSH 包(为远程登录会话提供安全性协议)
//在终端机里输入:apt-get install ssh
Eclipse 包
//官方下载最新版本:
(二)配置流程
1. 安装 ubuntu 9.04
2. 更新 deb 软件包列表
$ sudo apt-get update
3. 安装系统更新
$ sudo apt-get upgrade
4. 安装 JDK
转自别人的一篇文章,希望能和大家分享,该文章的hadoop配置,包括单节点、单机伪分布式,分布式下的各种配置方法,写的很详细。
$ sudo apt-get install sun-java6-jdk
//默认路径在/usr/lib/jvm,安装时需要 TAB 键选择 OK
5. 设置 java-6-sun 为默认的 java 程序
$ sudo update-alternatives --config java
//JDK 唯一,不需选择 $
sudo update-java-alternatives -s java-6-sun
6. 设置 CLASSPATH 和 JAVA_HOME 系统环境变量
$ sudo gedit /etc/environment
添加以下两行内容:
CLASSPATH=".:/usr/lib/jvm/java-6-sun/lib"
JAVA_HOME="/usr/lib/jvm/java-6-sun"
7. 调整系统虚拟机的优先顺序
在文件顶部添加一行
如果文件/etc/jvm 不存在则自己新建 $ sudo gedit /etc/jvm
多节点分布式环境下的两个必要条件
a、每个节点有相同的用户名,如 shiep205
b、hadoop 文件路径相同,如/home/shiep205/hadoop
9. 下载 hadoop-*.tar.gz 至 /home/shiep205/
$ cd ~
$ sudo tar xzf hadoop-0.20.0.tar.gz
$ mv hadoop-0.20.0 hadoop //选择默认路径 //解压至当前路径 //重命名为 hadoop
//赋予shiep205权限
10. 更新 hadoop 环境变量
gedit hadoop/conf/hadoop-env.sh #export JAVA_HOME=/usr/lib/jvm/java-6-sun
11. export JAVA_HOME=/usr/lib/jvm/java-6-sun 配置 SSH $ sudo chown -R shiep205:shiep205 hadoop
$ sudo apt-get install ssh
$ sudo apt-get install rsync //远程同步,可能已经安装了最新版本 $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
转自别人的一篇文章,希望能和大家分享,该文章的hadoop配置,包括单节点、单机伪分布式,分布式下的各种配置方法,写的很详细。
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
$ ssh localhost //验证配置成功与否
===================================================== 单节点配置
===================================================== 在前面工作已经做好的基础上,单节点的运行,运行在非分布模式,hadoop 作为单 个 java 进程。运行命令,查看 hadoop 的使用文档
Bin/hadoop
以下例子复制压缩的 conf 目录作为输入,查找并显示正规式的匹配。输出写到 output 目录
$ mkdir input
$ cp conf/*.xml input
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'
$ cat output/*
转自别人的一篇文章,希望能和大家分享,该文章的hadoop配置,包括单节点、单机伪分布式,分布式下的各种配置方法,写的很详细。
===================================================== 单机伪分布
===================================================== 伪分布运行模式是在运行在单个机器之上,每一个 hadoop 的守护进程为一个单独的 java 进程。
(一)配置三个文件
conf/core-site.xml:
<property> <value>hdfs://localhost:9000</value>
</property>
</configuration>
conf/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
conf/mapred-site.xml:
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
(二)格式化 HDFS
进入 hadoop 的 bin 目录,运行命令:
转自别人的一篇文章,希望能和大家分享,该文章的hadoop配置,包括单节点、单机伪分布式,分布式下的各种配置方法,写的很详细。
$ sudo bin/hadoop namenode -format
10/02/21 00:15:08 INFO http://www.77cn.com.cnNode: STARTUP_MSG:
/************************************************************ STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = master/127.0.1.1
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 0.20.0
STARTUP_MSG: build =
https://http://www.77cn.com.cn/repos/asf/hadoop/core/branches/branch-0.20 -r 763504; compiled by 'ndaley' on Thu Apr 9 05:18:40 UTC 2009 ************************************************************/ 10/02/21 00:1 …… 此处隐藏:14297字,全部文档内容请下载后查看。喜欢就下载吧 ……