ca88手机版登录网页Hadoop框架基础(一)Hadoop 2.x分布式集群部署。

** Hadoop框架基础(一)

攻一个初的物,传统而言也,总喜欢漫无目的的扯来扯去,比如扯扯发展史,扯扯作者是哪位,而自己觉得这些东西对刚刚开头接触,并因开发也目的学者是从来不呀帮助的,反而被人分开了心里,比如您打LOL的时刻,去玩某个英雄之早晚,一般你是勿见面优先押无畏之故事背景介绍的,而是读读技能介绍(技能介绍类似于付出文档),直接上线就是关乎,扔几单技术,发现,嘿?这大胆小意思,用之差不多了,才会发或错过探望英雄的背景故事。(不免除你是一个彻头彻尾的两全情怀主义者)

吓,那么下面我便于大家简单的总结一下业内之开场内容。

劳动组件的规划

  • 机的配备需要基于实际情况考虑。由于自身因此之虚拟机,所以各个容量大小设置的还坏没有。*
    注意:搭建分布式至少三华机器。 *
机器1 机器2 机器3
主机名:bigdata-00 主机名:bigdata-01 主机名:bigdata-02
内存大小:1G 内存大小:1G 内存大小:1G
CPU核数:1核 CPU核数:1核 CPU核数:1核
硬盘容量:15G 硬盘容量:15G 硬盘容量:15G
  • HDFS和YARN的劳动计划与配备(hadoop版本-2.5.0)。因为NameNode、ResourceManager、SecondaryNameNode都是比消耗内存的,所以放在不同之机械上可以减轻机器的载重;MRHistoryServer不吃过多的内存可以随意停放。
机器1 机器2 机器3
NameNode ResourceManager SecondaryNameNode
DateNode DateNode DateNode
NodeManager NodeManager NodeManager
MRHistroyServer

上内容:Hadoop框架

克隆虚拟机及部署步骤

  1. 针对克隆成功的虚拟机修改其主机名

  2. 优先临时改动

[wulei@bigdata-00 ~]$ hostname bigdata-00

  • 永远修改

[wulei@bigdata-00 ~]$ vim /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=bigdata-00

  1. 会发觉
    /etc/udev/rules.d/70-persistent-net.rules(记录了mac地址、网卡名等信息)
    下有三三两两长达消息。可以选择清空这个文件夹,也足以去除其中同样长,并于另外一漫长被修改mac地址及网卡名。我这里选择清空。

[root@bigdata-02 ~]# >/etc/udev/rules.d/70-persistent-net.rules

  1. 布局网卡信息,修改配置文件
    /etc/sysconfig/network-scripts/ifcfg-eth0。
    几地处主要的改动如下。配置好后再也开,ping外网测试。

    HWADDR=00:0C:29:A8:EA:9D
    IPADDR=192.168.200.7
    NETMASK=255.255.255.0
    GATEWAY=192.168.200.2
    [root@bigdata-00 ~]# ping
    www.baidu.com

  2. 每当布局文件 /etc/hosts 中补充加主机名映射

192.168.200.5 bigdata-00
192.168.200.6 bigdata-01
192.168.200.7 bigdata-02

框架源码:Java

Hadoop集群的安以及安排

  1. 计划集群的装置目录。为了方便管理,一个集群的同等组件应该置身同等之目。

[root@bigdata-00 ~]# mkdir /opt/app

  1. 诚如操作不会见直接在root用户下操作,因此修改者目录的用户主。

[root@bigdata-02 ~]# chown wulei:wulei /opt/app
[root@bigdata-02 ~]# ll -d /opt/app
drwxr-xr-x 2 wulei wulei 4096 Oct 19 09:10 /opt/app

  1. 装以及安排JDK

[root@bigdata-01 opt]# tar -zxf
softwares/jdk-8u101-linux-x64.tar.gz -C modules/
[root@bigdata-01 opt]# vim /etc/profile
##java7
export JAVA_HOME=/opt/modules/jdk1.8.0_101
export PATH=$JAVA_HOME/bin:$PATH
source /etc/profile

  1. 解压Hadoop
    2.5.0暨app目录下。删除hadoop目录下share/doc(文档)目录,以省磁盘空间。

[root@bigdata-01 opt]# tar -zxf softwares/hadoop-2.5.0.tar.gz -C
app/
[root@bigdata-00 opt]# rm -rf app/hadoop-2.5.0/share/doc

  1. 点名运行hadoop各组件的JAVA_HOME路径。需要装三单布局文件:hadoop-env.sh、mapred-env.sh、yarn-env.sh。

export JAVA_HOME=/opt/modules/jdk1.8.0_101

  1. 配置相关服务组件XML文件,其中包指定哪台机器当NameNode节点和NameNode文件存储的目。

  2. core-site.xml配置NameNode

        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://bigdata-00:8020</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/opt/app/hadoop-2.5.0/data/tmp</value>
        </property>
  • 于slaves文件中装置DataNode

192.168.200.5  bigdata-00
192.168.200.6  bigdata-01
192.168.200.7  bigdata-02
  • hdfs-site.xml配置SecondaryNameNode。把它们配备在 bigdata-02 机器及。

        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>bigdata-02:50090</value>
        </property>
  • yarn-site.xml配置YARN。各个参数的分解:
    yarn.resourcemanager.hostname 指定resoucemanager节点
    yarn.nodemanager.aux-services
    需要配置成mapreduce_shuffle才能够运作mapreduce程序。
    yarn.log.aggregation-enable
    是否启动日志聚集功能。日志聚集是YARN提供的日记中央化管理职能,启动它可用container和职责有的系日志文件上流传HDFS上(从而实现中央化管理职能),默认情况下只日志文件是储存在依次NodeManager节点上之。
    yarn.log.aggregation.retain-seconds
    设置聚集日志在HDFS保存的日子(单位也秒)。

        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>bigdata-01</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
        <property>
                <name>yarn.log.aggregation-enable</name>
                <value>true</value>
        </property>
        <property>
                <name>yarn.log-aggregation.retain-seconds</name>
                <value>18000</value>
        </property>
  • mapred-site.xml配置mapreduce。各参数的解说:
    mapreduce.framework.name
    指定mapreduce的运行于什么框架达成。默认值为地面。
    mapreduce.jobhistory.address 指定MapReduce JobHistory Server地址。
    mapreduce.jobhistory.webapp.address 指定MapReduce JobHistory Server
    Web UI地址。

        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.address</name>
                <value>bigdata-00:10020</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                <value>bigdata-00:19888</value>
        </property>
  1. 先以同雅机器上测试各个服务;然后分发配置文件及另外节点上;最后以旁节点上测试各个服务。注:如果不可知正常启动服务,应该于logs下面查看相应的启航日志文件。

  2. 测试HDFS服务是否健康启动

[wulei@bigdata-00 hadoop-2.5.0]$
sbin/hadoop-daemon.sh
start namenode
[wulei@bigdata-00 hadoop-2.5.0]$
sbin/hadoop-daemon.sh
start datanode
[wulei@bigdata-00 hadoop-2.5.0]$ jps
4402 Jps
4234 NameNode
4331 DataNode

  • 测试HDFS能否创造目录、上传文件、读取文件。

[wulei@bigdata-00 hadoop-2.5.0]$ bin/hdfs dfs -mkdir -r /test
[wulei@bigdata-00 hadoop-2.5.0]$ bin/hdfs dfs -ls /
Found 1 items
drwxr-xr-x – wulei supergroup 0 2016-10-19 16:01 /test
[wulei@bigdata-00 hadoop-2.5.0]$ bin/hdfs dfs -put /etc/hosts /test/

[wulei@bigdata-00 hadoop-2.5.0]$ bin/hdfs dfs -text /test/hosts
127.0.0.1 localhost localhost.localdomain localhost4
localhost4.localdomain4

  • 测试YARN服务是否健康启动

[wulei@bigdata-00 hadoop-2.5.0]$
sbin/yarn-daemon.sh
start nodemanager
[wulei@bigdata-00 hadoop-2.5.0]$
sbin/mr-jobhistory-daemon.sh
start historyserver
[wulei@bigdata-00 hadoop-2.5.0]$ jps
4769 NodeManager
4887 JobHistoryServer
4234 NameNode
4331 DataNode

  • 分发配置文件及外两单节点并启动相应的服务,然后测试外节点HDFS是否正规,和地方的步调同。

[wulei@bigdata-00 hadoop-2.5.0]$ scp -r etc/
wulei@bigdata-01:/opt/app/hadoop-2.5.0/
[wulei@bigdata-00 hadoop-2.5.0]$ scp -r etc/
wulei@bigdata-02:/opt/app/hadoop-2.5.0/

  • 于保管界面查看所有namenode(bigdata-00:50070)
datanode.png
  • 测试mapreduce能否跑在YARN集群上。需要小心jar包必须运行于namenode节点上,因为只有从该节点才会运用分布式文件系统的目录结构。在wb管理界面(bigdata-01:8088)查看mapreduce运行速度。

[wulei@bigdata-00 hadoop-2.5.0]$ bin/yarn jar
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount
/test/ /test/out

yarn.png

  • 每当这个检查各个节点运行的零部件

zujian1.png

zujian2.png

zujian3.png

至此hadoop 2.5.0分布式集群搭建完毕

框架的大:Doug Cutting

手上保障:Apache基金会

骨干用途:HDFS和MapReduce。HDFS为海量的数目提供了储存,MapReduce为海量的数额提供了匡。

(不足够严谨的简讲下:把死文件数据分布存储于差不多只计算机上(因为你同样高计算机抱不生),然后以差不多光计算机上拓展数量解析(因为您同尊微机计量的缓缓),最终整并生结果)

Hadoop产生根源Google的片段论文(大陆请以VPN代理查阅):

GoogleCluster: http://research.google.com/archive/googlecluster.html

Chubby:http://labs.google.com/papers/chubby.html

GFS:http://labs.google.com/papers/gfs.html

BigTable:http://labs.google.com/papers/bigtable.html

MapReduce:http://labs.google.com/papers/mapreduce.html

趁着发展,Apache上虽出现了一个好像之缓解方案,分别对应:

Chubby–>ZooKeeper

GFS–>HDFS

BigTable–>Hbase

MapReduce–>Hadoop

以上内容主导就是是介绍框架时扯来扯去的主干,作者是非常厉害的(这不弃话么)。在读书过程被,如果您逐级对这些进步历史,作者,故事背景感兴趣了,你可以又翻有关材料,毕竟学无止境。

** 准备干活

有关下载:

JDK:链接:http://pan.baidu.com/s/1skOjRE9 密码:2s0p

Hadoop:链接:http://pan.baidu.com/s/1mhB2Rv6 密码:6qxi

Eclipse:链接:http://pan.baidu.com/s/1nvc5izR 密码:ezy8

如上下载你也可自行下载,通过产品所对应之官网。

创建连锁目录:

当root用户下,进入/opt/目录,在拖欠目录下开创两独文本夹

mkdir softwares/:该目录用于存放各种软件设置包

mkdir modules/:该目录用于存放软件的装置目录

转目录所属:

坐softwares和modules这片只目录为root用户所创办,所以所有者/组都为root,而我们一般采用的操作用户是普通用户,所以此时咱们得改该少单目录的所有者/组,使用命令:

chown 所有者:所属组 /opt/modules/

chown 所有者:所属组 /opt/softwares/

例如,我这里:

chown z:z /opt/modules/

传送下载后底公文及虚拟机系统

好以上步骤后,使用FileZilla
Client工具(如果忘记怎么连接,请查看前几节约文化),连接成功后,如图:

此刻双击红框部分,如达到图所示,找到opt目录,之后您就可以看到片单你创造的目:

下一场,把软件上传到softwares下,直接打windows中拖入即可直达污染,完成后使图:

自此上传的发生其他软件,其实这才待框中部分的3独即可

现行把立即3单部分各自解压到modules中,如图(只需要注意红框内之始末)

解压命令:

tar -zxf hadoop-2.5.0.tar.gz -C /opt/modules/

tar -zxf hadoop-2.5.0.tar.gz -C /opt/modules/

这3只目录就解压

配备环境变量

布JDK的环境变量,hadoop的环境变量暂时不需配了

编纂profile文件,使用命令:

vi /etc/profile,添加如图所示内容:

$意为援,冒号为分隔符

** Hadoop宏观认知

Hadoop项目主要不外乎以下四单模块

Hadoop Common:

为任何的Hadoop模块提供基础设备

Hadoop HDFS:

分布式文件系统

Hadoop MapReduce:

分布式离线并行计算框架

Hadoop YARN:

任务调度与资源管理框架

此间坐篇幅问题,我们只能做一些基础理解,更深刻的开挖需要读者自行钻研(因为于下深究所需篇幅,可以独自再次起来一个专题)

** HDFS架构

总结:

1、一个Namenode节点和多个Datanode节点组成

2、Namenode是一个核心服务器,负责管理文件系统的namespace和客户端对文本之拜会。Datanode在汇聚众多中一般是一个节点一个,负责管理节点上她附带的仓储。通俗来讲,datanode就是用来存储某个大文件被拆分后的一个一个之稍文件。

3、一个文件分为一个要多只block(数据块,数据块默认大小128M),这些block存储于Datanode集合里。

4、一般而言,一华机械跑一个独门的Namenode节点,集众多中之别机器各飞一个Datanode实例(当然也发一个宝机器跑多单Datanode)。

5、Namenode中存放的起头数据(Metadata),比如:映射关系表(哪些数据块block存储在了什么datanode节点中)

** YARN架构

总结:

yarn主要承担任务调度和资源管理的,比如,集众多中,哪些机器还余下多少CPU多少内存可用,集众多被,还有什么样机器可以用来处理新的天职等等。

1、ResourceManager(RM):主要收受客户端任务要,接收和督查NodeManager(NM)的资源情况汇报,负责资源的分红和调度,启动同监控ApplicationMaster(AM)。

2、NodeManager:主要是节点上之资源管理,启动Container运行task计算,上报资源、负责管container情况为ResourceManager,把任务处理情况给ApplicationMaster。

3、ApplicationMaster:主要是单科Application(Job)的task管理及调度,向ResourceManager进行资源的报名,向NodeManager发出launch
Container指令,接收NodeManager的task处理状态信息。

yarn工作流程:

1、client
submit提交一个Job到ResourceManager,进入ResourceManager中的Scheduler队列供调度

2、ResourceManager根据NodeManager汇报的资源状况(NodeManager会定时报告资源和container使用状态),请求一个适用的NodeManager
launch container,在拖欠NodeManager所在机器开动运行ApplicationMaster

3、ApplicationMaster启动后,注册到ResourceManager上,以便client可以查到ApplicationMaster的音,便于client直接和ApplicationMaster通信

4、ApplicationMaster启动后,根据Job相关状况,会暨ResourceManager协商申请container资源

5、ResourceManager分配给ApplicationMaster
container资源后,根据container的音信,向对应之NodeManager请求launch
container

6、NodeManager启动container运行task,运行过程中往ApplicationMaster汇报进度状态信息,同时NodeManager也会定时的向ResourceManager汇报container的应用状况。

7、在application(job)执行进程中,client可以和ApplicationMaster通信,获取application相关的速度和状态信息。

8、在application(job)完成后,ApplicationMaster通知ResourceManager清除自己的连锁信息(即AM自己关自己),并关闭,释放自己占据的container。

尖叫提示:Container为何物?

Container:

1、Container是yarn框架中对此资源的纸上谈兵描述,它包裹了某个节点上个别之资源(CPU与内存),你可领略啊Container是一个Java类,里面封装了对资源的如出一辙密密麻麻描述,还包裹了时Job任务运行的一部分代码。

2、Container由ApplicationMaster向ResourceManager申请的,由ResouceManager中之资源调度器异步分配受ApplicationMaster

3、Container的运行是由ApplicationMaster向资源随处的NodeManager发起的(即运行任务)

Container分类:

1、运行用户指定任务(ApplicationMaster)的Container:

眼看是出于ResourceManager(向其中的资源调度器)申请及起步之,用户提交应用程序时,可指定唯一的ApplicationMaster所需的资源;

2、运行各任务之Container:

立刻是由ApplicationMaster向ResourceManager申请的,并出于ApplicationMaster与NodeManager通信以启用该Container

如上两近乎Container可能在随机节点上,它们的职务一般而言是随机的,即ApplicationMaster可能和它管理之职责运行在一个节点上。

连锁术语知识点:

(本地松弛:是负要某台NodeManager所能提供的Container不足,则在本台机架寻找另外一样贵机械是否好提供,如果本台机架所有机器还不可知提供所用Container,则易一华机架找寻)

(机架感知:有趣味的同班请查阅有关博客:http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2843015.html,此处不再赘述)

** Hadoop基础配置

在进行Hadoop配置的时节,我们有时候用负官方文档,毕竟那基本上之布置属性,不是会一体记下来的

法定文档链接:http://hadoop.apache.org/docs/r2.5.2/

于咱们的案例中,Hadoop的部署文档位于:

/opt/modules/hadoop-2.5.0/etc/hadoop

进入该目录,查看该目录文件结构使图:

咱俩配备Hadoop就是部署这之中的xml文件和sh脚本文件,如果使用vi编辑器配置来说,可能无太习惯?那么接下我们聊怎么下Notepad++来配置(没有拖欠软件之要自行下载)

打开Notepad++,如图:

如图所示3个地方需要注意:

1、红框:是否打开NppFTP视图,即右侧边的视图

2、蓝框:点击后,选择“Profile Settings”弹有绿框内容

3、绿框:点击Add
new,我立即边添加了一个z01,hostname主机名吧z01,port端口号也:22,Username登录系统的用户为z,Password密码也公设置的欠用户的密码

配置好后,如下图,点击框内按钮,连接登录:

报到成功使图:

进入到/opt/modules/hadoop-2.5.0/etc/hadoop目录,即可使Notepad++来编辑文本内容了,方便多矣~

布标准开始

1、首先修改3独.sh文件中的JDK路径

该3单公文分别是:

hadoop-env.sh

mapred-env.sh

yarn-env.sh

改内容也:

export JAVA_HOME=/opt/modules/jdk1.8.0_111,如图:

修改后记忆保存

2、hdfs配置

* core-site.xml

官方文档说明:http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-common/core-default.xml

修改后记忆保存

性能解释:

fs.defaultFS:HDFS集群访问入口地址,其中z01也可换成当下Linux的本机ip,如果此时若还不曾在Linux中装置主机名映射,请参考之前Linux中的知识点进行设置即可。

hadoop.tmp.dir:数据存放路径

* hdfs-site.xml

合法文档说明:http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

改后记得保存

性能解释:

dfs.replication:数据片副本数,默认为3。

* slaves

声明哪些服务器是datanode,每行一个主机名即可。

本案例我们无非设置1独,即眼前虚拟机机器

3、yarn配置

* yarn-site.xml

官方文档:http://hadoop.apache.org/docs/r2.5.2/hadoop-yarn/hadoop-yarn-common/yarn-default.xml

特性解释:

yarn.nodemanager.aux-services:NodeManager上运行的附属服务。需配置成mapreduce_shuffle,才不过运行MapReduce程序

yarn.resourcemanager.hostname:resourcemanager的主机名,即哪一样贵主机当做ResourceManager

yarn.log-aggregation-enable:是否打开日志聚合功能

yarn.log-aggregation.retain-seconds:在HDFS上聚合的日志最多保留多长时间,单位:秒,86400相当给24小时

另属性:

yarn.nodemanager.resource.memory-mb:表示该节点上yarn可采用的大体内存总量,默认是8192MB,如果该节点机器的内存不足8G,则用调小这个价,yarn不见面智能的探测节点的物理内存总量。

yarn.nodemanager.vmem-pmem-ratio:任务每用1MB物理内存,最多而是使的虚拟内存量,默认为2.1。

yarn.nodemanager.pmem-check-enabled:是否启动一个县检查每个任务在利用的物理内存量,如果任务超出分配值,则直接用那杀掉,默认值为true。

yarn.nodemanager.vmem-check-enabled:是否启动一个线程检查每个任务在利用的虚拟内存量,如果任务超出分配值,则一直将该杀掉,默认值为true。

yarn.scheduler.minimum-allocation-mb:单个任务而报名之极致少物理内存量,默认是1024MB,如果一个职责申请的大体内存量少于该值,则对应的价改吗夫数。

yarn.scheduler.maximum-allocation-mb:单个任务而报名之极端多物理内存量,默认是8192MB。

4、map-reduce配置

* mapred-site.xml

法定文档:http://hadoop.apache.org/docs/r2.5.2/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml

性能解释:

mapreduce.framework.name:设置运行MapReduce任务的框架

mapreduce.jobhistory.address:自带了一个史服务器,可以经过历史服务器查看已经运行了的Mapreduce作业记录,比如用了小个Map、用了聊个Reduce、作业提交时、作业启动时间、作业成功时等于信息。默认情况下,Hadoop历史服务器是从未启动的。配置该地方后,启动服务就是好透过Web
UI来查看具体行使详情了。

mapreduce.jobhistory.webapp.address:web app客户端的拜访入口

** 启动服务

启动过程分成如下几单过程:

* 格式化hdfs

由于当下主机第一不行以hdfs系统,所以用前需要先格式化

进入到/opt/modules/hadoop-2.5.0目录下

动用命令(#意味着root用户下输入,$代表普通用户下输入,输入指令时只顾不若加#还是$,此处写上只是也注明)

$ bin/hdfs namenode -format,成功格式化后使图:

* 启动hdfs相关服务

利用命令:

$ sbin/hadoop-daemon.sh start namenode:开启nodenode节点服务

$ sbin/hadoop-daemon.sh start datanode:开启datanode节点服务

终极通过jps命令来查阅过程是否启动成功

如图:

这时候得通过浏览器成访问hdfs管理平台:http://z01:50070,如图:

* 启动yarn相关服务

动命令:

$ sbin/yarn-daemon.sh start resourcemanager:开启resourcemanager

$ sbin/yarn-daemon.sh start nodemanager:开启nodemanager

完了后采取jps检查是否启动成功,如图:

这时候好经浏览器成访问yarn管理平台:http://z01:8088,如图:

$ sbin/mr-jobhistory-daemon.sh start
historyserver:开启historyserver服务,如图:

OK,所有的服务都曾经准备就了,下面我们来举行一个聊测试。

** 测试

经案例:官方Demo单词统计

咱们下要开的一个案例是官方的demo,用于统计单词出现的效率,首先我们用创造一个文档,里面来多少英文单词,然后拿此文档上传到hdfs系统中,等待mapreduce计算,最后查看结果。

1、创建包含几只词之words.txt文档,注意单词用空格或tab分割,创建位置吗:/opt/modules/hadoop-2.5.0,如图:

2、在hdfs系统中开创/input/目录

应用命令:

$ bin/hdfs dfs -mkdir /input,如图:

3、上传words.txt文档到该目录下

采用命令:

$ bin/hdfs dfs -put words.txt /input,如图:

4、查看已上传的公文内容

动用命令:

$ bin/hdfs dfs -cat /input/words.txt,如图:

尖叫提示:当然bin/hdfs dfs倍受还有一部分别样命令,读者可透过输入$
bin/hdfs dfs来查看下方式,如图:

5、运行任务

采取命令:

$ bin/yarn jar
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount
/input/ /output/

解释:

/input/:hdfs中之途径,表示输入路径

/output/:hdfs中的路,表示输出路径(统计结果碰头当斯目录下)

运转后,会出现如下内容:

只顾红框中内容的转变

此刻,任务就实施完毕,下面我们来拘禁一样关押尽的结果

应用命令:

$ bin/hdfs dfs -cat /output/par*
:查看output这个输出目录下的具有以par开头的公文内容(为何是par开头,稍后解释)

如图:

假若图,单词出现频率都出了,下面我们来拘禁一下web app中的转变。

6、查看web app:

hdfs(http://z01:50070):

点击红框内容,选择“Browse the file
system”,在查找框中输入:/,点击GO,如图:

以斯公可以见见你的hdfs系统中的目录结构,分别点开input和output,我们来瞟一肉眼:

专注此时output中红框内容,这虽说明了为何我们才查看结果的时段,要查看的凡par开头的文书,因为出口结果的默认文件称就是是此。

yarn(http://z01:8088):

下我们再度来看望yarn平台的情变更,刷新yarn平台后,你见面发觉大多了一样漫长内容:

点击history,我们进瞟一眼?如图:

其间展示了职责之一部分特色,比如开始日,map和reduce数量,耗时,状态等等。

** 总结

即时就是是hadoop平台的主干搭建,望对君富有帮助~掌声~(收!)

民用微博:http://weibo.com/seal13

QQ大数目技术交流群(广告勿入):476966007

下一节:Hadoop框架基础(二)

相关文章

You can leave a response, or trackback from your own site.

Leave a Reply

网站地图xml地图