• 全部文章 > 标签 > hadoop
    排序:
    默认
    按访问量
    按评论量
  • hadoop streaming参数说明

    分类:hadoop 标签: hadoop streaming

    hadoop jar /usr/local/hadoop/hadoop-2.6.5/share/hadoop/tools/lib/hadoop-streaming-2.6.5.jar --info Usage: $HADOOP_PREFIX/bin/hadoop jar...
    阅读数:885 评论数:0
    2019-09-05 22:54:03
  • hadoop命令大全

    分类:hadoop 标签: hadoop hdfs

    hdfs常用命令: 第一部分:hdfs文件系统命令 第一类:文件路径增删改查系列: hdfs dfs -mkdir dir  创建文件夹 hdfs dfs -rmr dir  删除文件夹dir hdfs dfs -ls  查看目录文件信息 hdfs dfs -lsr  递归查看文件目录信息...
    阅读数:816 评论数:0
    2019-09-04 21:10:23
  • MapReduce编程实例:单词计数

    分类:hadoop 标签: hadoop mapreduce

    本节介绍如何编写基本的 MapReduce 程序实现数据分析。本节代码是基于 Hadoop 2.7.3 开发的。 任务准备 单词计数(WordCount)的任务是对一组输入文档中的单词进行分别计数。假设文件的量比较大,每个文档又包含大量的单词,则无法使用传统的线性程序进行处理,而这类问题正是...
    阅读数:826 评论数:0
    2019-09-03 18:39:24
  • MapReduce执行流程和Shuffle过程

    分类:hadoop 标签: hadoop mapreduce

    本节将对 Hadoop MapReduce 的工作机制进行介绍,主要从 MapReduce 的作业执行流程和 Shuffle 过程方面进行阐述。通过加深对 MapReduce 工作机制的了解,可以使程序开发者更合理地使用 MapReduce 解决实际问题。 Hadoop...
    阅读数:850 评论数:0
    2019-09-03 18:38:05
  • MapReduce实例分析:单词计数

    分类:hadoop 标签: hadoop mapreduce

    单词计数是最简单也是最能体现 MapReduce 思想的程序之一,可以称为 MapReduce 版“Hello World”。单词计数的主要功能是统计一系列文本文件中每个单词出现的次数。本节通过单词计数实例来阐述采用 MapReduce 解决实际问题的基本思路和具体实现过程。 设计思路...
    阅读数:783 评论数:0
    2019-09-03 18:37:00
  • Hadoop MapReduce工作流程

    分类:hadoop 标签: hadoop mapreduce

    MapReduce 就是将输入进行分片,交给不同的 Map 任务进行处理,然后由 Reduce 任务合并成最终的解。 MapReduce 的实际处理过程可以分解为 Input、Map、Sort、Combine、Partition、Reduce、Output 等阶段,具体的工作流程如图 1...
    阅读数:815 评论数:0
    2019-09-03 18:35:42
  • Hadoop MapReduce架构

    分类:hadoop 标签: hadoop mapreduce

    Hadoop MapReduce 是 Hadoop 平台根据 MapReduce 原理实现的计算框架,目前已经实现了两个版本,MapReduce 1.0 和基于 YARN 结构的 MapReduce 2.0。 尽管 MapReduce 1.0...
    阅读数:913 评论数:0
    2019-09-03 18:34:30
  • Hadoop MapReduce简介

    分类:hadoop 标签: hadoop mapreduce

    本节首先简单介绍大数据批处理概念,然后介绍典型的批处理模式 MapReduce,最后对 Map 函数和 Reduce 函数进行描述。 批处理模式...
    阅读数:874 评论数:0
    2019-09-03 18:32:44
  • HDFS两种操作方式:命令行和Java API

    分类:hadoop 标签: HDFS hadoop java

    HDFS 文件操作有两种方式:一种是命令行方式,Hadoop 提供了一套与 Linux 文件命令类似的命令行工具;另一种是 Java API,即利用 Hadoop 的 Java 库,采用编程的方式操作 HDFS 的文件。 本节将介绍 Linux 操作系统中关于 HDFS...
    阅读数:1531 评论数:0
    2019-09-02 20:52:28
  • HDFS读取和写入数据简介

    分类:hadoop 标签: HDFS hadoop

    HDFS 的文件访问机制为流式访问机制,即通过 API 打开文件的某个数据块之后,可以顺序读取或者写入某个文件。由于 HDFS...
    阅读数:815 评论数:0
    2019-09-02 20:46:58
  • HDFS架构和实现机制简介

    分类:hadoop 标签: HDFS hadoop

    本节将对 HDFS 的整体架构和基本实现机制进行简单介绍。 HDFS 整体架构 HDFS 是一个主从 Master/Slave 架构。一个 HDFS 集群包含一个 NameNode,这是一个 Master Server,用来管理文件系统的命名空间,以及调节客户端对文件的访问。一个 HDFS...
    阅读数:874 评论数:0
    2019-09-02 20:46:05
  • HDFS基本原理和设计理念

    分类:hadoop 标签: HDFS hadoop

    本节将对 HDFS 的基本原理进行讲解。 文件系统的问题 文件系统是操作系统提供的磁盘空间管理服务,该服务只需要用户指定文件的存储位置及文件读取路径,而不需要用户了解文件在磁盘上是如何存放的。 但是当文件所需空间大于本机磁盘空间时,应该如何处理呢? 加磁盘,但是加到一定程度就有限制了。...
    阅读数:824 评论数:0
    2019-09-02 20:44:42
  • Hadoop HDFS分布式文件系统简介

    分类:hadoop 标签: 大数据 hadoop

    在大数据时代,需要处理分析的数据集的大小已经远远超过了单台计算机的存储能力,因此需要将数据集进行分区并存储到若干台独立的计算机中。但是,分区存储的数据不方便管理和维护,迫切需要一种文件系统来管理多台机器上的文件,这就是分布式文件系统。...
    阅读数:787 评论数:0
    2019-09-02 20:43:14
  • Hadoop大数据处理框架简介

    分类:大数据 标签: hadoop 大数据 bigdata

    Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella 在 2005 年合作开发。后来,Hadoop 被贡献给了 Apache 基金会,成为 Apache 基金会的开源项目。...
    阅读数:711 评论数:0
    2019-09-01 22:31:53
  • YARN学习小知识

    分类:hadoop 标签: yarn hadoop

    YARN产生背景 Hadoop1.x时: MapReduce: Master/Slave架构,1个JobTracker带多个TaskTracker JobTracker: 负责资源管理和作业调度 TaskTracker: 定期向JT汇报本节点的健康状况、资源使用情况、作业执行情况;...
    阅读数:893 评论数:0
    2019-08-08 08:22:57