博客文章 | kulusi

hadoop jar /usr/local/hadoop/hadoop-2.6.5/share/hadoop/tools/lib/hadoop-streaming-2.6.5.jar --info Usage: $HADOOP_PREFIX/bin/hadoop jar...

阅读数：1493 评论数：0

2019-09-05 22:54:03

转 hadoop命令大全

分类：hadoop 标签： hadoop hdfs

hdfs常用命令：第一部分：hdfs文件系统命令第一类：文件路径增删改查系列： hdfs dfs -mkdir dir 创建文件夹 hdfs dfs -rmr dir 删除文件夹dir hdfs dfs -ls 查看目录文件信息 hdfs dfs -lsr 递归查看文件目录信息...

阅读数：1391 评论数：0

2019-09-04 21:10:23

转 MapReduce编程实例：单词计数

分类：hadoop 标签： hadoop mapreduce

本节介绍如何编写基本的 MapReduce 程序实现数据分析。本节代码是基于 Hadoop 2.7.3 开发的。任务准备单词计数（WordCount）的任务是对一组输入文档中的单词进行分别计数。假设文件的量比较大，每个文档又包含大量的单词，则无法使用传统的线性程序进行处理，而这类问题正是...

阅读数：1391 评论数：0

2019-09-03 18:39:24

转 MapReduce执行流程和Shuffle过程

分类：hadoop 标签： hadoop mapreduce

本节将对 Hadoop MapReduce 的工作机制进行介绍，主要从 MapReduce 的作业执行流程和 Shuffle 过程方面进行阐述。通过加深对 MapReduce 工作机制的了解，可以使程序开发者更合理地使用 MapReduce 解决实际问题。 Hadoop...

阅读数：1446 评论数：0

2019-09-03 18:38:05

转 MapReduce实例分析：单词计数

分类：hadoop 标签： hadoop mapreduce

单词计数是最简单也是最能体现 MapReduce 思想的程序之一，可以称为 MapReduce 版“Hello World”。单词计数的主要功能是统计一系列文本文件中每个单词出现的次数。本节通过单词计数实例来阐述采用 MapReduce 解决实际问题的基本思路和具体实现过程。设计思路...

阅读数：1386 评论数：0

2019-09-03 18:37:00

转 Hadoop MapReduce工作流程

分类：hadoop 标签： hadoop mapreduce

MapReduce 就是将输入进行分片，交给不同的 Map 任务进行处理，然后由 Reduce 任务合并成最终的解。 MapReduce 的实际处理过程可以分解为 Input、Map、Sort、Combine、Partition、Reduce、Output 等阶段，具体的工作流程如图 1...

阅读数：1395 评论数：0

2019-09-03 18:35:42

转 Hadoop MapReduce架构

分类：hadoop 标签： hadoop mapreduce

Hadoop MapReduce 是 Hadoop 平台根据 MapReduce 原理实现的计算框架，目前已经实现了两个版本，MapReduce 1.0 和基于 YARN 结构的 MapReduce 2.0。尽管 MapReduce 1.0...

阅读数：1518 评论数：0

2019-09-03 18:34:30

转 Hadoop MapReduce简介

分类：hadoop 标签： hadoop mapreduce

本节首先简单介绍大数据批处理概念，然后介绍典型的批处理模式 MapReduce，最后对 Map 函数和 Reduce 函数进行描述。批处理模式...

阅读数：1492 评论数：0

2019-09-03 18:32:44

转 HDFS两种操作方式：命令行和Java API

分类：hadoop 标签： HDFS hadoop java

HDFS 文件操作有两种方式：一种是命令行方式，Hadoop 提供了一套与 Linux 文件命令类似的命令行工具；另一种是 Java API，即利用 Hadoop 的 Java 库，采用编程的方式操作 HDFS 的文件。本节将介绍 Linux 操作系统中关于 HDFS...

阅读数：2408 评论数：0

2019-09-02 20:52:28

转 HDFS读取和写入数据简介

分类：hadoop 标签： HDFS hadoop

HDFS 的文件访问机制为流式访问机制，即通过 API 打开文件的某个数据块之后，可以顺序读取或者写入某个文件。由于 HDFS...

阅读数：1379 评论数：0

2019-09-02 20:46:58

转 HDFS架构和实现机制简介

分类：hadoop 标签： HDFS hadoop

本节将对 HDFS 的整体架构和基本实现机制进行简单介绍。 HDFS 整体架构 HDFS 是一个主从 Master/Slave 架构。一个 HDFS 集群包含一个 NameNode，这是一个 Master Server，用来管理文件系统的命名空间，以及调节客户端对文件的访问。一个 HDFS...

阅读数：1404 评论数：0

2019-09-02 20:46:05

转 HDFS基本原理和设计理念

分类：hadoop 标签： HDFS hadoop

本节将对 HDFS 的基本原理进行讲解。文件系统的问题文件系统是操作系统提供的磁盘空间管理服务，该服务只需要用户指定文件的存储位置及文件读取路径，而不需要用户了解文件在磁盘上是如何存放的。但是当文件所需空间大于本机磁盘空间时，应该如何处理呢？加磁盘，但是加到一定程度就有限制了。...

阅读数：1391 评论数：0

2019-09-02 20:44:42

转 Hadoop HDFS分布式文件系统简介

分类：hadoop 标签：大数据 hadoop

在大数据时代，需要处理分析的数据集的大小已经远远超过了单台计算机的存储能力，因此需要将数据集进行分区并存储到若干台独立的计算机中。但是，分区存储的数据不方便管理和维护，迫切需要一种文件系统来管理多台机器上的文件，这就是分布式文件系统。...

阅读数：1365 评论数：0

2019-09-02 20:43:14

转 Scrapy网络爬虫简介

分类：大数据标签：大数据 scrapy

Scrapy 是一个为了爬取网站数据、提取结构性数据而编写的应用框架，可以应用在包括数据挖掘、信息处理或存储历史数据等一系列的程序中。 1. Scrapy 架构 Scrapy 的整体架构由 Scrapy...

阅读数：1637 评论数：0

2019-09-02 20:33:37

转通过网络爬虫采集大数据

分类：大数据标签：大数据爬虫

网络数据采集是指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来，将其存储为统一的本地数据文件，并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集，附件与正文可以自动关联。...

阅读数：1493 评论数：0

2019-09-02 20:30:15

转通过系统日志采集大数据

分类：大数据标签：大数据 flume

许多公司的平台每天都会产生大量的日志，并且一般为流式数据，如搜索引擎的 pv 和查询等。处理这些日志需要特定的日志系统，这些系统需要具有以下特征。构建应用系统和分析系统的桥梁，并将它们之间的关联解耦。支持近实时的在线分析系统和分布式并发的离线分析系统。...

阅读数：1378 评论数：0

2019-09-02 20:27:58

转 GFS、MapReduce和BigTable：Google的三种大数据处理系统

分类：大数据标签：大数据 GFS MapReduce BigTable

Google 在搜索引擎上所获得的巨大成功，很大程度上是由于采用了先进的大数据管理和处理技术。Google 的搜索引擎是针对搜索引擎所面临的日益膨胀的海量数据存储问题，以及在此之上的海量数据处理问题而设计的。众所周知，Google...

阅读数：1333 评论数：0

2019-09-01 22:51:50

转大数据预处理之数据消减

分类：大数据标签：大数据 bigdata

我们都知道对大规模数据进行复杂的数据分析通常需要耗费大量的时间，这时就需要我们的数据消减技术了。...

阅读数：1295 评论数：0

2019-09-01 22:50:00

转大数据预处理之数据转换

分类：大数据标签：大数据 bigdata

数据转换就是将数据进行转换或归并，从而构成一个适合数据处理的描述形式。数据转换包含以下处理内容。 1）平滑处理帮助除去数据中的噪声，主要技术方法有 Bin 方法、聚类方法和回归方法。 2）合计处理...

阅读数：1268 评论数：0

2019-09-01 22:48:37

转大数据预处理之数据集成

分类：大数据标签：大数据 bigdata

数据处理常常涉及数据集成操作，即将来自多个数据源的数据，如数据库、数据立方、普通文件等，结合在一起并形成一个统一数据集合，以便为数据处理工作的顺利完成提供完整的数据基础。在数据集成过程中，需要考虑解决以下几个问题。 1. 模式集成问题...

阅读数：1138 评论数：0

2019-09-01 22:47:30

转大数据预处理之数据清洗

分类：大数据标签：大数据 bigdata

现实世界的数据常常是不完全的、有噪声的、不一致的。数据清洗过程包括遗漏数据处理，噪声数据处理，以及不一致数据处理。本节介绍数据清洗的主要处理方法。遗漏数据处理...

阅读数：1400 评论数：0

2019-09-01 22:45:43

转大数据处理技术有哪些？

分类：大数据标签：大数据 bigdata

本节将对大数据技术的基本概念进行简单介绍，包括分布式计算、服务器集群和 Google 的 3 个大数据技术。分布式计算对于如何处理大数据，计算机科学界有两大方向。第一个方向是集中式计算，就是通过不断增加处理器的数量来增强单个计算机的计算能力，从而提高处理数据的速度。...

阅读数：1140 评论数：0

2019-09-01 22:44:08

转大数据处理的基本流程：数据抽取与集成+数据分析+数据解释

分类：大数据标签：大数据 bigdata

大数据的数据来源广泛，应用需求和数据类型都不尽相同，但是最基本的处理流程是一致的。...

阅读数：1069 评论数：0

2019-09-01 22:39:06

转大数据开发涉及到的关键技术有哪些？

分类：大数据标签：大数据 bigdata

大数据本身是一种现象而不是一种技术。大数据技术是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理，从而获得分析和预测结果的数据处理技术。...

阅读数：1273 评论数：0

2019-09-01 22:37:13

转 Hadoop大数据处理框架简介

分类：大数据标签： hadoop 大数据 bigdata

Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella 在 2005 年合作开发。后来，Hadoop 被贡献给了 Apache 基金会，成为 Apache 基金会的开源项目。...

阅读数：1112 评论数：0

2019-09-01 22:31:53

原大数据是什么？1分钟了解大数据的概念！

分类：大数据标签： bigdata 大数据

大数据本身是一个抽象的概念。从一般意义上讲，大数据是指无法在有限时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。目前，业界对大数据还没有一个统一的定义，但是大家普遍认为，大数据具备 Volume、Velocity、Variety 和 Value...

阅读数：1199 评论数：0

2019-09-01 22:22:24

python列表解析，也叫列表表达式

ynkulusi：增加一个刚用到的 l1 = [] for i in range(10): if i...
十分钟玩转 jQuery

ynkulusi： alert($("div p:nth-child(2)").text()); ...
echart地图缩放监听和随机高亮

ynkulusi：补充个无数值区域不高亮的监听事件...
十分钟玩转 jQuery

ynkulusi： Jquery 获取某个样式除第一个以外的元素 #非第一个元素...
用zip把元组或列表生成元组列表，用于动态构造字典

ynkulusi： dict(list(zip(['a','b'],[1,2]))) ...