• 全部文章 > 标签 > 大数据
    排序:
    默认
    按访问量
    按评论量
  • Hadoop HDFS分布式文件系统简介

    分类:hadoop 标签: 大数据 hadoop

    在大数据时代,需要处理分析的数据集的大小已经远远超过了单台计算机的存储能力,因此需要将数据集进行分区并存储到若干台独立的计算机中。但是,分区存储的数据不方便管理和维护,迫切需要一种文件系统来管理多台机器上的文件,这就是分布式文件系统。...
    阅读数:787 评论数:0
    2019-09-02 20:43:14
  • Scrapy网络爬虫简介

    分类:大数据 标签: 大数据 scrapy

    Scrapy 是一个为了爬取网站数据、提取结构性数据而编写的应用框架,可以应用在包括数据挖掘、信息处理或存储历史数据等一系列的程序中。 1. Scrapy 架构 Scrapy 的整体架构由 Scrapy...
    阅读数:866 评论数:0
    2019-09-02 20:33:37
  • 通过网络爬虫采集大数据

    分类:大数据 标签: 大数据 爬虫

    网络数据采集是指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。...
    阅读数:964 评论数:0
    2019-09-02 20:30:15
  • 通过系统日志采集大数据

    分类:大数据 标签: 大数据 flume

    许多公司的平台每天都会产生大量的日志,并且一般为流式数据,如搜索引擎的 pv 和查询等。处理这些日志需要特定的日志系统,这些系统需要具有以下特征。 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦。 支持近实时的在线分析系统和分布式并发的离线分析系统。...
    阅读数:839 评论数:0
    2019-09-02 20:27:58
  • GFS、MapReduce和BigTable:Google的三种大数据处理系统

    分类:大数据 标签: 大数据 GFS MapReduce BigTable

    Google 在搜索引擎上所获得的巨大成功,很大程度上是由于采用了先进的大数据管理和处理技术。Google 的搜索引擎是针对搜索引擎所面临的日益膨胀的海量数据存储问题,以及在此之上的海量数据处理问题而设计的。 众所周知,Google...
    阅读数:808 评论数:0
    2019-09-01 22:51:50
  • 大数据预处理之数据消减

    分类:大数据 标签: 大数据 bigdata

    我们都知道对大规模数据进行复杂的数据分析通常需要耗费大量的时间,这时就需要我们的数据消减技术了。...
    阅读数:850 评论数:0
    2019-09-01 22:50:00
  • 大数据预处理之数据转换

    分类:大数据 标签: 大数据 bigdata

    数据转换就是将数据进行转换或归并,从而构成一个适合数据处理的描述形式。数据转换包含以下处理内容。 1)平滑处理 帮助除去数据中的噪声,主要技术方法有 Bin 方法、聚类方法和回归方法。 2)合计处理...
    阅读数:790 评论数:0
    2019-09-01 22:48:37
  • 大数据预处理之数据集成

    分类:大数据 标签: 大数据 bigdata

    数据处理常常涉及数据集成操作,即将来自多个数据源的数据,如数据库、数据立方、普通文件等,结合在一起并形成一个统一数据集合,以便为数据处理工作的顺利完成提供完整的数据基础。 在数据集成过程中,需要考虑解决以下几个问题。 1. 模式集成问题...
    阅读数:718 评论数:0
    2019-09-01 22:47:30
  • 大数据预处理之数据清洗

    分类:大数据 标签: 大数据 bigdata

    现实世界的数据常常是不完全的、有噪声的、不一致的。数据清洗过程包括遗漏数据处理,噪声数据处理,以及不一致数据处理。本节介绍数据清洗的主要处理方法。 遗漏数据处理...
    阅读数:900 评论数:0
    2019-09-01 22:45:43
  • 大数据处理技术有哪些?

    分类:大数据 标签: 大数据 bigdata

    本节将对大数据技术的基本概念进行简单介绍,包括分布式计算、服务器集群和 Google 的 3 个大数据技术。 分布式计算 对于如何处理大数据,计算机科学界有两大方向。 第一个方向是集中式计算,就是通过不断增加处理器的数量来增强单个计算机的计算能力,从而提高处理数据的速度。...
    阅读数:742 评论数:0
    2019-09-01 22:44:08
  • 大数据处理的基本流程:数据抽取与集成+数据分析+数据解释

    分类:大数据 标签: 大数据 bigdata

    大数据的数据来源广泛,应用需求和数据类型都不尽相同,但是最基本的处理流程是一致的。...
    阅读数:663 评论数:0
    2019-09-01 22:39:06
  • 大数据开发涉及到的关键技术有哪些?

    分类:大数据 标签: 大数据 bigdata

    大数据本身是一种现象而不是一种技术。大数据技术是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的数据处理技术。...
    阅读数:815 评论数:0
    2019-09-01 22:37:13
  • Hadoop大数据处理框架简介

    分类:大数据 标签: hadoop 大数据 bigdata

    Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella 在 2005 年合作开发。后来,Hadoop 被贡献给了 Apache 基金会,成为 Apache 基金会的开源项目。...
    阅读数:711 评论数:0
    2019-09-01 22:31:53
  • 大数据是什么?1分钟了解大数据的概念!

    分类:大数据 标签: bigdata 大数据

    大数据本身是一个抽象的概念。从一般意义上讲,大数据是指无法在有限时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。 目前,业界对大数据还没有一个统一的定义,但是大家普遍认为,大数据具备 Volume、Velocity、Variety 和 Value...
    阅读数:744 评论数:0
    2019-09-01 22:22:24