读者QQ群②:190771709,投稿请发dashuju36@qq.com
我要投稿

Hadoop

成本性能要兼得?简化Hadoop云部署有高招

莫扎特   2017-01-19

文 | Craig Stedman 译者 | 杨宏玉 对于大数据管理和分析应用程序云服务,用户的关注度正不断增长,而为了应对这一趋势,供应商已经开始努力简化Hadoop的云部署流程,并试图降低云端Hadoop...

阅读全文

ZooKeeper原理及其在Hadoop和HBase中的应用

雪姬   2017-01-16

文 | LBD ZooKeeper是一个开源的分布式协调服务,由雅虎创建,是Google Chubby的开源实现。分布式应用程序可以基于ZooKeeper实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、...

阅读全文

深刻理解HDFS工作机制

雪姬   2017-01-12

文 | Pickle 深入理解一个技术的工作机制是灵活运用和快速解决问题的根本方法,也是唯一途径。对于HDFS来说除了要明白它的应用场景和用法以及通用分布式架构之外更重要的是理解关键步骤的原...

阅读全文

分布式(hadoop)内核研发面试指南

数控小V   2016-12-23

文 | 封神 本文是同学们进入阿里云等公司的hadoop内核研发岗位的一个指引,需要具备哪些要求,如果不具备则可以往这方面努力。 最近一直在看简历,面试同学,发现符合要求的很少。本文是同...

阅读全文

资深架构师教你一篇文看懂Hadoop

数控小V   2016-11-01

作者:陈 飚 “昔我十年前,与君始相识” 一瞬间Hadoop也到了要初中择校的年龄了。十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统中有已经有了Ha...

阅读全文

MapReduce 初级案例——多表关联

数控小V   2016-10-17

作者:虾皮 多表关联和单表关联类似,它也是通过对原始数据进行一定的处理,从其中挖掘出关心的信息,下面进入一个实例。 1 实例描述 输入是两个文件,一个代表工厂表,包含工厂名列和地址...

阅读全文

MapReduce 初级案例——数据去重

雪姬   2016-10-14

作者:虾皮 “ 数据去重”主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。 统计大数据集上的数据种类个数、 从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就...

阅读全文

MapReduce初级案例——单表关联

莫扎特   2016-10-13

作者:虾皮 前面的实例都是在数据上进行一些简单的处理,为进一步的操作打基础。“ 单表关联”这个实例要求从给出的数据中寻找所关心的数据,它是对原始数据所包含信息的挖掘。下面进入这个实...

阅读全文

MapReduce初级案例——数据排序

莫扎特   2016-10-13

作者:虾皮 “ 数据排序”是许多实际任务执行时要完成的第一项工作,比如学生成绩评比、 数据建立索引等。这个实例和数据去重类似,都是先对原始数据进行初步处理,为进一步的数据操作打好基...

阅读全文

MapReduce初级案例——平均成绩

莫扎特   2016-10-13

作者:虾皮 “平均成绩”主要目的还是在重温经典“ WordCount”例子,可以说是在基础上的微变化版,该实例主要就是实现一个计算学生平均成绩的例子。 1 实例描述 对输入文件中数据进行就算学生...

阅读全文

Hadoop教程——HDFS简介

数控小V   2016-10-11

作者:forfuture 一、HDFS的基本概念 1.1、数据块(block) HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 和普通文件系统相同的是,HDFS中的文件是被分成64M...

阅读全文

Apache Hadoop 3.0新版本介绍及未来发展方向

雪姬   2016-10-10

过去十年,Apache Hadoop从无到有,从理论概念演变到如今支撑起若干全球最大的生产集群。接下来的十年,Hadoop将继续壮大,并发展支撑新一轮的更大规模、高效和稳定的集群。 我们此次将向大...

阅读全文

数据太大?你该了解Hadoop分布式文件系统

数控小V   2016-09-19

作者:鲁畅 大数据时代来了。当所有人都争吵着这件事情的时候,当所有企业都看好大数据的发展前景的时候,却都很少关注这些数据从哪儿来,我们有没有足够优秀的技术能力处理这些数据。 联网...

阅读全文

Apache Hive2.0的新特性介绍

雪姬   2016-09-07

Hive 是一个基于 Hadoop 文件系统之上的数据仓库架构。它为数据仓库的管理提供了许多功能:数据 ETL (抽取、转换和加载)工具、数据存储管理和大型数据集的查询和分析能力。同时 Hive 还定...

阅读全文

YARN 设计理念与基本架构

数控小V   2016-08-26

作者:牛肉圆粉不加葱 本文由 简书 牛肉圆粉不加葱 授权发布,版权所有归作者,转载请联系作者! YARN 的基本组成结构 1. ResourceManager ResourceManager 是一个全局的资源管理器,负责整...

阅读全文

使用Sqoop从MySQL导入数据到Hive和HBase

雪姬   2016-08-24

作者:王安琪 本文由 王安琪 授权发布,版权所有归作者,转载请联系作者! 基础环境 sqoop:sqoop-1.4.5+cdh5.3.6+78, hive:hive-0.13.1+cdh5.3.6+397, hbase:hbase-0.98.6+cdh5.3.6+11...

阅读全文

初识Hadoop

数控小V   2016-08-19

作者:白糖_ Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身。 《Hadoop基础教程...

阅读全文

Hadoop 面试,有它就够了

数控小V   2016-08-18

作者 :HarperKoo 本文由 简书  HarperKoo 授权发布,版权所有归作者,转载请联系作者! Map Reduce & YARN 简介 Apache Hadoop 是一个开源软件框架,可安装在一个商用机器集群中,使机...

阅读全文

专门为面试而学的大数据

数控小V   2016-08-17

作者:HarperKoo 本文由 简书 HarperKoo 授权发布,版权所有归作者,转载请联系作者! 在面试大数据职位的时候,你会遇到多种问题(hdfs、map reduce、zookeeper、hadoop、hbase等等),当...

阅读全文