读者QQ群③:168129342,投稿请发dashuju36@qq.com
我要投稿

Spark

如何成为云计算大数据Spark高手

小数点   2017-08-18

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全...

阅读全文

基于Spark的大规模机器学习在微博的应用

小数点   2017-06-26

作者:吴磊  张拓宇 众所周知,自2015年以来微博的业务发展迅猛。如果根据内容来划分,微博的业务有主信息(Feed)流、热门微博、微博推送(Push)、反垃圾、微博分发控制等。每个业务都有...

阅读全文

Spark Shuffle过程分析:Map阶段处理流程

诺蓝   2017-06-07

作者:时延军 默认配置情况下,Spark在Shuffle过程中会使用SortShuffleManager来管理Shuffle过程中需要的基本组件,以及对RDD各个Partition数据的计算。我们可以在Driver和Executor对应的Sp...

阅读全文

Spark踩坑记:共享变量

小数点   2017-05-03

作者|肖力涛 前言 前面总结的几篇spark踩坑博文中,我总结了自己在使用spark过程当中踩过的一些坑和经验。我们知道Spark是多机器集群部署的,分为Driver/Master/Worker,Master负责资源调度...

阅读全文

大数据系列之并行计算引擎Spark介绍

小数点   2017-04-21

文|孟凡柱 Spark: Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框...

阅读全文

Spark源码分析之分区器的作用

小数点   2017-04-20

文|xingoo 最近因为手抖,在Spark中给自己挖了一个数据倾斜的坑。为了解决这个问题,顺便研究了下Spark分区器的原理,趁着周末加班总结一下~ 先说说数据倾斜 数据倾斜是指Spark中的RDD在计...

阅读全文

Spark:超越Hadoop MapReduce

数据有意思   2017-04-19

引言:和 Hadoop 一样,Spark 提供了一个 Map/Reduce API(分布式计算)和分布式存储。二者主要的不同点是,Spark 在集群的内存中保存数据,而 Hadoop 在集群的磁盘中存储数据。 大数据对一...

阅读全文

Spark名词解释及关系

小数点   2017-04-13

随着对spark的业务更深入,对spark的了解也越多,然而目前还处于知道的越多,不知道的更多阶段,当然这也是成长最快的阶段。这篇文章用作总结最近收集及理解的spark相关概念及其关系。 名词...

阅读全文

Spark for python developers —Spark流式数据处理

小数点   2017-04-12

文|半吊子全栈工匠 先研究一下不断改变的动态环境带来的挑战,在列出流处理应用的先决条件(如,Twitter的TCP Sockets连接)之后, 结合Spark, Kafka 和 Flume 把数据放入一个低延迟,高吞...

阅读全文

Spark2.1.0入门:Spark的安装和使用

小数点   2017-04-12

文|林子雨老师 【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载! Spark可以独立安装使用,也可以和Hadoop一起安装使用。本教程中,我们采用和Hadoop一起安装使用...

阅读全文

Apache Spark 内存管理详解

大象会跳舞   2017-03-31

Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳...

阅读全文

用Spark机器学习数据流水线进行广告检测

小数点   2017-02-15

文 | Srini Penchikala 在这篇文章中,我们Spark的其它机器学习API,名为Spark ML,如果要用数据流水线来开发大数据应用程序的话,这个是推荐的解决方案。关键点: 了解机器学习数据流水线...

阅读全文

用Spark学习矩阵分解推荐算法

小数点   2017-02-06

文 | 刘建平Pinard 在矩阵分解在协同过滤推荐算法中的应用中,我们对矩阵分解在推荐算法中的应用原理做了总结,这里我们就从实践的角度来用Spark学习矩阵分解推荐算法。 1. Spark推荐算法概...

阅读全文

使用 Apache Spark 的 Lambda 架构

雪姬   2016-12-07

文 | Taras Matyashovskyy 市场上很多玩家已经建造了MapReduce工作流用来日常处理兆兆字节的历史数据。但是谁愿意等待24小时来拿到更新后的分析报告?这篇博客会向你介绍Lambda Architecture...

阅读全文