读者QQ群②:190771709,投稿请发dashuju36@qq.com
我要投稿

Spark

Spark踩坑记:共享变量

小数点   2017-05-03

作者|肖力涛 前言 前面总结的几篇spark踩坑博文中,我总结了自己在使用spark过程当中踩过的一些坑和经验。我们知道Spark是多机器集群部署的,分为Driver/Master/Worker,Master负责资源调度...

阅读全文

大数据系列之并行计算引擎Spark介绍

小数点   2017-04-21

文|孟凡柱 Spark: Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框...

阅读全文

Spark源码分析之分区器的作用

小数点   2017-04-20

文|xingoo 最近因为手抖,在Spark中给自己挖了一个数据倾斜的坑。为了解决这个问题,顺便研究了下Spark分区器的原理,趁着周末加班总结一下~ 先说说数据倾斜 数据倾斜是指Spark中的RDD在计...

阅读全文

Spark:超越Hadoop MapReduce

数据有意思   2017-04-19

引言:和 Hadoop 一样,Spark 提供了一个 Map/Reduce API(分布式计算)和分布式存储。二者主要的不同点是,Spark 在集群的内存中保存数据,而 Hadoop 在集群的磁盘中存储数据。 大数据对一...

阅读全文

Spark名词解释及关系

小数点   2017-04-13

随着对spark的业务更深入,对spark的了解也越多,然而目前还处于知道的越多,不知道的更多阶段,当然这也是成长最快的阶段。这篇文章用作总结最近收集及理解的spark相关概念及其关系。 名词...

阅读全文

Spark for python developers —Spark流式数据处理

小数点   2017-04-12

文|半吊子全栈工匠 先研究一下不断改变的动态环境带来的挑战,在列出流处理应用的先决条件(如,Twitter的TCP Sockets连接)之后, 结合Spark, Kafka 和 Flume 把数据放入一个低延迟,高吞...

阅读全文

Spark2.1.0入门:Spark的安装和使用

小数点   2017-04-12

文|林子雨老师 【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载! Spark可以独立安装使用,也可以和Hadoop一起安装使用。本教程中,我们采用和Hadoop一起安装使用...

阅读全文

Apache Spark 内存管理详解

大象会跳舞   2017-03-31

Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳...

阅读全文

用Spark机器学习数据流水线进行广告检测

小数点   2017-02-15

文 | Srini Penchikala 在这篇文章中,我们Spark的其它机器学习API,名为Spark ML,如果要用数据流水线来开发大数据应用程序的话,这个是推荐的解决方案。关键点: 了解机器学习数据流水线...

阅读全文

用Spark学习矩阵分解推荐算法

小数点   2017-02-06

文 | 刘建平Pinard 在矩阵分解在协同过滤推荐算法中的应用中,我们对矩阵分解在推荐算法中的应用原理做了总结,这里我们就从实践的角度来用Spark学习矩阵分解推荐算法。 1. Spark推荐算法概...

阅读全文

使用 Apache Spark 的 Lambda 架构

雪姬   2016-12-07

文 | Taras Matyashovskyy 市场上很多玩家已经建造了MapReduce工作流用来日常处理兆兆字节的历史数据。但是谁愿意等待24小时来拿到更新后的分析报告?这篇博客会向你介绍Lambda Architecture...

阅读全文

如何用Spark解决一些经典MapReduce问题?

雪姬   2016-12-06

文 | 谭杨 摘要 Spark是一个Apache项目,它被标榜为“快如闪电的集群计算”。它拥有一个繁荣的开源社区,并且是目前最活跃的Apache项目。Spark提供了一个更快、更通用的数据处理平台。和Hadoo...

阅读全文

基于Spark的用户行为路径分析的产品化实践

雪姬   2016-12-01

文 | 李亮 1.  什么是用户行为路径 用户行为路径分析是互联网行业特有的一类数据分析方法,它主要根据每位用户在App或网站中的点击行为日志,分析用户在App或网站中各个模块的流转规律与特...

阅读全文

Spark体系架构

蝙蝠侠   2016-11-10

作者:刘帝伟 最近看到一篇关于Spark架构的博文,作者是 Alexey Grishchenko。看过Alexey博文的同学应该都知道,他对Spark理解地非常深入,读完他的 “spark-architecture” 这篇博文,有种醍...

阅读全文

理解Spark的核心RDD

小数点   2016-10-21

作者:张逸 与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及...

阅读全文

Spark生态系统中的图数据分析知识

蝙蝠侠   2016-10-19

作者:Srini Penchikala 图结构可有效表示稀疏矩阵,因而图数据分析可用于实现大数据分析。对于Spark生态系统中的图处理系统GraphX,《Spark GraphX in Action》一书给出了详细的教程和典型...

阅读全文