读者QQ群③:168129342,投稿请发dashuju36@qq.com
我要投稿

标签:Spark

有助于你掌握机器学习的十三个框架

小数点   2017-09-07   机器学习

作者:Serdar Yegulalp 在过去的一年里,机器学习炙手可热。机器学习的“突然”降临,并不单纯因为廉价的云环境和更强有力的GPU硬件。也因为开放源码框架的爆炸式增长,这些框架将机器学习中...

阅读全文

如何成为云计算大数据Spark高手

小数点   2017-08-18   Spark

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全...

阅读全文

分析:「AI on Hadoop」有意义吗?

图表大师   2017-08-11   Hadoop

近日MapR宣布推出了一款名为Quick Start Solution(QSS)的新解决方案,专注于深度学习应用。MapR强调,QSS是一款分布式深度学习产品和服务,能够大规模训练复杂的深度学习算法。 想法是这样...

阅读全文

基于Spark的大规模机器学习在微博的应用

小数点   2017-06-26   Spark

作者:吴磊  张拓宇 众所周知,自2015年以来微博的业务发展迅猛。如果根据内容来划分,微博的业务有主信息(Feed)流、热门微博、微博推送(Push)、反垃圾、微博分发控制等。每个业务都有...

阅读全文

Spark踩坑记:共享变量

小数点   2017-05-03   Spark

作者|肖力涛 前言 前面总结的几篇spark踩坑博文中,我总结了自己在使用spark过程当中踩过的一些坑和经验。我们知道Spark是多机器集群部署的,分为Driver/Master/Worker,Master负责资源调度...

阅读全文

一文读懂大数据计算框架与平台

小数点   2017-05-02   大数据技术

作者:王小鉴 1. 前言 计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等。随着互联网、物联网等技术得到越来越广泛的应用,数据...

阅读全文

大数据系列之并行计算引擎Spark介绍

小数点   2017-04-21   Spark

文|孟凡柱 Spark: Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框...

阅读全文

Spark源码分析之分区器的作用

小数点   2017-04-20   Spark

文|xingoo 最近因为手抖,在Spark中给自己挖了一个数据倾斜的坑。为了解决这个问题,顺便研究了下Spark分区器的原理,趁着周末加班总结一下~ 先说说数据倾斜 数据倾斜是指Spark中的RDD在计...

阅读全文