读者QQ群②:190771709,投稿请发dashuju36@qq.com
我要投稿

标签:Spark

基于Spark的大规模机器学习在微博的应用

小数点   2017-06-26   Spark

作者:吴磊  张拓宇 众所周知,自2015年以来微博的业务发展迅猛。如果根据内容来划分,微博的业务有主信息(Feed)流、热门微博、微博推送(Push)、反垃圾、微博分发控制等。每个业务都有...

阅读全文

Spark踩坑记:共享变量

小数点   2017-05-03   Spark

作者|肖力涛 前言 前面总结的几篇spark踩坑博文中,我总结了自己在使用spark过程当中踩过的一些坑和经验。我们知道Spark是多机器集群部署的,分为Driver/Master/Worker,Master负责资源调度...

阅读全文

一文读懂大数据计算框架与平台

小数点   2017-05-02   大数据技术

作者:王小鉴 1. 前言 计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等。随着互联网、物联网等技术得到越来越广泛的应用,数据...

阅读全文

大数据系列之并行计算引擎Spark介绍

小数点   2017-04-21   Spark

文|孟凡柱 Spark: Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框...

阅读全文

Spark源码分析之分区器的作用

小数点   2017-04-20   Spark

文|xingoo 最近因为手抖,在Spark中给自己挖了一个数据倾斜的坑。为了解决这个问题,顺便研究了下Spark分区器的原理,趁着周末加班总结一下~ 先说说数据倾斜 数据倾斜是指Spark中的RDD在计...

阅读全文

Spark:超越Hadoop MapReduce

数据有意思   2017-04-19   Spark

引言:和 Hadoop 一样,Spark 提供了一个 Map/Reduce API(分布式计算)和分布式存储。二者主要的不同点是,Spark 在集群的内存中保存数据,而 Hadoop 在集群的磁盘中存储数据。 大数据对一...

阅读全文

Spark名词解释及关系

小数点   2017-04-13   Spark

随着对spark的业务更深入,对spark的了解也越多,然而目前还处于知道的越多,不知道的更多阶段,当然这也是成长最快的阶段。这篇文章用作总结最近收集及理解的spark相关概念及其关系。 名词...

阅读全文

Spark2.1.0入门:Spark的安装和使用

小数点   2017-04-12   Spark

文|林子雨老师 【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载! Spark可以独立安装使用,也可以和Hadoop一起安装使用。本教程中,我们采用和Hadoop一起安装使用...

阅读全文

2017数据库大趋势 PostgreSQL最受关注

大象会跳舞   2017-04-02   数据库

国外知名 IT 技术媒体 Jaxenter 进行了数据库观点调查,对开发者眼中数据库领域最热门的话题、最热门的数据存储以及处理工具进行统计汇总。调研的目标,是观察 2017 数据库大趋势。Jaxenter...

阅读全文

Apache Spark 内存管理详解

大象会跳舞   2017-03-31   Spark

Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳...

阅读全文

Spark技术在京东智能供应链预测的应用

大象会跳舞   2017-03-29   干货教程

作者|杨冬越 郭景瞻 1 背景 前段时间京东公开了面向第二个十二年的战略规划,表示京东将全面走向技术化,大力发展人工智能和机器人自动化技术,将过去传统方式构筑的优势全面升级。京东Y事业...

阅读全文