读者QQ群②:190771709,投稿请发dashuju36@qq.com
我要投稿

大数据技术

HBase高可用集群运维实践

小数点   2017-01-15

文 | zengweizhan 随着越来越多的业务选择HBase作为存储引擎,对HBase的可用性要求也越来越高,对于HBase的运维也提出了新的挑战。目前运维集群超过30+,而且接入的业务类型繁多,对于性能...

阅读全文

设计爬虫Hawk背后的故事

小数点   2017-01-13

文 | 沙漠之鹰 本文写于圣诞节北京下午慵懒的午后。本文偏技术向,不过应该大部分人能看懂。 五年之痒 2016年,能记入个人年终总结的事情没几件,其中一个便是开源了Hawk。我花不少时间优化...

阅读全文

大数据集群部署与管理

雪姬   2017-01-10

文 | 何金池, 李 峰, 李 婷 一、大数据集群技术的概述 让我们从有趣的 “啤酒与尿布” 故事说起,在美国沃尔玛连锁超市,人们发现了一个特别有趣的现象:尿布与啤酒这两种风马牛...

阅读全文

MTDDL——美团点评分布式数据访问层中间件

小数点   2016-12-20

文 | 刘军 背景 2016年Q3季度初,在美团外卖上单2.0项目上线后,商家和商品数量急速增长,预估商品库的容量和写峰值QPS会很快遇到巨大压力。随之而来也会影响线上服务的查询性能、DB(数据库...

阅读全文

为什么说 Storm 比 Hadoop 快?

雪姬   2016-12-14

文 | 杨晓青  张云聪 “快”这个词是不明确的,专业属于点有两个层面: 1.时延 , 指数据从产生到运算产生结果的时间,题主的“快”应该主要指这个。 2. 吞吐, 指系统单位时间处理的数据量。 ...

阅读全文

以Flink为例,消除流处理常见的六大谬见

蝙蝠侠   2016-12-05

文 | Kostas Tzoumas   译者 | 薛命灯 我们在思考流处理问题上花了很多时间,更酷的是,我们也花了很多时间帮助其他人认识流处理,以及如何在他们的组织里应用流处理来解决数据问题。 我们...

阅读全文

推荐系统老司机的十条经验

小数点   2016-11-21

作者 | 刑无刀 一年一度的ACM Recsys会议在9月份已经胜利闭幕,留下一堆slides和tutorials等着我们去学习。 翻看今年的各种分享,其中老司机Xavier Amatriain的分享引起了我的兴趣:Lessons...

阅读全文

深入理解Flink核心技术

雪姬   2016-11-14

作者:李呈祥 Flink项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多的人关注Flink项目。本文将深入分析Flink一些关键的技术与特性,希望能够...

阅读全文

Apache Beam | 下一代的大数据处理标准

蝙蝠侠   2016-11-14

作者:李呈祥 Apache Beam(原名Google DataFlow)是Google在2016年2月份贡献给Apache基金会的Apache孵化项目,被认为是继MapReduce,GFS和BigQuery等之后,Google在大数据处理领域对开源社区...

阅读全文

分布式系统,你真的了解吗?

蝙蝠侠   2016-11-02

作者:韩伟 韩伟腾讯互娱研发部高级工程师 我们邀请腾讯互娱研发部高级工程师韩伟,分享他所理解的分布式系统。由于内容较多,将分三篇进行讲述,本期第一篇先来看看他眼中的分布式系统究竟...

阅读全文

Apache Hive走向内存计算,性能提升26倍

蝙蝠侠   2016-11-01

Apache Hive 2.1已于几个月前发布,它引入了内存计算,这使得Hive计算性能得到极大提升,这将会影响SQL On Hadoop目前的竞争局面。据测试,其性能提高约26倍。 Apache Hive 2.1新引入了6大...

阅读全文

Kappa:比Lambda更好更灵活的实时处理架构

蝙蝠侠   2016-10-28

作者:Miss.X 前言我们在《深入浅出解析大数据Lambda架构》中,详细分析了Lambda架构的技术背景,架构原理,并对基于Lambda架构设计的智慧交通系统案例进行了分析,得到了众位读者的热烈反...

阅读全文

基于Scribe的奇虎360日志收集系统架构

蝙蝠侠   2016-10-25

作者:神奕 日志收集是大数据的基石。许多公司的业务平台每天都会产生大量的日志数据。收集业务日志数据,供离线和在线的分析系统使用,正是日志收集系统的要做的事情。高可用性,高可靠性...

阅读全文

2016年大数据技术发展趋势概述

小数点   2016-10-24

对大规模数据集进行分析能够帮助我们掌握隐藏模式、客户偏好、未知关联性、市场趋势以及其它极具价值的业务信息。在此基础之上,企业能够实现成本削减、促进决策制定并提供更多有针对性的产...

阅读全文