读者QQ群②:190771709,投稿请发dashuju36@qq.com
我要投稿

大数据技术

爬虫这件小事

小六子   2017-03-15

0x00 前言 三月十四日,晴,宜发工资,忌上班。 这一天终于还是来了。两周前答应部门妹子3月15号之前写篇文章,两周后我只字未动诚惶诚恐,为了避免被当做假同事打假,有了这篇挫文。 至于...

阅读全文

美团点评前端无痕埋点实践

大象会跳舞   2017-03-02

构建一个数据平台,大体上包括数据采集、数据上报、数据存储、数据计算以及数据可视化展示等几个重要的环节。其中,数据采集与上报是整个流程中重要的一环,只有确保前端数据生产的全面、准...

阅读全文

基于Hadoop的数据仓库Hive 基础知识

小六子   2017-02-27

Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL...

阅读全文

HBase高可用集群运维实践

小数点   2017-01-15

文 | zengweizhan 随着越来越多的业务选择HBase作为存储引擎,对HBase的可用性要求也越来越高,对于HBase的运维也提出了新的挑战。目前运维集群超过30+,而且接入的业务类型繁多,对于性能...

阅读全文

设计爬虫Hawk背后的故事

小数点   2017-01-13

文 | 沙漠之鹰 本文写于圣诞节北京下午慵懒的午后。本文偏技术向,不过应该大部分人能看懂。 五年之痒 2016年,能记入个人年终总结的事情没几件,其中一个便是开源了Hawk。我花不少时间优化...

阅读全文

大数据集群部署与管理

雪姬   2017-01-10

文 | 何金池, 李 峰, 李 婷 一、大数据集群技术的概述 让我们从有趣的 “啤酒与尿布” 故事说起,在美国沃尔玛连锁超市,人们发现了一个特别有趣的现象:尿布与啤酒这两种风马牛...

阅读全文

MTDDL——美团点评分布式数据访问层中间件

小数点   2016-12-20

文 | 刘军 背景 2016年Q3季度初,在美团外卖上单2.0项目上线后,商家和商品数量急速增长,预估商品库的容量和写峰值QPS会很快遇到巨大压力。随之而来也会影响线上服务的查询性能、DB(数据库...

阅读全文

为什么说 Storm 比 Hadoop 快?

雪姬   2016-12-14

文 | 杨晓青  张云聪 “快”这个词是不明确的,专业属于点有两个层面: 1.时延 , 指数据从产生到运算产生结果的时间,题主的“快”应该主要指这个。 2. 吞吐, 指系统单位时间处理的数据量。 ...

阅读全文

以Flink为例,消除流处理常见的六大谬见

蝙蝠侠   2016-12-05

文 | Kostas Tzoumas   译者 | 薛命灯 我们在思考流处理问题上花了很多时间,更酷的是,我们也花了很多时间帮助其他人认识流处理,以及如何在他们的组织里应用流处理来解决数据问题。 我们...

阅读全文

推荐系统老司机的十条经验

小数点   2016-11-21

作者 | 刑无刀 一年一度的ACM Recsys会议在9月份已经胜利闭幕,留下一堆slides和tutorials等着我们去学习。 翻看今年的各种分享,其中老司机Xavier Amatriain的分享引起了我的兴趣:Lessons...

阅读全文

深入理解Flink核心技术

雪姬   2016-11-14

作者:李呈祥 Flink项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多的人关注Flink项目。本文将深入分析Flink一些关键的技术与特性,希望能够...

阅读全文

Apache Beam | 下一代的大数据处理标准

蝙蝠侠   2016-11-14

作者:李呈祥 Apache Beam(原名Google DataFlow)是Google在2016年2月份贡献给Apache基金会的Apache孵化项目,被认为是继MapReduce,GFS和BigQuery等之后,Google在大数据处理领域对开源社区...

阅读全文

分布式系统,你真的了解吗?

蝙蝠侠   2016-11-02

作者:韩伟 韩伟腾讯互娱研发部高级工程师 我们邀请腾讯互娱研发部高级工程师韩伟,分享他所理解的分布式系统。由于内容较多,将分三篇进行讲述,本期第一篇先来看看他眼中的分布式系统究竟...

阅读全文

Apache Hive走向内存计算,性能提升26倍

蝙蝠侠   2016-11-01

Apache Hive 2.1已于几个月前发布,它引入了内存计算,这使得Hive计算性能得到极大提升,这将会影响SQL On Hadoop目前的竞争局面。据测试,其性能提高约26倍。 Apache Hive 2.1新引入了6大...

阅读全文