读者QQ群②:190771709,投稿请发dashuju36@qq.com
我要投稿

大数据技术

普通反爬虫机制的应对策略

小数点   2017-04-27

爬虫与反爬虫,这相爱相杀的一对,简直可以写出一部壮观的斗争史。而在大数据时代,数据就是金钱,很多企业都为自己的网站运用了反爬虫机制,防止网页上的数据被爬虫爬走。然而,如果反爬机...

阅读全文

【干货】大数据框架整理

小数点   2017-04-27

大数据离线部分 HDFS 1:HDFS的架构部分及工作原理     NameNode:负责管理元素据,将信息保存在内存中     DataNode:保存数据,以块的形式保存。启动后需要定时的向NameNode发送心跳,报...

阅读全文

魅族推荐平台架构解析(二)

小数点   2017-04-27

三、魅族推荐平台现状 1、第三代架构的核心需求 为了解决上述问题,我们对魅族推荐平台架构进行了优化。根据业务需要以及对一二代架构优缺点的总结,我们首先确定了第三代架构的核心需求: ...

阅读全文

如何用PyTorch实现递归神经网络?

小数点   2017-04-26

作者:James Bradbury 从 Siri 到谷歌翻译,深度神经网络已经在机器理解自然语言方面取得了巨大突破。这些模型大多数将语言视为单调的单词或字符序列,并使用一种称为循环神经网络(recurre...

阅读全文

魅族推荐平台架构解析(一)

小数点   2017-04-26

一、“推荐” 关于“推荐”这个词,相信大家并不陌生,平时浏览网站(特别是电商网站)时看到的很多网站的首页的内容是通过系统推荐给大家的。 1、推荐能做什么? 在网站首页或一些精品页,可以...

阅读全文

文本分析之制作网络关系图——Python

小数点   2017-04-25

文|邓旭东HIT 今天给大家带来我一个脚本,用来分析社会网络关系。 这个图我没有用到gephi或者其他的工具,是我用python纯脚本运行出来的。简单的实现了封装,大家有兴趣可以下载下脚本,运...

阅读全文

常用排序算法比较与分析

小数点   2017-04-25

文|Philo.Xie 一、常用排序算法简述 下面主要从排序算法的基本概念、原理出发,分别从算法的时间复杂度、空间复杂度、算法的稳定性和速度等方面进行分析比较。依据待排序的问题大小(记录数...

阅读全文

大规模爬虫流程总结

小数点   2017-04-24

爬虫是一个比较容易上手的技术,也许花5分钟看一篇文档就能爬取单个网页上的数据。但对于大规模爬虫,完全就是另一回事,并不是1*n这么简单,还会衍生出许多别的问题。 系统的大规模爬虫流程...

阅读全文

微信分布式数据存储协议对比——Paxos和Quorum

小数点   2017-04-21

分布式系统是网络化的计算机系统,海量数据的互联网应用只能通过分布式系统协调大量计算机来支撑。微信后台存储大量使用了分布式数据存储方式的NoSQL集群,比如核心业务:账号、支付单据、...

阅读全文

干货|国内外十大主流采集软件盘点

小数点   2017-04-20

文|八爪鱼大数据 大数据技术用了多年时间进行演化,才从一种看起来很炫酷的新技术变成了企业在生产经营中实际部署的服务。其中,数据采集产品迎来了广阔的市场前景,无论国内外,市面上都出...

阅读全文

mongoDB基本操作

小数点   2017-04-19

创建数据库 use DATABASE_NAME 如果数据库不存在则创建,否则切换到指定数据库 db查看当前数据库名 show dbs 查看所有数据库 show tables 查看集合 删除数据库 db.dropDatabase() 删除当前...

阅读全文

数据分析与可视化,你靠什么搞定?

小数点   2017-04-18

事实表明,大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。可以说数据分析是决策过程中的决定性因素,也是大数据时代发挥数据价值的最关键环节...

阅读全文

微博终结者爬虫

小数点   2017-04-17

微博终结者爬虫 关于聊天对话系统我后面会开源一个项目,这个repo目的是基于微博构建一个高质量的对话语料,本项目将继续更进开发,大家快star!!永远开源! 这个项目致力于对抗微博的反爬...

阅读全文

BlinkDB及其问题

小数点   2017-04-17

文|飞总 BlinkDB是UCBerkeley和MIT的Sam一起做出来的一个基于Sampling的系统,系统大致成型的时间在2012年前后,该论文也投过DB的会议一路被拒,最后发表于操作系统会议EuroSys并且拿到了最...

阅读全文

微信高可用分布式数据库PhxSQL设计与实现

小数点   2017-04-16

作者:陈俊超 本文详细描述了PhxSQL的设计与实现。从MySQL的容灾缺陷开始讲起,接着阐述实现高可用强一致的思路,然后具体分析每个实现环节要注意的要点和解决方案,最后展示了PhxSQL在容灾...

阅读全文