读者QQ群②:190771709,投稿请发dashuju36@qq.com
我要投稿

基于数据库的分布式存储和计算(PPT)

大数据

文 | 江和慧

基于数据库的分布式存储和计算是使用分库分表的思想实现数据存储,使用mapred的思想事项sql计算。

计算过程:将输入sql经过此法,语法,语义分析,集合表结构信息和数据分布信息,生成包含多个阶段(简称stage)的执行计划,这些阶段具有一定的依赖关系,形成多输入单输出的任务树。

每个阶段包括两种sql,称为mapsql和redsql,另外每个阶段包括三个操作,map,数据洗牌和red;map和red分别执行mqpsql和redsql。

先在不同的数据库节点中执行map操作,map操作执行mapsql,它的输入是每个数据库节点上的表里面的数据,输出根据某个字段按照一定的规则进行分割,放到不同的结果集中,结果集作为数据洗牌的输入;

然后执行数据洗牌的过程,将不同结果集拷贝到不同的将要执行red的数据库节点上;

在不同的数据库节点中执行red操作,red操作执行redsql;

最后返回结果。

大数据
大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据 大数据

36大数据(www.36dsj.com)成立于2013年5月,是中国访问量最大的大数据网站。36大数据(微信号:dashuju36)以独立第三方的角度,为大数据产业生态图谱上的需求商 、应用商、服务商、技术解决商等相关公司及从业人员提供全球资讯、商机、案例、技术教程、项目对接、创业投资及专访报道等服务。

End.

转载请注明来自36大数据(36dsj.com):36大数据 » 基于数据库的分布式存储和计算(PPT)

36大数据   除非特别注明,本站所有文章均不代表本站观点。报道中出现的商标属于其合法持有人。请遵守理性,宽容,换位思考的原则。

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址