读者QQ群③:168129342,投稿请发dashuju36@qq.com
我要投稿

分析:「AI on Hadoop」有意义吗?

大数据

近日MapR宣布推出了一款名为Quick Start Solution(QSS)的新解决方案,专注于深度学习应用。MapR强调,QSS是一款分布式深度学习产品和服务,能够大规模训练复杂的深度学习算法。

大数据
想法是这样的:深度学习需要有大量数据,这是很复杂的。如果MapR的融合数据平台是你的主干架构,那么QSS可以让你得到将数据用于深度学习应用所需的东西。这是有道理的,这符合MapR的战略。

MapR是第一家在市场中推出所谓的“AI on Hadoop”产品的Hadoop厂商。但是AI on Hadoop从更大范围来说是有意义的吗?其他厂商在这方面都做了什么?

专注深度学习的MapR

还记得Hadoop第一次问世的时候吗?那时候Hadoop还是一个具有诸多优点的平台,但是需要用户具有额外的专业技能才可以使用Hadoop。现在这种情况改变了。Hadoop已经成为一个蓬勃发展的生态系统,它取得成功的很大一部分是因为我们所谓的SQL on Hadoop

Hadoop一直能够以低廉的成本保存和处理大量数据,但此前并非如此,直到它支持通过SQL访问数据,这让Hadoop足以成为企业数据主干的有力竞争者。SQL仍然是访问数据的事实标准,所以支持SQL意味着Hadoop可以被大多数人所使用。

AI和SQL是不同的。它并不具备向后兼容性,以及商业功能。AI是一种具有前瞻性的领域。但即使今天,AI对于使用AI的人来说是一个差异点,但看起来AI似乎很快就会成为一种商品。那些没有使用AI的人将无法参与竞争。

AI和SQL也是类似的:如果你是一家Hadoop厂商,那么这不是你真正的工作。这是其他人要做的——你只需要确保Hadoop可以运行在你的平台上,也就是数据所在的地方。这就是MapR希望通过SQL实现的。

MapR利用开源容器技术(例如Docker),以及编排技术(例如Kubernetes)以分布式的方式部署深度学习工具(例如TensorFlow)。这些技术都与MapR无关,但是QSS带给它的价值是确保所有功能都可以无缝连接。

大数据

MapR QSS所具有的分布式深度学习拥有三层:底层是数据层,中间是编排层,顶层是应用层(图片来源:MapR)

MapR首席应用架构师Ted Dunning解释说:“采用AI/深度学习最好的方式就是部署一个可扩展的融合数据平台,这个平台支持最新的深度学习技术,且拥有一个几乎可以无限扩展的底层企业数据框架。”

他还指出,“几乎所有机器学习软件都是独立于Hadoop和Spark部署的。这要求有一个类似MapR这样的平台,能够支持Hadoop/Spark工作负载,以及传统文件系统API。”

既然这种方法奏效,那么你为什么不使用MapR-DB、MapR Streams以及MapR-FS,还有MapR Persistent Application Client Container (PACC)来部署你的模式?哦,我们也为你准备了服务来帮助你。这就是MapR希望通过QSS传递的信息。

MapR首席产品官Anil Gadre表示:“深度学习可以为企业组织提供深远的转型机会。我们的专业知识加上独特的设计构成了QSS的基础。QSS将可以让企业快速利用现代化基于GPU的架构,为他们扩展深度学习铺平道路。”

AI on Hadoop

那么,这与AI on Hadoop是一回事吗?与SQL不同,AI是没有标准的。甚至现在还没有一个被广泛接受和理解的定义。深度学习只是机器学习的一部分,深度学习又只是AI的一部分。甚至在深度学习中,虽然会有一些共享的理念,但是没有一个常用的API。所以SQQ是DL on Hadoop,并不是真正的AI on Hadoop。

大数据

AI不止是机器学习,机器学习不止是深度学习(图片来源:Nvidia)

使用像Hadoop这样的数据和计算平台作为AI的基础这是很自然的想法。但是能够在Hadoop上运行机器学习或者深度学习并不会让Hadoop厂商变成一家AI厂商。这是我们在过去几个月与许多Hadoop厂商高管沟通得出的结论。

对于Cloudera公司首席执行官Tom Reilly来说,“机器学习是非常真实非常活跃的,在实践中有很好的表现。我们的客户正在努力了解AI,了解这对未来意味着什么。我们正在帮助他们使用机器学习,我们的平台已经支持机器学习,并将继续提供支持。我们的平台是人们对AI是使用的数据的承载平台。”

Cloudera一直被批评在最近的IPO文件中试图把自己定位为一家AI公司。据我们所知,Cloudear并没有在AI方面的广泛内部经验。它有一个数据科学团队,有很多员工,还有最近收购的sense.io。

Sense.io一直被集成到Cloudear的堆栈中,收购后被重新包装成Cloudera Data Science Workbench (CDSW)。在最近与Cloudear数据科学总监Sean Own的交谈中,Owen将sense.io比作IBM的DataWorks。

“通过提供对数据的就绪访问,CDWS缩短了通过我们自动化的机器学习平台交付AI应用价值的时间,”DataRobot公司首席执行官Jeremy Achin指出。这一点很好,但是这并不是真正的AI,对吧?

对于Hortonworks公司首席技术官Scott Gnau表示,AI包含两个关键组成部分:大量数据外加数据包和算法处理数据。Hortonworks支持两者,AI胜利了,Hortonworks也就胜利了。不过,Gnau强调说,他认为Hortonworks的优势在于企业监管和安全性。

Gnau认为,我们还没有看到我们所期待的AI中的新兴技术。所以Hortonworks的方法是投资基础设施,成为值得信赖的数据厂商,同时密切关注新兴的杀手级技术和应用。

每家厂商的方法都必须考虑现在的大背景以及他们的变革方向。AI是一个新的战场,厂商各自的方法与他们的理念和目标相符合,我们将继续关注和分析AI方面的进展。

End.

转载请注明来自36大数据(36dsj.com):36大数据 » 分析:「AI on Hadoop」有意义吗?

36大数据   除非特别注明,本站所有文章均不代表本站观点。报道中出现的商标属于其合法持有人。请遵守理性,宽容,换位思考的原则。

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址