大數(shù)據(jù)與Hadoop正一步步給企業(yè)的數(shù)據(jù)管理架構帶來變化。這是一場以專營公司、企業(yè)級軟件供應商以及云服務廠商為主角的淘金熱潮,每一位參與者都希望能在這片處女地上建立起屬于自己的新帝國。雖然開源Apache Hadoop項目本身已經(jīng)包含各類核心模塊—例如Hadoop Common、Hadoop分布式文件系統(tǒng)(簡稱HDFS)、Hadoop YARN以及Hadoop MapReduce—不過由于缺少來自商業(yè)供應商的技術支持以及打包解決方案,它并不能直接在市場上作為客戶的可選產(chǎn)品。當下各大頂尖商業(yè)發(fā)行版都與Apache Hadoop相兼容,那么它們彼此之間如何保持獨立性?下面我們將跟隨著Forrester的視角,一同探討九大商業(yè)Hadoop發(fā)行版如何走出自己的獨特道路。
1. Amazon Web Services Elastic MapReduce奪得最大市場份額
在大家說起Hadoop時,Amazon也許并不是第一家出現(xiàn)在各位腦海中的方案供應商,不過AWS的Elastic MapReduce(簡稱EMR)則確實是最早投放市場的商業(yè)Hadoop產(chǎn)品之一、同時也在全球市場份額方面占據(jù)領先地位,F(xiàn)orrester首席分析師Mike Gualtieri表示。EMR是一套運作在云環(huán)境下的Hadoop,它利用Amazon EC2作為計算資源、Amazon S3作為存儲資源,同時也容納其它多項服務加以配合。
“AWS的解決方案路線圖當中包括將Amazon EMR與Amazon Kinesis相集成以實現(xiàn)流程處理;進一步加強其與Amazon Redshift數(shù)據(jù)倉庫以及其它數(shù)據(jù)源的集成程度;以策略為指導自動調(diào)整集群規(guī)模;在Hadoop基礎上支持額外的NoSQL數(shù)據(jù)庫;與更多來自第三方供應商的商務智能方案相對接,”Gualtieri寫道。
2.Cloudera以企業(yè)客戶需求為基礎專注于Hadoop創(chuàng)新
AWS也許在市場份額方面遙遙領先,但專營企業(yè)Cloudera卻也緊隨其后;目前這家公司的客戶數(shù)量已經(jīng)超過200家,其中一部分的節(jié)點部署數(shù)量超過一千個、數(shù)據(jù)總量更是達到PB級別。
AWS也許在市場份額方面遙遙領先,但專營企業(yè)Cloudera卻也緊隨其后;目前這家公司的客戶數(shù)量已經(jīng)超過200家,其中一部分的節(jié)點部署數(shù)量超過一千個、數(shù)據(jù)總量更是達到PB級別。
“企業(yè)客戶希望擁有一套Hadoop管理與監(jiān)控工具,為此Cloudera創(chuàng)建了Cloudera Manager,”Gualtieri寫道。“企業(yè)客戶希望獲得一套速度更快的Hadoop SQL引擎,為此Cloudera利用大規(guī)模并行處理(簡稱MPP)架構創(chuàng)建了Impala—企業(yè)級數(shù)據(jù)倉庫使用的也是這套架構。Cloudera的創(chuàng)新思路在于一方面繼續(xù)秉承Hadoop項目核心,同時又通過快速創(chuàng)新與積極迎合客戶需求將自身方案與其它供應商區(qū)別開來。”Cloudera的盈利模式主要源自軟件訂購,不過他們也提供技術支持服務。
3.Hortonworks推動開源Hadoop創(chuàng)新
縱觀各大參與廠商,專營Hadoop業(yè)務的Hortonworks憑借自身Hortonworks數(shù)據(jù)平臺(簡稱HDP)而與Apache Hadoop開源最為貼合,不過它同時也在積極尋求與其它工程技術合作伙伴的深入?yún)f(xié)作,其中包括微軟、Teradata、SAP以及紅帽等等。
“Hortonworks的策略在于通過開源社區(qū)推動創(chuàng)新活動,并與合作伙伴建立生態(tài)系統(tǒng)以加快Hadoop在企業(yè)客戶當中的普及程度,”Gualtieri寫道。“如果開源社區(qū)在某些方面的發(fā)展速度不夠理想,Hortonworks就會以此為基礎建立新項目并利用自身資源幫助其獲得強勁的前進勢頭。”
在這方面,旨在提供Hadoop集群管理控制臺的Apache Ambari項目就是一大典型范例。
4. IBM InfoSphere BigInsights,藍色巨人支持下的企業(yè)拓展項目
IBM并不像一部分競爭對手那樣擁有傲人的Hadoop社區(qū)合作深度,不過他們在分布式計算與數(shù)據(jù)管理領域的卓越成就幫助其拿出了一套相當全面的Hadoop解決方案。IBM目前已經(jīng)完成了一百多項Hadoop部署工作,其中一部分所打理的數(shù)據(jù)規(guī)模更是達到PB級別。
“除此之外,IBM也擁有不少先進分析工具、全球市場份額以及服務實施方案,這使其得以通過一套完整的綜合性大數(shù)據(jù)解決方案吸引眾多企業(yè)客戶,”Gualtieri寫道。“IBM的路線圖包括不斷將BigInsights Hadoop解決方案與相關IBM資產(chǎn)相集成,例如SPSS高級分析、高性能計算工作負載管理、商務智能工具以及數(shù)據(jù)管理與建模工具等。”
5.MapR Technologies為NFS及其它創(chuàng)新成果提供支持
MapR Technologies在本次榜單的專營企業(yè)中位列第三,市場份額排名居于Cloudera與Hortonworks之后。早在剛剛起步的階段,MapR就沒有像其它廠商那樣保守地對Hadoop進行概念驗證、而是在此期間專注于實現(xiàn)各項企業(yè)級功能。
“MapR Technologies為其Hadoop發(fā)行版帶來眾多獨一無二的創(chuàng)新成果,其中包括支持網(wǎng)絡文件系統(tǒng)(簡稱NFS)、在集群中運行二進制代碼、針對HBase實現(xiàn)性能強化以及高可用性與災難恢復功能等等,”Gualitieri寫道。Gualtieri同時指出,目前MapR的競爭對手已經(jīng)開始積極創(chuàng)建與之相似的企業(yè)級功能,因此MapR必須要在市場推廣方面有所動作并建立起屬于自己的合作關系與發(fā)布渠道。
6.Pivotal Software充分發(fā)揮其Greenplum引擎潛能
作為站在EMC與VMware巨人肩膀上的新興企業(yè),Pivotal由前任VMware公司CEO Paul Maritz負責掌舵,同時也擁有EMC強大的技術咨詢與數(shù)據(jù)科學團隊為其提供支持。除了源自EMC的列式數(shù)據(jù)庫Greenplum Database技術,Pivotal的Hadoop發(fā)行版還憑借名為HAWQ的MPP Hadoop SQL引擎實現(xiàn)了類似于MPP的SQL性能表現(xiàn)。
“Pivotal是第一家提供全功能企業(yè)級Hadoop設備的企業(yè)數(shù)據(jù)倉庫供應商;他們也是第一家將自身Hadoop、企業(yè)數(shù)據(jù)倉庫與數(shù)據(jù)管理層整合在同一臺機架當中并作為設備家族推出的廠商,”Gualtieri寫道。“Pivotal的路線圖將使其Hadoop解決方案在競爭優(yōu)勢方面一馬當先;其創(chuàng)新重點集中在改進HAWQ SQL引擎并將其與其它Pivotal產(chǎn)品進一步結合方面。”
7.Teradata利用豐富的專業(yè)知識打造Hadoop設備
Teradata是一家非常專業(yè)的企業(yè)數(shù)據(jù)倉庫設備供應商,該公司在此基礎上與Hortonworks建立起堅實的技術合作關系、將Hadoop以設備形式投放市場。
“Teradata的Hadoop發(fā)行版當中包括了與Teradata管理工具與SQL-H的集成機制、利用聯(lián)合SQL引擎幫助客戶從其數(shù)據(jù)倉庫與Hadoop當中查詢數(shù)據(jù),”Gualtieri寫道。“方案還利用Aster對Hadoop進行分析。”
Teradata的Hadoop設備目前只擁有不到一百家客戶,不過Gualtieri指出其雄厚的資金實力加之豐富的技術與管理資源足以創(chuàng)建出一套獨特的高性能設備,在這方面其它供應商很難與之進行正面對抗。
8.英特爾為Hadoop帶來以硬件為基礎的性能與安全性增強方案
在Hadoop發(fā)行版領域,英特爾的參與時間相對較晚,但這并不妨礙其利用其至強芯片的強大性能成為此間的一位有力競爭者。
“英特爾是第一家以硬件為基礎向Hadoop交付性能與安全性強化機制的供應商,”Gualtieri寫道。“英特爾未來幾年的路線圖將進一步與Hadoop解決方案市場上的其它參與者建立緊密的合作關系。除此之外,英特爾還將繼續(xù)專注于利用硬件強化性能與安全性表現(xiàn)、本地任務優(yōu)化、Lustre與圖形分析,這一切都將推動其發(fā)行版在贏得廣泛關注與贊賞。”
9.微軟Windows Azure HDInsight,在云與Windows之力下茁壯成長
作為Hortonworks工程技術合作項目中的組成部分,微軟Windows Azure HDInsight Service的設計思路緊緊圍繞著Windows Azure云而展開。HDInsight and Hadoop for Windows(屬于Hortonworks數(shù)據(jù)平臺的一個分支版本)也是目前惟一一套運行在Windows環(huán)境下的Hadoop發(fā)行版。
“微軟還提供Polybase以幫助SQL Server客戶對保存在Hadoop當中的數(shù)據(jù)進行查詢,”Gualtieri寫道。“微軟也在其它開源社區(qū)Hadoop項目當中作出了積極貢獻,其中就包括下一代Hive。微軟通過一系列Hadoop堆棧拓展舉措為其客戶在數(shù)據(jù)庫、數(shù)據(jù)倉庫、云、OLAP、商務智能、電子表格(PowerPivot)、雷德以及開發(fā)工具方面帶來顯著的改進效果。”