當前位置:大數據業界動態 → 正文

三家 Hadoop 廠商衰落啟示:云大數據是顛覆者嗎?

責任編輯:cres 作者:趙鈺瑩 |來源:企業網D1Net  2019-06-20 14:48:24 本文摘自:InfoQ

今年 5 月底,MapR被曝融資困難,可能在不久之后關閉,這個曾經估值高達 10 億美元的 Hadoop 賽道的有力挑戰者或將就此衰落。隨后,同樣圍繞 Hadoop 進行商業化落地的Cloudera股價在 6 月 6 日(美東時間)開盤后暴跌 43%,這些老牌 Hadoop 供應商的落敗一定程度上被認為與云廠商的崛起有關。然而,Hadoop 生態廠商發展到這一步到底與哪些因素有關?這是否意味著整體生態開始走下坡路?
 
三大 Hadoop 廠商衰落
 
在圍繞Hadoop進行商業化的廠商中,Cloudera、Hortonworks 和 MapR 曾是最為外界所關注的對象,直到 Cloudera 和 Hortonworks宣布進行全股合并時,業界大部分聲音是看好的。Syncsort首席技術官指出,雖然 Hortonworks 的產品專注于物聯網和流數據場景,Cloudera 專注于數據科學、機器學習和人工智能。但在她看來,這可以使合并取得成功,因為合并后的公司將比二者中的任何一個都發展得更快,走得更遠。
 
合并后不久,Cloudera 宣布的收入比分析師預測少了 6900 萬到 8900 萬美元。與此同時,公司首席執行官 Tom Reilly、聯合創始人兼 CSO Mike Olson 雙雙宣布辭職。該公司股價隨即暴跌 40%。
 
至于 MapR,其商業化的主要途徑是提供優于開源 Hadoop 的特性,比如其創始人 M.C.Srivas 在公司創建伊始就將 Hadoop 文件系統 HDFS 進行了重構,兼容 Hadoop 協議的同時保持閉源,一度給外界造成技術實力優于整個 Hadoop 社區的感覺,可惜的是用戶對此并不買賬,導致其融資困難,甚至開始裁員并計劃關閉硅谷總部。
 
對此,一位不愿意透露姓名的云計算領域專家在接受 InfoQ 采訪時表示,開源顛覆了傳統軟件,云計算又顛覆了開源廠商。大數據的市場空間本身存在,但是隨著云計算廠商的接入,確實削弱了傳統大數據廠商的盈利能力。云廠商對傳統大數據廠商沖擊太大,因為總體成本更低,可獲得性更容易,而這三家大數據廠商并沒有提供相比云計算廠商大數據能力的差異化點。
 
當然,這三家圍繞 Hadoop 進行商業化的廠商的衰落并不代表整個 Hadoop 生態的隕落,只能說明這樣的商業化路徑存在問題(不要將廠商和生態混為一談)。 專家指出,過去,開源對傳統軟件是一種顛覆式的影響,在開源尤為活躍的大數據技術領域采用傳統軟件的商業化模式是一種逆勢而為,云計算的興起正在對開源產生巨大影響,正如Clint Sharp 所指出的,“Hadoop 的主要應用場景一直是廉價的存儲。然而,有了云之后,存儲變得更廉價,更何況 S3+EMR 和其他服務的用戶體驗還提高了千倍不止。”
 
云廠商的顛覆姿態
 
在企業逐步云化的過程中,云廠商的顛覆者姿態讓其受到了諸多指責,比如開源殺手等,但這并沒有阻礙企業云化的進程,大數據服務公司也在往云平臺的方向演進,比如 Cloudera 與 Hortonworks 合并被認為是在一定程度上提升云服務的競爭力。但是,本地大數據廠商難以獨立提供云大數據服務所依賴的全部基礎設施資源,一般會集成到各大公有云平臺,比如 MongoDB 提供的 Atlas 就與眾多公有云廠商合作。因此,在各大公有云平臺上,可以看到越來越多本地大數據服務商提供的服務。
 
那么,云廠商的出現為什么會對這一領域造成如此影響呢?專家認為,首先要從大數據的本源談起,大數據的本源是需要處理的數據集遠遠大于單臺物理機能夠存儲和處理的數據量。在這種情況下,出現了兩個技術:一是跨服務器存儲的分布式文件系統HDFS(當然,最早來自于谷歌論文);二是多機器處理的計算框架。這種體系在大數據發展的早、中期起到了非常大的作用,就是把大批量中低等級的硬件系統集成起來以處理海量數據。
 
在實踐過程中,這種架構逐漸出現內在的不均衡。簡單來說,物理機的計算和存儲比例是固定的,但是從應用視角來看,計算和存儲的比例關系往往是動態的,有些公司計算過剩,有些公司存儲過剩,這導致硬件選型成為一個很大的挑戰。同時,對于長久存在的大數據系統來說,新老硬件組成的非均質系統也存在負載均衡等管理上的挑戰。
 
隨著云架構的發展,無論是公有云,還是私有云,特別是公有云,可以實現存儲與計算分離。IaaS 層將計算、存儲、網絡作為資源動態提供給用戶消費,這成為一個最佳實踐,完美消除了計算和存儲的動態均衡問題。從最優化的角度來看,相對于傳統的計算、存儲一體化的大數據系統,云平臺大數據服務無疑存在一些開銷,但是這種形態讓大數據集群建設初期要考慮的計算和存儲匹配,網絡設計等問題都“推遲決策”了,換言之就是不用那么早考慮,在具體業務使用時隨用隨取,這為業務帶來了極大的靈活性。
 
從這個角度看,基于云架構的大數據系統,本質上提供了靈活性,而對數據業務本身而言,靈活性、動態性恰好是根本,那么基于云架構的大數據服務剛好契合了這些特征。大數據云服務的本質優勢是享受更低成本、更快的技術更新。在過往與企業大數據團隊打交道的過程中,專家發現其自建的大數據平臺還在使用兩年以前的開源大數據組件,因為人員的不穩定造成其不敢輕易進行技術升級,或者說沒有能力升級,維護的包袱就會越來越重。
 
綜上,業內專家向 InfoQ 表示,相比于本地大數據服務,云大數據服務靈活的本質是計算和存儲分離,本質優勢是極大得降低了成本,包括環境成本,節省搭建機房,風火水電,網絡,操作系統等的時間;研發成本,節省服務搭建,研究周邊依賴,可靠性部署,安全對接等的時間;人力成本,大數據運維需要非常專業的人才能勝任,企業應該聚焦在業務上而不是大數據平臺的運維上;運行成本,大數據云服務廠家和基礎設施的配合可以做到最優,盡可能減少資源消耗。
 
選用原則
 
在過往與企業用戶打交道的過程中,完全依靠本地大數據服務,選擇部分云供應商的大數據服務,在公有云的基礎設施之上自建大數據服務的用戶皆而有之。
 
就此現狀,InfoQ 采訪了華為云布道師趙軍。他表示,大數據框架中的服務本身對基礎設施并沒有強綁定要求,而當前云端的性能、可靠性、可運維性已經足夠高。就服務本身而言,所有大數據服務都適合在云端運行,企業應該根據業務類型進行區分。如果業務可以上云,則所有都可使用云端大數據服務。
 
在具體選用上,可以結合成本構成分析大數據平臺的使用,包括如下幾方面:
 
風、火、水、電數據中心的成本
 
IaaS 成本
 
大數據軟件棧的成本
 
運維大數據軟件棧的成本
 
使用大數據軟件棧的團隊的成本
 
其中,大數據軟件棧和運維其的成本有些關系,有些用戶完全通過開源軟件實現,但是實際上付出了極大的人力成本。無論如何,不管是自建還是基于公有云,以上成本都是顯性存在的,公有云可以省去一些大數據軟件棧搭建及運維的成本,前兩項成本則是購買公有云服務和自建的區別。此外,自建服務的彈性較小,云平臺可以隨時提供彈性能力。
 
至于云平臺大數據服務的價格高昂與否,其實完全取決于公有云服務的定價。對于那些在 IaaS 層面采用自己設計、生產的 CPU、網絡、存儲等基礎設施的公有云廠商來說,往往對于超大客戶有比較大的讓利能力。
 
對于不同類型的企業,選擇大數據平臺服務時關注的點會差異很大。舉例來說,更關注成本且需要削峰的,建議優先選擇 Serverless 服務;更關注資源隔離和獨享的,建議選擇包周期的資源類型服務;對于已有大數據平臺經驗的企業,則優選通用開源大數據開發平臺類服務;對接口要求簡單通用的,則優選 Serverless 服務。
 
大數據社區的多樣性,導致了選擇的多樣性。具體原因可能很難一概而論,有的公司想總有一天要建立自己的私有云設施,所以僅希望公有云提供 IaaS;有的公司是因為已經在私有云方面具備很長的歷史,團隊、經驗等都是現成的,因此在公有云的 IaaS 上自行搭建大數據服務。但是,對于絕大部分企業來講,使用公有云的大數據服務會更省心,成本更低。
 
趙軍表示,華為云目前提供通用的開源大數據開發平臺,例如MRS(大數據平臺)、DWS(數據倉庫)、CSS(搜索引擎)等,幫助原本使用開源大數據平臺的用戶無縫遷移到華為云大數據平臺;Serverless 的大數據服務,例如DIS(數據接入)、CDM(數據遷移)、CS(實時流處理)、CloudTable(表格存儲)、DLI(數據湖探索) 等,幫助客戶按需使用大數據平臺資源,支持數據采集、接入、存儲、分析等,最低成本幫助客戶解決削峰場景,并且與 AI 很好結合,可以讓用戶更容易使用 AI 技術;數據管理平臺,例如DAYU(數據治理),幫助客戶解決數據治理相關的問題;全棧大數據服務,包括多種專業化單一引擎的大數據服務;總之,主要意圖是希望降低企業獲取大數據服務的門檻,做到按需使用。在接口和應用開發體驗方面完全與社區一致,同時提供按需、彈性、運維等支持,包括論壇等。
 
總體來看,企業如何選擇取決于公有云運營者能否提供充分的遷移支持,讓大數據服務的消費者省心、放心。省心指的是大數據服務與 Hadoop 社區的兼容性,這個兼容性能夠讓遷移的成本最小甚至無感知。放心指的是大數據服務有強大的團隊支持,而不是簡單的把 Hadoop 社區的東西拖來安裝一下售賣。國內的公有云廠商在這方面的差別還是比較大的,有的走自研道路,可能存在社區兼容性跟進慢等情況;有的基本沒有私有云大數據服務,導致自己的大數據服務沒有充分錘煉。
 
短期來看,趙軍表示,企業大數據服務的公有云、混合云和多云模式將共同存在。長期來看,公有云和私有云架構將逐漸趨同,甚至提供一致的體驗,隨著可信規則的建立,公有云可能會慢慢取代私有云,并且是多公有云模式,避免單一廠商鎖定。未來,華為云大數據服務的發展方向是:數據安全可信,在華為云已經獲得國際上主流的 ISO 27001 & 27017 & 27018 & CSA STAR 四個安全復審和認證的基礎上,會在技術上繼續發力,讓用戶進一步認可在公有云上的數據安全;支持 ARM,依托自產硬件,提供極致的成本競爭力;大數據技術更易用,降低使用門檻;與 AI 進行深度結合,讓數據發揮更大的價值,讓 AI 觸手可得;大數據計算自動優化,實現大數據計算的“自動駕駛”。

關鍵字:大數據

本文摘自:InfoQ

三家 Hadoop 廠商衰落啟示:云大數據是顛覆者嗎? 掃一掃
分享本文到朋友圈

關于我們聯系我們版權聲明友情鏈接廣告服務會員服務投稿中心招賢納士

企業網版權所有©2010-2019 京ICP備09108050號-6

^
快乐8开奖