- 第5節 阿里云ODPS1:降低應用門檻,人人都可以成為BAT
-
2014年7月8日,阿里云ODPS團隊在一封題為“人人都可以成為BAT(百度、阿里巴巴、騰訊)”的公開信里宣布:阿里云計算最重要的一款產品—ODPS,正式開放商用。以下是公開信全文:
阿里云計算最重要的一款產品—ODPS,正式開放商用。從今天起,花個幾百塊錢,人人都能來玩大數據。
簡單來說,ODPS(Open Data Processing Service)是一項Web服務,大家不用花大錢建數據中心,就能分析海量數據。我們測過,100PB的數據任務可在6小時內跑完。這個數據量相當于1億部高清電影。
工業革命后的200多年里,人類對物理資源的利用登峰造極。第一次信息革命過去70年了,我們對數據資源的利用卻只是剛開了頭。Google、Facebook、阿里巴巴等先行一步,摸到了大數據的冰山一角。然而,人類擁有的大部分數據,還無法產生價值。
如何讓數據產生價值?先得擁有大規模處理能力,然后才是挖掘、算法和分析。傳統的做法是這樣的:租個機房,買一堆昂貴的設備搭建數據倉庫,再請一幫技術人員來維護運轉。一旦觸發bug,或者當數據總量超過100TB時,你的工程師們可能會被這些麻煩搞崩潰。
Hadoop開源系統很偉大,大大降低了成本。阿里是中國玩Hadoop玩得最好的幾家公司之一,Hadoop支撐了淘寶、支付寶早期業務的快速發展。不過,自建
1 ODPS,開放數據處理服務(Open Data Processing Service)是“飛天”平臺上的大規模分布式數據處理服務,它以RESTfulAPI 的形式支持基于描述性查詢語言SQL 的數據處理,并提供MapReduce的并行計算框架。一個像樣的Hadoop集群,得百萬元起步資金,專業的Hadoop人才更是稀缺。門檻還是太高。
有沒有更好的方案?從2009年年初,寫下“飛天”第一行代碼時,我們就堅信這一方案存在。我們用了5年時間,寫下250萬行代碼,終于在自主研發的“飛天”平臺上成功搭建ODPS。我們把數據海洋里的“水”灌進ODPS,設定好一套參數,擰開“水龍頭”,出來的就是“鮮榨果汁”!
100年前,福特推出了全球第一條流水生產線。一個個零部件扔進流水線,90分鐘后,一輛嶄新的汽車擺在面前。不知道福特工程師們當時是怎樣的心情。當我們擰開ODPS的“水龍頭”時,感受大抵如此。這個比喻還不完全恰當,福特生產線只為福特服務,一條生產線也只能生產一種車型。而ODPS任何人都可以來用,“水龍頭”里流出來的“果汁”,隨著原始數據和算法的改變可以千變萬化。
我們來看看ODPS都可以榨哪些“果汁”吧。
ODPS之前一直在阿里內部試用。第一只“小白鼠”是阿里小貸。你見過敢貸1塊錢給你的銀行嗎?如今,超過36萬人從阿里小貸借款,最小貸款額1塊錢,并實現3分鐘申請、1秒放款、0人工干預。要做到這一點,阿里小貸每天得處理30PB數據,包括店鋪等級、收藏、評價等800億個信息項,運算100多個數據模型,甚至還得測評小企業主對假設情景的掩飾和撒謊程度。另外,阿里小貸每筆貸款成本3毛錢。什么?你問普通銀行的貸款成本?先乘個1000再說。
華大基因,是2003年國內抗SARS研究的主力軍。去年,我們邀請華大在ODPS上試了下基因測序,耗時不到傳統方式的十分之一。2010年,歐洲E.coli污染危機,測序和組裝耗時兩天以上。如果用ODPS,只要幾小時甚至幾十分鐘。一旦未來真有生物危機爆發,人類可以贏得寶貴的破譯時間。
這么高精尖的領域你可能覺得太遙遠。說說當前最火的世界杯吧。Google拿英國體育數據提供商Opta Sports的數據,在BigQuery上跑了跑,成功預測了本屆世界杯8強名單。ODPS是一款跟Google BigQuery類似的產品,如果哪位有數據,也可以來算一算接下來的比賽。
公共領域的數據挖掘,可以用ODPS嗎?當然!結合中國氣象局的精準預報數據,高德地圖不久后就能告訴你:“前方道路已嚴重積水,您的車輛駛入可能會遭水淹,建議繞道行駛!比缃,每盒藥品上都有一張電子身份證,從生產、流通、儲存、配送、銷售到使用,全過程的數據都跑在ODPS上。一旦發現問題藥品,監管部門可以立即采取措施。我們期待未來每一桶油、每一道菜的數據都跑在ODPS上,食品安全問題需要通過創新的方式來解決。
生產電飯煲的工廠,應該跟ODPS沒什么關系吧?別說,未來還真可能有關系。手機、電視、手表、汽車、空調……這些工業時代的經典產品,現在都變成了互聯網終端。誰說電飯煲、鞋子、衣服不會呢?如果未來的制造工廠都變成互聯網公司,數據將成為最基本的生產要素。你即使不懂算法、不會建模、不會分析,也沒有關系,那些有數據分析能力的公司會幫你做。
眼下,阿里巴巴的各項數據業務都在用ODPS“榨果汁”,比如,淘寶在算你最中意哪個淘女郎,天貓在算你什么時候想吃車厘子,菜鳥在算卡車走哪條路可能會被雷劈,支付寶在算你何時會從屌絲變成高富帥。如果大家也想“榨果汁”,歡迎來試。ODPS的“水龍頭”就裝在阿里云官網aliyun.com上,一個月內免費。
The World Is Flat. 從某種意義上而言,人人都可以成為BAT,哪怕你的公司只有幾號人。我們希望,在技術這件事情上,大家變得更加平等!
阿里云ODPS團隊
2014年7月8日
ODPS是基于阿里巴巴自主知識產權的云計算平臺構建的數據存儲與分析系統,以云計算服務的方式實現海量數據的存儲、分享與離線處理,通過控制集權來控制包括幾千臺服務器大集群的管理而實現規模擴展,是大規模分布式計算平臺“飛天”的核心組成部分。
云計算與大數據之間的關系,就如同一枚硬幣的正反兩面一樣,二者之間的結合能夠為用戶提供云服務,使傳統的硬件與軟件相結合的IT模式發生翻天覆地的變化。
2014年1月,阿里云ODPS開始公測;2014年3月開始的阿里巴巴大數據競賽中,阿里首次將ODPS和阿里的天池平臺開放給參賽的大學生;2014年7月,阿里云ODSP正式開放商用。阿里云將ODPS從內部使用的工具變成面向社會開放的大數據平臺,降低了大數據在資金、人才和應用方面的門檻。此舉如同其在公開信中所說的一樣:“在技術這件事情上,大家變得更加平等!”
◆大數據平臺即開即用
阿里云ODPS如同流水線一般,使得人們對IT資源的取用更加自由,能夠得到想要的各類數據分析結果。而且,這條流水線除使用方便外,速度也相當驚人,它能夠在6小時內處理100PB數據。如果你覺得這種描述過于抽象的話,我們可以進行一下換算:100PB 大約相當于1億部高清電影。目前,在全球范圍內能夠掌握這種技術的公司屈指可數。
過去,如果一個公司需要進行大數據方面的處理,不僅需要花費大量資金建立數據中心,還需要聘請專業的技術人員,即便如此,這種方式能夠處理的數據總量也是有界限的。而Apache基金會開發的Hadoop,雖然更加可靠、高效、可伸縮,但是建立一個Hadoop集群仍然離不開高昂的花費和專業的技術人員。
阿里云ODPS,不僅讓企業和個人能夠以更低的成本使用大數據平臺和工具,還大大降低了大數據的應用門檻。目前,阿里云ODPS采用按使用量收費的模式,0.3元1GB,即開即用,一個月內免費。也就是說,一般用戶平均每月只需花費數百元就可以享受到阿里云ODPS服務。
阿里云ODPS在對外商用之前,是阿里集團自用的一個大數據平臺,其第一只“小白鼠”是阿里小貸。在ODPS平臺的協助下,目前阿里小貸已經為超過36萬的人提供了借款,最小貸款額1塊錢,并能夠實現3分鐘申請、1秒放款、0人工干預。
而在這個過程中,ODPS每天需要處理30PB數據,包括店鋪等級、收藏、評價等800億個信息項,涉及100多個數據模型的運算,甚至還得測評小企業主對假設情景的掩飾和撒謊程度……
在阿里小貸試用成功后,淘寶、支付寶等阿里巴巴最核心的數據業務也紛紛開始嘗試ODPS。現在,阿里云ODPS已經更加成熟和完善,除阿里集團外,華大基因以及一些公共領域也已經在ODPS平臺上進行測試。未來,也許電飯煲等制造企業都需要ODPS的一臂之力了。
◆“云”與大數據相輔相成
為了尋找數據處理和應用的更佳解決方案,2009年年初開始,阿里云ODPS的團隊便開始了探索。阿里的工程師們經過5年的磨合,貢獻了250萬行代碼后,終于在自主研發的“飛天”平臺上成功搭建了ODPS!帮w天”是阿里云計算2009年研發的一款分布式系統軟件,ODSP開始作為“飛天”平臺的一個重要組成模塊,開始主要被用于阿里集團內部的海量結構化數據的處理和分析。
隨著技術不斷成熟和發展,目前,阿里云ODPS的優勢已經愈來愈明顯:
(1)高速海量運算唾手可得
以往的數據處理,盡管需耗費大量的資金和人才成本,但在數據的處理過程中,當數據持續增加時,依然會不可避免地需要面對存儲規模、計算延遲等方面的問題。而阿里云ODPS可以根據用戶輸入的數據自動擴展集群的存儲和計算能力,使數據的處理和分析更為順暢,讓數據的價值得到最大限度的發揮。
(2)ODPS服務即開即用
與以往的數據處理服務相比,阿里云ODPS的門檻更低,需要的資金和技術成本也更低,用戶使用ODPS時,不用額外擔心集群配置等問題,通過比較簡單的操作,便能夠得到數據的處理和分析結果。
(3)數據存儲安全有保障
為了保證用戶數據的安全性,阿里云ODPS采用了三重備份、讀寫請求鑒權、應用沙箱、系統沙箱等不同層次的數據存儲和訪問安全機制,最大限度地保證了用戶的數據不會丟失、泄露或被他人竊取。
(4)實現多用戶協作
為了便于同一企業的多名數據分析師協同工作,阿里云ODPS設置了不同的數據訪問策略。在其訪問策略中,每位用戶只能根據個人被授予的權限訪問數據,在保證效率的前提下盡可能地保障數據的安全。
(5)按使用量付費
阿里云ODPS采用按使用量收費的模式,比以往的數據處理服務,更能夠有效地降低數據使用成本。
◆ODSP需要一個生態系統
雖然我們已經進入了大數據時代,但國內的大數據服務還非常欠缺。然而,不管是企業還是個人,都有數據處理的需要,所以,大數據公共服務是大數據發展歷程中的一個里程碑。目前,阿里云在北京、杭州、青島、香港等多地都擁有數據中心節點,能夠為阿里的大數據公共服務提供有力支撐。
阿里云ODPS雖然盡可能地降低了傳統大數據處理的資金和人才門檻,但是ODPS并不是每個人都可以使用的。一方面,用戶需要對數據具有一定的敏感度,具備基本的數據處理和分析能力,并具備業務洞察力;另一方面,ODPS是一個計算平臺,需要一定的使用成本,而且需要不同的合作伙伴進來提供不同的工具,將其效果慢慢疊加。所以,把大數據變得“可用”和“平民化”是阿里云ODPS眼下迫切需要解決的問題。
目前,阿里云ODPS不僅為阿里集團的大部分數據業務提供服務,而且投入商用后,還為第三方軟件服務商和品牌商提供大數據計算、挖掘、存儲等云環境開發服務。但是,要建設一個具有一定規模的生態體系,啟動整個大數據生態圈還要花費一段時間,需要吸引更多的合作伙伴。
由于阿里云ODPS的定位是云計算基礎數據服務提供商,其擁有的是平臺服務和大數據計算服務,而不擁有數據,所以,建立一個由數據生產者、消費者、加工者和服務應用供應商組成的整個生態系統,或許才是阿里云長期以來的終極戰略目標。
與傳統的IT廠商相比,阿里云打造大數據生態圈的優勢主要體現在以下幾個方面:
(1)傳統廠商提供的是虛擬化加SAAS的服務,阿里云單純提供服務,而且其服務是彈性的、擴容的、價格更低。世界范圍內,能夠提供這樣服務的只有亞馬遜、阿里巴巴和谷歌。
(2)在互聯網技術革命的推動下,如今互聯網的架構和軟件搭建的方式更加高效、實用,阿里云具有明顯的時代背景優勢。
(3)雖然阿里巴巴的硬件并不如IDC的運營商和電信運營商那樣強大,但是阿里巴巴提高了技術門檻,將上千乃至上萬臺機器協同聯結在了一起。
◆有沒有免費的可能?
雖然阿里云ODPS已經大大降低了數據處理的成本,但如同殺毒軟件發展到一定階段后開啟了免費的大門一樣,人們對云計算也有同樣的期待。
事實上,從2013年開始,云計算服務已經開始了固定的降價。這主要是因為隨著市場的發展,具有了規模效應后,硬件的成本便降低了,而軟件變得更為高效。
阿里巴巴方面,阿里云ODPS為新用戶提供了一定免費的額度,但目前并不能做到整體免費,因為其服務的提供會涉及上百萬臺或者幾百萬臺的機器,所以并不具有免費的條件。但是,從垂直方向來看,如果通過其他服務來收費的話,云計算可以作為增值服務免費送給客戶。
大數據時代的到來,使阿里云ODPS應運而生。雖然最初在技術的突破方面遭遇了重重難關,但ODPS最終還是成功地投入了商用,這不僅是阿里集團的重要戰略部署,更對整個大數據時代具有里程碑式的意義。
不過,接下來,阿里云ODPS面對的挑戰也依然不少。首當其沖的便是對非結構數據的支持。ODPS更擅長處理結構化數據或半結構化數據,不能處理非結構化數據,但目前需要處理的數據主要是交易數據和用戶行為數據,大多數都是結構化、半結構化的數據,所以ODPS需要在非結構化數據的處理方面做更深層次的探索。另外,ODPS雖然已經可以把各個不同的計算模型放到“飛天”平臺上,但具體到實踐當中,還有很多的問題需要思考和解決。
- 最新書評 查看所有書評
-
- 發表書評 查看所有書評
-