阿里雲中的ML伺服器是什麼
『壹』 對於谷歌雲而言,中國市場不重要嗎
對於谷歌雲而言,中國市場不重要嗎
我國此前也曾發布《國務院關於促進雲計算創新發展培育信息產業新業態的意見》以及《雲計算綜合標准化體系建設指南》,將雲計算提升到了國家戰略的高度。
亞馬遜AWS、微軟Azure等雲服務巨頭顯然已經看到中國市場未來在雲計算上的巨大機遇,截止目前,AWS在華兩個區域布局有數據中心,共4個可用區,據不完全估計年營收或已達到15億元人民幣,摺合約2億美元,該數字僅次於阿里雲、騰訊雲。微軟Azure在中國已有3個數據中心,雖在營收上沒有給出確切數據,但通過與世紀互聯的合作,微軟Azure在中國已有11萬企業客戶,1 400多個雲合作夥伴,入華成效顯著。
競爭對手對中國雲計算市場不斷拋出的橄欖枝,置若罔聞、視若無睹都不會成為谷歌雲的最佳選擇。谷歌在雲計算上的「淡定表現」是一種假象還是在谷歌的整體戰略中,雲計算只是個「配角」?
谷歌的雲計算是個配角嗎?
如果要論雲計算在谷歌發展戰略中的地位,我們可能需要從谷歌的企業文化說起。20年前,拉里·佩奇和謝爾蓋·布林在加利福尼亞的山景城創辦了谷歌,兩位創始人雖然性格迥異,但在如何管理公司或谷歌未來應該朝著哪個方向發展上卻有著驚人的共識:崇尚技術,這讓谷歌有了很深的工程師文化;崇尚創新,又使谷歌的「登月」文化傳承至今;夢想改變世界的大情懷,又讓谷歌的各項業務不因短時的利益而改變航向。
因此,兩位所向披靡的谷歌創始人帶領谷歌涉足了一切他們可以涉足的領域,只要有創新、只要他們認為對未來有益,谷歌就會去做,這就有了我們看到的谷歌無人駕駛汽車、谷歌眼鏡,甚至是谷歌收購的Youtobe等等。於是,當我們將谷歌的雲計算業務放在谷歌整個產品生態中去的時候,谷歌雲就稍顯渺小。
谷歌旗下的產品分為三大類,針對消費者的「人人適用」類,針對企業客戶的「企業適用」類,針對開發者的「開發者適用」類,看起來產品圖譜很簡單,但如果把每類下的產品數量相加,谷歌的總產品數量則有110種之多。然而,谷歌的雲計算業務沒有被單獨歸為一類,外界通常籠統地將谷歌雲端平台、谷歌G Suite等統稱為谷歌雲業務,在谷歌一年一度的財報中,也鮮有提及「谷歌雲」,而是把它歸到了「其他收入」行列。
值得考慮的是,谷歌母公司Alphabet2017年度營收超1000億美元,谷歌雲的營收只佔到了4%(實際佔比可能比這個更少),谷歌公司的營收大王——廣告業務,其2017年營收佔到了谷歌總營收約90%。對比AWS已被亞馬遜宣稱成為營收主力,谷歌雲的地位確實有不小落差。一言以蔽之,有了廣告業務這個收入引擎,谷歌董事會們並沒有指望雲計算能給他們賺多少錢。
如果用「雲計算不重要」來形容谷歌雲的戰略地位又不太恰當。因為2015年穀歌CEO桑達爾·皮查伊(Sundar Pichai)請來了重量級人物,企業計算巨頭VMware(現已被戴爾科技集團收購)創始人黛安·格林(Diane Greene)加入谷歌,擔任谷歌雲CEO(Google Cloud CEO)。在隨後的2016年穀歌消費者大會上,黛安·格林宣布正式啟用Google Cloud 谷歌雲,谷歌雲的征途由此開始。
在戴安·格林的帶領下,谷歌雲產品目前已覆蓋計算、存儲和資料庫、網路、大數據、物聯網、機器學習、身份驗證與安全、管理工具、開發者工具等九大方面。今年2月,谷歌首次就雲計算部門的營收進行了宣布,戴安·格林表示2017年穀歌雲的季度營收已經達到10億美元,按此推算谷歌雲年營收最高達到40億美元,位於國際巨頭亞馬遜AWS 2017年度營收175億美元之後,卻排在中國體量最大的雲服務商阿里雲2017年度營收17.85億美元之前。
此前,戴爾·格林還在演講中透露,拉里·佩奇等谷歌董事會高層都為谷歌雲2017年取得的成就感到興奮,並正在籌備雲計算相關企業的收購事宜。如此看來,谷歌對雲計算的態度大致明了:不打算靠雲計算賺錢,但可能在謀劃繼續往裡面砸錢,不急不躁,小步慢跑。
2016年11月,世界人工智慧頂級專家李飛飛加入谷歌,擔任谷歌雲人工智慧機與器學習首席科學家(Chief Scientist, Cloud AI & ML),這里谷歌將「Cloud(雲計算)」、「AI(人工智慧)」、「ML(機器學習)」融合成了一個詞,簡稱為「Cloud AI & ML」。可以看出,這位深耕人工智慧、機器領域的科學家將會於「谷歌雲」有著千絲萬縷的聯系。
(重組後的Alphabet組織架構圖,僅供參考)
2015年穀歌母公司Alphabet啟動企業結構重組,2017年完成重組後,「Cloud」作為一個單獨的部門位列其中。AI或ML沒有單獨成立部門,原因或許在於Alphabet的各個子公司中,無論是神秘的谷歌X實驗室、人工智慧Deepmind,還是無人駕駛汽車項目Waymo都離不開AI&ML,也就是說對於谷歌各項子業務,AI&ML都作為底層支撐,無需單獨成立部門。
對於谷歌雲也是如此。李飛飛這位以研究AI&ML擅長的首席科學家被冠以「Cloud AI & ML」的頭銜,她工作關鍵將是把AI&ML深度融進雲計算。
李飛飛也這么做了,她的第一站就是中國。
2017年12月,在上海舉行的谷歌開發者大會上,李飛飛宣布「谷歌AI中國中心」正式成立,那天她身著一件中國紅風格的旗袍短袖侃侃而談。李飛飛是谷歌雲官網掛出的十位高管中唯一一位華人面孔,這個身份或許與谷歌選定其為Cloud AI & ML首席科學家不無關系。
在2018年3月,谷歌 Cloud Next 17上,李飛飛發布了谷歌雲面向機器學習和人工智慧的一系列新API 以及收購機器學習競賽平台Kaggle。
之後谷歌雲可能還會藉助「谷歌AI中國中心」進一步壯大其在中國的雲計算業務,這一天希望不會等太久。
谷歌這次會妥協嗎?
2010年,谷歌搜索業務退出中國的事件,現在想想仍然心有餘悸。關於谷歌退出中國的原因外界說法很多,一種聲音認為,谷歌單方面確認其遭受來自中國黑客的網路攻擊;另一聲音,谷歌在與中國本土搜索引擎網路爭搶份額的過程中敗下陣來,倉皇逃脫;還有一種聲音則是因為,谷歌無法接受中國政府提出的「內容審查」要求;另外,也有人指出,是李開復的離職,讓谷歌缺乏一個中國區領導者,致使其無法本土化。
總之,谷歌最後選擇了不妥協。
然而這次,谷歌雲將經受的來自中國政府的考驗相對更加嚴峻,因為涉及到了中國用戶的數據問題。中國《網路安全法》對數據主權做了規定,即數據要採取本地化存儲,對於本國或者外國公司在採集和存儲與個人信息和關鍵數據相關數據時,必須使用主權國家境內的伺服器。
無論是亞馬遜AWS還是微軟Azure、蘋果icloud等跨國公司巨頭都已經選擇順應中國政府的要求,與中國本地公司合作,基礎設施交由中國公司運營,蘋果icloud甚至將鑰匙串一並遷移回中國。谷歌雲會跟它的競爭對手們一樣選擇妥協嗎?谷歌雲的華人領導者李飛飛能否帶領谷歌雲歸航?
谷歌創始人拉里佩奇曾表示:「企業只以盈利為目的,而不為改變世界做出貢獻,就不能成為另人滿意的企業」。在谷歌的整個生態中,「現在」與「未來」是兩個明顯的分界線。谷歌的營收大王廣告業務是「現在」,而「未來」則是人工智慧、無人駕駛等一切可以讓人類變得更好的技術,當下,谷歌將「雲計算」也劃分到了「未來」里。
「非盈利」的想法可能不會使谷歌雲選擇快速攻入中國市場,它的步伐用「培育雲計算「可能比用「佔領市場」更為貼切。
『貳』 究竟什麼是機器學習 深度學習和人工智慧
目前,業界有一種錯誤的較為普遍的意識,即「深度學習最終可能會淘汰掉其他所有機器學習演算法」。這種意識的產生主要是因為,當下深度學習在計算機視覺、自然語言處理領域的應用遠超過傳統的機器學習方法,並且媒體對深度學習進行了大肆誇大的報道。
深度學習,作為目前最熱的機器學習方法,但並不意味著是機器學習的終點。起碼目前存在以下問題:
1. 深度學習模型需要大量的訓練數據,才能展現出神奇的效果,但現實生活中往往會遇到小樣本問題,此時深度學習方法無法入手,傳統的機器學習方法就可以處理;
2. 有些領域,採用傳統的簡單的機器學習方法,可以很好地解決了,沒必要非得用復雜的深度學習方法;
3. 深度學習的思想,來源於人腦的啟發,但絕不是人腦的模擬,舉個例子,給一個三四歲的小孩看一輛自行車之後,再見到哪怕外觀完全不同的自行車,小孩也十有八九能做出那是一輛自行車的判斷,也就是說,人類的學習過程往往不需要大規模的訓練數據,而現在的深度學習方法顯然不是對人腦的模擬。
深度學習大佬 Yoshua Bengio 在 Quora 上回答一個類似的問題時,有一段話講得特別好,這里引用一下,以回答上述問題:
Science is NOT a battle, it is a collaboration. We all build on each other's ideas. Science is an act of love, not war. Love for the beauty in the world that surrounds us and love to share and build something together. That makes science a highly satisfying activity, emotionally speaking!
這段話的大致意思是,科學不是戰爭而是合作,任何學科的發展從來都不是一條路走到黑,而是同行之間互相學習、互相借鑒、博採眾長、相得益彰,站在巨人的肩膀上不斷前行。機器學習的研究也是一樣,你死我活那是邪教,開放包容才是正道。
結合機器學習2000年以來的發展,再來看Bengio的這段話,深有感觸。進入21世紀,縱觀機器學習發展歷程,研究熱點可以簡單總結為2000-2006年的流形學習、2006年-2011年的稀疏學習、2012年至今的深度學習。未來哪種機器學習演算法會成為熱點呢?深度學習三大巨頭之一吳恩達曾表示,「在繼深度學習之後,遷移學習將引領下一波機器學習技術」。但最終機器學習的下一個熱點是什麼,誰又能說得准呢。
編輯於 2017-12-27
29918 條評論
分享
收藏感謝收起
阿里雲雲棲社區
用戶標識1
已認證的官方帳號
39 人贊同了該回答
人工智慧並不是一個新的術語,它已經有幾十年的歷史了,大約從80年代初開始,計算機科學家們開始設計可以學習和模仿人類行為的演算法。
在演算法方面,最重要的演算法是神經網路,由於過擬合而不是很成功(模型太強大,但數據不足)。盡管如此,在一些更具體的任務中,使用數據來適應功能的想法已經取得了顯著的成功,並且這也構成了當今機器學習的基礎。
在模仿方面,人工智慧專注於圖像識別,語音識別和自然語言處理。人工智慧專家們花費了大量的時間來創建諸如邊緣檢測,顏色配置文件,N-gram,語法樹等。不過,這些進步還不足以達到我們的需求。
傳統的機器學習:
機器學習(ML)技術在預測中發揮了重要的作用,ML經歷了多代的發展,形成了具有豐富的模型結構,例如:
1.線性回歸。
2.邏輯回歸。
3.決策樹。
4.支持向量機。
5.貝葉斯模型。
6.正則化模型。
7.模型集成(ensemble)。
8.神經網路。
這些預測模型中的每一個都基於特定的演算法結構,參數都是可調的。訓練預測模型涉及以下步驟:
1. 選擇一個模型結構(例如邏輯回歸,隨機森林等)。
2. 用訓練數據(輸入和輸出)輸入模型。
3. 學習演算法將輸出最優模型(即具有使訓練錯誤最小化的特定參數的模型)。
每種模式都有自己的特點,在一些任務中表現不錯,但在其他方面表現不佳。但總的來說,我們可以把它們分成低功耗(簡單)模型和高功耗(復雜)模型。選擇不同的模型是一個非常棘手的問題。
由於以下原因,使用低功率/簡單模型是優於使用高功率/復雜模型:
在我們擁有強大的處理能力之前,訓練高功率模型將需要很長的時間。
在我們擁有大量數據之前,訓練高功率模型會導致過度擬合問題(因為高功率模型具有豐富的參數並且可以適應廣泛的數據形狀,所以我們最終可能訓練一個適合於特定到當前的訓練數據,而不是推廣到足以對未來的數據做好預測)。
然而,選擇一個低功率的模型會遇到所謂的「欠擬合」的問題,模型結構太簡單,如果它復雜,就無法適應訓練數據。(想像一下,基礎數據有一個二次方關系:y = 5 * x ^ 2;你無法適應線性回歸:y = a * x + b,不管我們選擇什麼樣的a和b。
為了緩解「不適合的問題」,數據科學家通常會運用他們的「領域知識」來提出「輸入特徵」,這與輸出關系更為直接。(例如,返回二次關系y = 5 * square(x),如果創建了一個特徵z = x ^ 2,則可以擬合線性回歸:y = a * z + b,通過選擇a = 5和b = 0)。
機器學習的主要障礙是特徵工程這個步驟,這需要領域專家在進入訓練過程之前就要找到非常重要的特徵。特徵工程步驟是要靠手動完成的,而且需要大量領域專業知識,因此它成為當今大多數機器學習任務的主要瓶頸。
換句話說,如果我們沒有足夠的處理能力和足夠的數據,那麼我們必須使用低功耗/更簡單的模型,這就需要我們花費大量的時間和精力來創建合適的輸入特徵。這是大多數數據科學家今天花時間去做的地方。
神經網路的回歸:
在大數據時代,雲計算和大規模並行處理基礎架構的共同發展,使得機器處理能力在二十一世紀初得到了極大的提升。我們不再局限於低功耗/簡單的模型。例如,當今最流行的兩種主流機器學習模型是隨機森林和梯度提升樹。盡管如此,兩者都非常強大,並且提供了非線性模型擬合的訓練數據,但數據科學家仍然需要仔細地創建特徵以獲得良好的性能。
與此同時,計算機科學家重新使用神經網路的許多層來完成這些人類模仿的任務。這給DNN(深度神經網路)帶來了新的生機,並在圖像分類和語音識別任務方面提供了重大突破。DNN的主要區別在於,你可以將原始信號(例如RGB像素值)直接輸入DNN,而不需要創建任何域特定的輸入功能。通過多層神經元(這就是為什麼它被稱為「深度」神經網路),DNN可以「自動」通過每一層產生適當的特徵,最後提供一個非常好的預測。這極大地消除了尋找「特徵工程」的麻煩,這是數據科學家們最喜歡看到的。
DNN也演變成許多不同的網路拓撲結構,所以有CNN(卷積神經網路),RNN(遞歸神經網路),LSTM(長期短期記憶),GAN(生成敵對網路),轉移學習,注意模型(attention model)所有的這些被統稱為深度學習(Deep Learning),它正在引起整個機器學習界的關注。
強化學習:
另一個關鍵組成部分是關於如何模仿一個人(或動物)的學習,設想感知/行為/獎勵循環的非常自然的動物行為。一個人或者一個動物首先會通過感知他或者她所處的狀態來了解環境。在此基礎上,他或者她會選擇一個「動作」,將他或者她帶到另一個「狀態」。那麼他或她將獲得「獎勵」,循環重復,直到他或她消失。這種學習方式(稱為強化學習)與傳統監督機器學習的曲線擬合方法有很大不同。尤其是,強化學習學習得非常快,因為每一個新的反饋(例如執行一個行動並獲得獎勵)都被立即發送到影響隨後的決定。
強化學習也提供了預測和優化的平滑整合,因為它在採取不同的行動時保持當前狀態的信念和可能的轉換概率,然後做出決定哪些行動可以導致最佳結果。
深度學習+強化學習= AI
與經典的ML技術相比,DL提供了一個更強大的預測模型,通常可以產生良好的預測結果。與經典優化模型相比,強化學習提供了更快的學習機制,並且更適應環境的變化。
機器學習 vs 深度學習
在深度探討machine learning和data science的聯系之前,這里簡要地討論一下machine learning 和deep learning。machine learning是一套演算法,來訓練數據集做預測或者採取行動以使得系統最優化。舉例來說,supervised classification algorithms被用來根據歷史數據將想要貸款的客戶分成預期好的和預期差的(good or bad prospects)。對於給定的任務(比如監督聚類),需要的技術多種多樣:naive Bayes、SVM、neural nets、ensembles、association rules、decision trees、logistic regression,或者是很多技術的組合。所有這些都是數據科學的子集。當這些演算法自動化後,比如無人駕駛飛機或者無人駕駛汽車,這就叫AI了,或者說的具體一點,deep learning。如果採集的數據來自感測器並且通過互聯網傳播,那麼這就是機器學習或數據科學或深度學習應用於物聯網了。
有些人對深度學習有不同的定義,他們認為深度學習是更深層次的神經網路(一種機器學習的技術)。AI(Artificial Intelligence)是創建於20世紀60年代的計算機科學的一個子領域,是關於解決那些對人類來講非常容易但是對計算機而言很難的任務。值得一提的是,所謂的strong AI可能可以做所有人類可以做的事情(可能除了純粹的物理問題)。這是相當廣泛的,包括各種各樣的事情,比如做計劃,在世界上到處溜達,識別物體和聲音,說話,翻譯,社交或者商業交易,還有創造性工作(比如寫詩畫畫)等等。
NLP(Natural language processing)只是AI要處理的語言部分,尤其是寫。
Machine learning是這樣的一種情況:給出一些可以被以離散形式描述的AI問題(比如從一系列動作中選出對的那個),然後給定一堆外部世界的信息,在不需要程序員手動寫程序的情況下選出那個「正確的」行為。通常情況需要藉助外界的一些過程來判斷這個動作對不對。在數學上,這就是函數:你給一些輸入,然後你想要他處理一下得到正確的輸出,所以整個問題就簡化為用一些自動的方式建立這種數學函數模型。和AI區分一下:如果我寫了一段特別機智的程序有著人類的行為,那這就可以是AI,但是除非它的參量都是自動從數據中學會的,否則就不是機器學習。
Deep learning是當下非常流行的機器學習的一種。它包含一種特殊的數學模型,可以想成是一種特定類型的簡單塊的組合(或者說是塊的功能的組合),這些塊可以進行調整來更好的預測最終結果。