阿里云中的ML服务器是什么
‘壹’ 对于谷歌云而言,中国市场不重要吗
对于谷歌云而言,中国市场不重要吗
我国此前也曾发布《国务院关于促进云计算创新发展培育信息产业新业态的意见》以及《云计算综合标准化体系建设指南》,将云计算提升到了国家战略的高度。
亚马逊AWS、微软Azure等云服务巨头显然已经看到中国市场未来在云计算上的巨大机遇,截止目前,AWS在华两个区域布局有数据中心,共4个可用区,据不完全估计年营收或已达到15亿元人民币,折合约2亿美元,该数字仅次于阿里云、腾讯云。微软Azure在中国已有3个数据中心,虽在营收上没有给出确切数据,但通过与世纪互联的合作,微软Azure在中国已有11万企业客户,1 400多个云合作伙伴,入华成效显着。
竞争对手对中国云计算市场不断抛出的橄榄枝,置若罔闻、视若无睹都不会成为谷歌云的最佳选择。谷歌在云计算上的“淡定表现”是一种假象还是在谷歌的整体战略中,云计算只是个“配角”?
谷歌的云计算是个配角吗?
如果要论云计算在谷歌发展战略中的地位,我们可能需要从谷歌的企业文化说起。20年前,拉里·佩奇和谢尔盖·布林在加利福尼亚的山景城创办了谷歌,两位创始人虽然性格迥异,但在如何管理公司或谷歌未来应该朝着哪个方向发展上却有着惊人的共识:崇尚技术,这让谷歌有了很深的工程师文化;崇尚创新,又使谷歌的“登月”文化传承至今;梦想改变世界的大情怀,又让谷歌的各项业务不因短时的利益而改变航向。
因此,两位所向披靡的谷歌创始人带领谷歌涉足了一切他们可以涉足的领域,只要有创新、只要他们认为对未来有益,谷歌就会去做,这就有了我们看到的谷歌无人驾驶汽车、谷歌眼镜,甚至是谷歌收购的Youtobe等等。于是,当我们将谷歌的云计算业务放在谷歌整个产品生态中去的时候,谷歌云就稍显渺小。
谷歌旗下的产品分为三大类,针对消费者的“人人适用”类,针对企业客户的“企业适用”类,针对开发者的“开发者适用”类,看起来产品图谱很简单,但如果把每类下的产品数量相加,谷歌的总产品数量则有110种之多。然而,谷歌的云计算业务没有被单独归为一类,外界通常笼统地将谷歌云端平台、谷歌G Suite等统称为谷歌云业务,在谷歌一年一度的财报中,也鲜有提及“谷歌云”,而是把它归到了“其他收入”行列。
值得考虑的是,谷歌母公司Alphabet2017年度营收超1000亿美元,谷歌云的营收只占到了4%(实际占比可能比这个更少),谷歌公司的营收大王——广告业务,其2017年营收占到了谷歌总营收约90%。对比AWS已被亚马逊宣称成为营收主力,谷歌云的地位确实有不小落差。一言以蔽之,有了广告业务这个收入引擎,谷歌董事会们并没有指望云计算能给他们赚多少钱。
如果用“云计算不重要”来形容谷歌云的战略地位又不太恰当。因为2015年谷歌CEO桑达尔·皮查伊(Sundar Pichai)请来了重量级人物,企业计算巨头VMware(现已被戴尔科技集团收购)创始人黛安·格林(Diane Greene)加入谷歌,担任谷歌云CEO(Google Cloud CEO)。在随后的2016年谷歌消费者大会上,黛安·格林宣布正式启用Google Cloud 谷歌云,谷歌云的征途由此开始。
在戴安·格林的带领下,谷歌云产品目前已覆盖计算、存储和数据库、网络、大数据、物联网、机器学习、身份验证与安全、管理工具、开发者工具等九大方面。今年2月,谷歌首次就云计算部门的营收进行了宣布,戴安·格林表示2017年谷歌云的季度营收已经达到10亿美元,按此推算谷歌云年营收最高达到40亿美元,位于国际巨头亚马逊AWS 2017年度营收175亿美元之后,却排在中国体量最大的云服务商阿里云2017年度营收17.85亿美元之前。
此前,戴尔·格林还在演讲中透露,拉里·佩奇等谷歌董事会高层都为谷歌云2017年取得的成就感到兴奋,并正在筹备云计算相关企业的收购事宜。如此看来,谷歌对云计算的态度大致明了:不打算靠云计算赚钱,但可能在谋划继续往里面砸钱,不急不躁,小步慢跑。
2016年11月,世界人工智能顶级专家李飞飞加入谷歌,担任谷歌云人工智能机与器学习首席科学家(Chief Scientist, Cloud AI & ML),这里谷歌将“Cloud(云计算)”、“AI(人工智能)”、“ML(机器学习)”融合成了一个词,简称为“Cloud AI & ML”。可以看出,这位深耕人工智能、机器领域的科学家将会于“谷歌云”有着千丝万缕的联系。
(重组后的Alphabet组织架构图,仅供参考)
2015年谷歌母公司Alphabet启动企业结构重组,2017年完成重组后,“Cloud”作为一个单独的部门位列其中。AI或ML没有单独成立部门,原因或许在于Alphabet的各个子公司中,无论是神秘的谷歌X实验室、人工智能Deepmind,还是无人驾驶汽车项目Waymo都离不开AI&ML,也就是说对于谷歌各项子业务,AI&ML都作为底层支撑,无需单独成立部门。
对于谷歌云也是如此。李飞飞这位以研究AI&ML擅长的首席科学家被冠以“Cloud AI & ML”的头衔,她工作关键将是把AI&ML深度融进云计算。
李飞飞也这么做了,她的第一站就是中国。
2017年12月,在上海举行的谷歌开发者大会上,李飞飞宣布“谷歌AI中国中心”正式成立,那天她身着一件中国红风格的旗袍短袖侃侃而谈。李飞飞是谷歌云官网挂出的十位高管中唯一一位华人面孔,这个身份或许与谷歌选定其为Cloud AI & ML首席科学家不无关系。
在2018年3月,谷歌 Cloud Next 17上,李飞飞发布了谷歌云面向机器学习和人工智能的一系列新API 以及收购机器学习竞赛平台Kaggle。
之后谷歌云可能还会借助“谷歌AI中国中心”进一步壮大其在中国的云计算业务,这一天希望不会等太久。
谷歌这次会妥协吗?
2010年,谷歌搜索业务退出中国的事件,现在想想仍然心有余悸。关于谷歌退出中国的原因外界说法很多,一种声音认为,谷歌单方面确认其遭受来自中国黑客的网络攻击;另一声音,谷歌在与中国本土搜索引擎网络争抢份额的过程中败下阵来,仓皇逃脱;还有一种声音则是因为,谷歌无法接受中国政府提出的“内容审查”要求;另外,也有人指出,是李开复的离职,让谷歌缺乏一个中国区领导者,致使其无法本土化。
总之,谷歌最后选择了不妥协。
然而这次,谷歌云将经受的来自中国政府的考验相对更加严峻,因为涉及到了中国用户的数据问题。中国《网络安全法》对数据主权做了规定,即数据要采取本地化存储,对于本国或者外国公司在采集和存储与个人信息和关键数据相关数据时,必须使用主权国家境内的服务器。
无论是亚马逊AWS还是微软Azure、苹果icloud等跨国公司巨头都已经选择顺应中国政府的要求,与中国本地公司合作,基础设施交由中国公司运营,苹果icloud甚至将钥匙串一并迁移回中国。谷歌云会跟它的竞争对手们一样选择妥协吗?谷歌云的华人领导者李飞飞能否带领谷歌云归航?
谷歌创始人拉里佩奇曾表示:“企业只以盈利为目的,而不为改变世界做出贡献,就不能成为另人满意的企业”。在谷歌的整个生态中,“现在”与“未来”是两个明显的分界线。谷歌的营收大王广告业务是“现在”,而“未来”则是人工智能、无人驾驶等一切可以让人类变得更好的技术,当下,谷歌将“云计算”也划分到了“未来”里。
“非盈利”的想法可能不会使谷歌云选择快速攻入中国市场,它的步伐用“培育云计算“可能比用“占领市场”更为贴切。
‘贰’ 究竟什么是机器学习 深度学习和人工智能
目前,业界有一种错误的较为普遍的意识,即“深度学习最终可能会淘汰掉其他所有机器学习算法”。这种意识的产生主要是因为,当下深度学习在计算机视觉、自然语言处理领域的应用远超过传统的机器学习方法,并且媒体对深度学习进行了大肆夸大的报道。
深度学习,作为目前最热的机器学习方法,但并不意味着是机器学习的终点。起码目前存在以下问题:
1. 深度学习模型需要大量的训练数据,才能展现出神奇的效果,但现实生活中往往会遇到小样本问题,此时深度学习方法无法入手,传统的机器学习方法就可以处理;
2. 有些领域,采用传统的简单的机器学习方法,可以很好地解决了,没必要非得用复杂的深度学习方法;
3. 深度学习的思想,来源于人脑的启发,但绝不是人脑的模拟,举个例子,给一个三四岁的小孩看一辆自行车之后,再见到哪怕外观完全不同的自行车,小孩也十有八九能做出那是一辆自行车的判断,也就是说,人类的学习过程往往不需要大规模的训练数据,而现在的深度学习方法显然不是对人脑的模拟。
深度学习大佬 Yoshua Bengio 在 Quora 上回答一个类似的问题时,有一段话讲得特别好,这里引用一下,以回答上述问题:
Science is NOT a battle, it is a collaboration. We all build on each other's ideas. Science is an act of love, not war. Love for the beauty in the world that surrounds us and love to share and build something together. That makes science a highly satisfying activity, emotionally speaking!
这段话的大致意思是,科学不是战争而是合作,任何学科的发展从来都不是一条路走到黑,而是同行之间互相学习、互相借鉴、博采众长、相得益彰,站在巨人的肩膀上不断前行。机器学习的研究也是一样,你死我活那是邪教,开放包容才是正道。
结合机器学习2000年以来的发展,再来看Bengio的这段话,深有感触。进入21世纪,纵观机器学习发展历程,研究热点可以简单总结为2000-2006年的流形学习、2006年-2011年的稀疏学习、2012年至今的深度学习。未来哪种机器学习算法会成为热点呢?深度学习三大巨头之一吴恩达曾表示,“在继深度学习之后,迁移学习将引领下一波机器学习技术”。但最终机器学习的下一个热点是什么,谁又能说得准呢。
编辑于 2017-12-27
29918 条评论
分享
收藏感谢收起
阿里云云栖社区
用户标识1
已认证的官方帐号
39 人赞同了该回答
人工智能并不是一个新的术语,它已经有几十年的历史了,大约从80年代初开始,计算机科学家们开始设计可以学习和模仿人类行为的算法。
在算法方面,最重要的算法是神经网络,由于过拟合而不是很成功(模型太强大,但数据不足)。尽管如此,在一些更具体的任务中,使用数据来适应功能的想法已经取得了显着的成功,并且这也构成了当今机器学习的基础。
在模仿方面,人工智能专注于图像识别,语音识别和自然语言处理。人工智能专家们花费了大量的时间来创建诸如边缘检测,颜色配置文件,N-gram,语法树等。不过,这些进步还不足以达到我们的需求。
传统的机器学习:
机器学习(ML)技术在预测中发挥了重要的作用,ML经历了多代的发展,形成了具有丰富的模型结构,例如:
1.线性回归。
2.逻辑回归。
3.决策树。
4.支持向量机。
5.贝叶斯模型。
6.正则化模型。
7.模型集成(ensemble)。
8.神经网络。
这些预测模型中的每一个都基于特定的算法结构,参数都是可调的。训练预测模型涉及以下步骤:
1. 选择一个模型结构(例如逻辑回归,随机森林等)。
2. 用训练数据(输入和输出)输入模型。
3. 学习算法将输出最优模型(即具有使训练错误最小化的特定参数的模型)。
每种模式都有自己的特点,在一些任务中表现不错,但在其他方面表现不佳。但总的来说,我们可以把它们分成低功耗(简单)模型和高功耗(复杂)模型。选择不同的模型是一个非常棘手的问题。
由于以下原因,使用低功率/简单模型是优于使用高功率/复杂模型:
在我们拥有强大的处理能力之前,训练高功率模型将需要很长的时间。
在我们拥有大量数据之前,训练高功率模型会导致过度拟合问题(因为高功率模型具有丰富的参数并且可以适应广泛的数据形状,所以我们最终可能训练一个适合于特定到当前的训练数据,而不是推广到足以对未来的数据做好预测)。
然而,选择一个低功率的模型会遇到所谓的“欠拟合”的问题,模型结构太简单,如果它复杂,就无法适应训练数据。(想象一下,基础数据有一个二次方关系:y = 5 * x ^ 2;你无法适应线性回归:y = a * x + b,不管我们选择什么样的a和b。
为了缓解“不适合的问题”,数据科学家通常会运用他们的“领域知识”来提出“输入特征”,这与输出关系更为直接。(例如,返回二次关系y = 5 * square(x),如果创建了一个特征z = x ^ 2,则可以拟合线性回归:y = a * z + b,通过选择a = 5和b = 0)。
机器学习的主要障碍是特征工程这个步骤,这需要领域专家在进入训练过程之前就要找到非常重要的特征。特征工程步骤是要靠手动完成的,而且需要大量领域专业知识,因此它成为当今大多数机器学习任务的主要瓶颈。
换句话说,如果我们没有足够的处理能力和足够的数据,那么我们必须使用低功耗/更简单的模型,这就需要我们花费大量的时间和精力来创建合适的输入特征。这是大多数数据科学家今天花时间去做的地方。
神经网络的回归:
在大数据时代,云计算和大规模并行处理基础架构的共同发展,使得机器处理能力在二十一世纪初得到了极大的提升。我们不再局限于低功耗/简单的模型。例如,当今最流行的两种主流机器学习模型是随机森林和梯度提升树。尽管如此,两者都非常强大,并且提供了非线性模型拟合的训练数据,但数据科学家仍然需要仔细地创建特征以获得良好的性能。
与此同时,计算机科学家重新使用神经网络的许多层来完成这些人类模仿的任务。这给DNN(深度神经网络)带来了新的生机,并在图像分类和语音识别任务方面提供了重大突破。DNN的主要区别在于,你可以将原始信号(例如RGB像素值)直接输入DNN,而不需要创建任何域特定的输入功能。通过多层神经元(这就是为什么它被称为“深度”神经网络),DNN可以“自动”通过每一层产生适当的特征,最后提供一个非常好的预测。这极大地消除了寻找“特征工程”的麻烦,这是数据科学家们最喜欢看到的。
DNN也演变成许多不同的网络拓扑结构,所以有CNN(卷积神经网络),RNN(递归神经网络),LSTM(长期短期记忆),GAN(生成敌对网络),转移学习,注意模型(attention model)所有的这些被统称为深度学习(Deep Learning),它正在引起整个机器学习界的关注。
强化学习:
另一个关键组成部分是关于如何模仿一个人(或动物)的学习,设想感知/行为/奖励循环的非常自然的动物行为。一个人或者一个动物首先会通过感知他或者她所处的状态来了解环境。在此基础上,他或者她会选择一个“动作”,将他或者她带到另一个“状态”。那么他或她将获得“奖励”,循环重复,直到他或她消失。这种学习方式(称为强化学习)与传统监督机器学习的曲线拟合方法有很大不同。尤其是,强化学习学习得非常快,因为每一个新的反馈(例如执行一个行动并获得奖励)都被立即发送到影响随后的决定。
强化学习也提供了预测和优化的平滑整合,因为它在采取不同的行动时保持当前状态的信念和可能的转换概率,然后做出决定哪些行动可以导致最佳结果。
深度学习+强化学习= AI
与经典的ML技术相比,DL提供了一个更强大的预测模型,通常可以产生良好的预测结果。与经典优化模型相比,强化学习提供了更快的学习机制,并且更适应环境的变化。
机器学习 vs 深度学习
在深度探讨machine learning和data science的联系之前,这里简要地讨论一下machine learning 和deep learning。machine learning是一套算法,来训练数据集做预测或者采取行动以使得系统最优化。举例来说,supervised classification algorithms被用来根据历史数据将想要贷款的客户分成预期好的和预期差的(good or bad prospects)。对于给定的任务(比如监督聚类),需要的技术多种多样:naive Bayes、SVM、neural nets、ensembles、association rules、decision trees、logistic regression,或者是很多技术的组合。所有这些都是数据科学的子集。当这些算法自动化后,比如无人驾驶飞机或者无人驾驶汽车,这就叫AI了,或者说的具体一点,deep learning。如果采集的数据来自传感器并且通过互联网传播,那么这就是机器学习或数据科学或深度学习应用于物联网了。
有些人对深度学习有不同的定义,他们认为深度学习是更深层次的神经网络(一种机器学习的技术)。AI(Artificial Intelligence)是创建于20世纪60年代的计算机科学的一个子领域,是关于解决那些对人类来讲非常容易但是对计算机而言很难的任务。值得一提的是,所谓的strong AI可能可以做所有人类可以做的事情(可能除了纯粹的物理问题)。这是相当广泛的,包括各种各样的事情,比如做计划,在世界上到处溜达,识别物体和声音,说话,翻译,社交或者商业交易,还有创造性工作(比如写诗画画)等等。
NLP(Natural language processing)只是AI要处理的语言部分,尤其是写。
Machine learning是这样的一种情况:给出一些可以被以离散形式描述的AI问题(比如从一系列动作中选出对的那个),然后给定一堆外部世界的信息,在不需要程序员手动写程序的情况下选出那个“正确的”行为。通常情况需要借助外界的一些过程来判断这个动作对不对。在数学上,这就是函数:你给一些输入,然后你想要他处理一下得到正确的输出,所以整个问题就简化为用一些自动的方式建立这种数学函数模型。和AI区分一下:如果我写了一段特别机智的程序有着人类的行为,那这就可以是AI,但是除非它的参量都是自动从数据中学会的,否则就不是机器学习。
Deep learning是当下非常流行的机器学习的一种。它包含一种特殊的数学模型,可以想成是一种特定类型的简单块的组合(或者说是块的功能的组合),这些块可以进行调整来更好的预测最终结果。