联系 投稿

廊新网-主流媒体,廊坊城市门户

沈向洋无惧BAT逼宫:微软培养了很多中国IT公司CTO(5)

2017-05-13 12:05:31     来源:央视网

  最近我跟微软亚洲研究院同事交流,其实我们能够提供最了不起的东西是一个环境,这个环境里面不光是大家的待遇还不错,更重要的是边上有比自己更聪明的人,你可以向他们学习。第二,在微软研究院我们提供一个自由的空间,从来没有要求你一定要做什么,研究员你自己想做什么,你觉得应该做什么,就去做什么。因为你已经是最聪明的人之一了,才进得了微软研究院。有几个人选择要走了,出去做VC啊,换一家公司啊,这都很正常,我们就不断再培养下一代的人,重要的就是你要有一个能够不断培养人才的环境。

  第三,其他的公司和微软一起合作,怎么样令AI 帮助微软(所有产品的)转型。我刚才提到Office,也提到Cloud,也提到Windows,我们一起做。同时,我们把这样的一些技术拿出来给其他所有Microsoft开发者去做,比如认知服务(Cognitive Service),这也是我在演讲的重点。认知服务这么多年一直都是我们AI部门在做,其中有很多的技术是从微软研究院做出来的。

  新智元:接下来继续有高级的研究员离职的话,你们仍然觉得很光荣?

  新智元:有一个问题,微软怎么应对人才流失?说实话,像腾讯已经把研究院开到西雅图了。

  以下是专访现场沈向洋博士回答其他记者提问的实录。

  所不同的是,沈向洋提到,他认为“AI对人类情感的理解将会是非常了不起的一件事”,“大多数的人还没有认识到能够不断聊下去这件事情的重要性”。而在这一点上,微软的小冰遥遥领先于其他智能语音助理,平均多轮对话次数是目前业界最高的23次。不过,沈向洋也表示,微软的Conversational AI会“两条腿走路”,既要发挥Cortana的商务助理优势,也要充分挖掘小冰在情感聊天方面的优势。

  微软亚洲研究院不是公益组织,研究员对公司是有责任的,要把技术转化为产品

  2017年05月10日,微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋博士(Harry Shum)在微软全球开发者大会(Build)发表主旨演讲后,接受了包括新智元在内的几家受邀媒体的采访。

  沈向洋博士:我们是第一个做到语音识别达到人类水准,特别是在最难的数据级switch bot data set,在我演讲里面提到,6个月之前我们已经做到这一点。在计算机视觉方面,我们两年前第一次做到物体识别(Object Recognition)跟人一样的准确率。接下来,我希望我们在自然语言理解方面也能有所突破。翻译也是这样,翻译的质量特别是Spoken Language(口语语言),我们肯定也是世界领先的水平。但是有那么多的语言要去做,还有很多工程方面的问题要去解决,今天微软也只提供60种语言而已,世界上有6500多种语言,怎么样把人工智能普及化,也是我们要考虑的。

  更重要的,今天大家对整个“认知”这样的一件事情的定义,还在一个比较初级的阶段,什么叫做常识(Common Sense)?你怎么知道见到这个人以后,为什么会对他很有一种亲近的感觉?这些我们还不是很理解,而这是一个很大的问题。稍微岔开一点讲,很重要的问题,今天我们个人工智能做的这些东西,和脑科学的结合不够,理解也不够。很主要的原因就是对“智能”的很多东西,只有人脑这样一个范本,但人脑结构很特别,今天我们还不够理解。脑科学作为一门科学,今天也还处在一个早期的阶段,我们还不能做太多的实验,也不能随时把一个人的脑袋打开塞一些东西进去。

  问:您刚才讲到微软在vertical领域跟一些服务商、应用商之间的合作,在平台方面,像谷歌、亚马逊、百度这方面的合作,怎样去解决社会责任和公司商业利益方面?另外,陆博士去了百度之后,百度和微软在中国人工智能的会有什么合作吗?

  而且,做科研是非常愉快的一件事情,做科研最愉快的事情就是根本不用担心别人在想什么,你自己拍拍脑袋想想就可以,要有一个了不起的想法——我以前是多么的享受做科研,后来被鲍尔默赶出来去做产品。

  例如我刚才提到,人工智能(更多在离散的空间做符号处理)和脑科学(更多在Neural神经元做连续处理)这两个空间的融合。符号可解释的空间和连续的脑空间之间的关系,三五年前基本上没有什么人研究这些方向。我认为更重要的就是应该培养新一代,看到这样的问题。如深度学习,要去解释它。

  新智元:微软去年做了重组,您率领一个5000人规模的AI团队,但是对具体的组织架构,我们一直都没有太多的了解,希望您能在这方面介绍一下,这5000人的团队具体的侧重点、方向、人事架构是怎么样的。我相信5000人还是分布在世界各地吧,这时候你们采取怎样的联系方式?

  为什么觉得人有智能,人的智能基本上分成两部分,一部分是感知,另一部分是认知。感知是里面最了不起的,而其中最大的一部分就是视觉的感知。以前有人做过这样的研究,一个人大概91%的信息是从视觉收集过来的,我忘记了他用什么样的方法算出来这个数字,但是我想大家基本上会同意,人绝大多数感知都来自于视觉。然后是听觉,然后才是其他的感知,比如触觉。

  第一,搜索引擎方面。你可以同意,也可以不同意我的意见,那就是今天世界上最大的人工智能可能还是搜索引擎,微软Bing这么多年下来做了知识图谱,超过25亿的实体(entities)。这里面就有很多的知识,搜索引擎本身不仅仅是一个业务——当然现在Bing也很赚钱,我们在美国占22.6%的搜索市场份额,再加上雅虎的11%(后台技术是微软做的),所以我们在美国有1/3的搜索份额,在英国最近涨到16.5%。从AI的角度来讲,搜索引擎主要就是World Knowledge——对世界知识的积累。

  大多数的人还没有认识到能够不断聊下去这件事情的重要性,我给你讲一个数字,大家都不见得知道。一个人一天讲几句话?事实上,人一天可以讲6000句以上,你可能都没有认识到这一点。为什么人要不断讲话,这绝对不会是因为要完成一件事情,它是人类自身学习的过程,通过对话、通过交流,跟不同的人学到不一样的东西,这一点是微软做AI,特别是对话式的AI,非常注重的一点,其他的公司不见得都很注重。

  问:您刚才的演讲里面主要是两大块,一块是AI怎么帮助开发者更好的去开发更customize应用场景,另外一块说重新定义(redefine)。我想问一下,微软通过人工智能对产品重新定义具体怎么做,有什么样的规划?

  沈向洋还表示,在去年微软重组构建5000人规模AI团队后,他就成立了一个“微软人工智能学院”,培养相当一批微软内部人才,“我们希望通过这样的方式,可以吸引更多外面的人才来微软。这么做,并不是我们担心又有人挖我们AI的人才,更重要的是,要把我们的人才培养成‘AI capable’。”

  新智元:目前这些方向还是在探讨阶段中吗?

  主要是两个方面:一个是在现有的产品,比如Office等跟AI结合,将会有哪些颠覆性的内容产生,有什么新的产品出来,有什么新的功能出来,这边的话我们进展得非常好;另外一个你要去想,新的产品线在哪里,你有没有一条新的产品线出来,三五年以后可以做到十亿美元的生意。要思考,你有没有这样的业务,五到十年可以做到一百亿美元的生意。如果有,当然要放马去追求这样的机会。所以我们现在整个AI部门最重要的事情,就是决定要做什么,决定不做什么。

  我觉得这边的进展非常大,过去这一年我都在讲,计算机语音识别的突破最多是5年的事情,也就是说5年之内计算机语音,不管你怎么去讲它都能识别,而且肯定会比人类强。然后,接下来10年左右的时间,计算机视觉也会达到这一点,今天视觉很多东西已经超过人,具体来讲比如人脸识别。但我讲的是一个很general的,anything is recognizable,到一个新地方,AI看到一个新东西能够联想到其他东西,这些我认为大概十年左右的时间可以实现。

  认知计算会成为Azure重中之重;深度学习可以从安卓如何崛起中借鉴

  沈向洋博士:是有的。任何一个企业,一个单位,特别是大了以后,一定要去想短期的目标是什么,中期的希望是什么,长期的愿景是什么,一定要从这个角度去想。我的部门比较特别的地方就是,我除了 AI 以外,还管研究院。在研究院我们有1000多位科学家,刚才新智元的同事也问道,我觉得最重要的就是,要不断培养一代一代新的了不起的研究员,去做更了不起的技术。

  从一个商业公司的角度来讲,我们还是有两个方面,你看的很准确,第一我们提供一个平台和工具,大家都可以用的,包括科研人员、大学的老师、学生都可以用。我们公司也做垂直行业,office AI会越做越好,比如讲云里面的应用,比如database,这些东西我们都可以继续做。你作为一个商业的话,跟其他产品竞争很正常。这些大的公司之间,大家可以怎么合作,可能有几个不同的层面。

  当前微软AI最重要的事情:决定做什么和不做什么

  但是在认知方面,今天我们远远没有获得突破,都谈不上跟人类相比的地步。首先是自然语言处理的问题,然后就是知识获取的问题。越来越多的人更应该去做这方面的工作。自然语言处理,我刚才也提到机器阅读,语言这个问题,相对来讲的确是比较复杂。用今天现有的方法,包括深度学习的方法,解出来的效果还不是足够好,当然用深度学习已经可以帮助到我们很多东西,比如像翻译也用了很多自然语言的东西。

  问:您刚才把微软的Cortana还有Google、亚马逊的相关产品对比,讲到各家service都是很不同的,您能不能给我讲个例子展开一下。此外,国内AI公司有一个观点,认为如果做纯2B的开发者的生意,如果提供工具,本身可能不是一个在国内环境下很好的商业模式,觉得很苦不赚钱。但您对Cortana 的定义就是一款2B的工具。我比较好奇您怎么看?

  当然,因为你不是一个公益的研究院,当然对公司是有责任的,包括最重要的一件事情,就是从技术到产品的转化。目前,AI本身今天很多的东西还在研究阶段,所以今天微软重组,把AI和研究院放在同一个部门——我觉得非常荣幸能够领导这样的部门——我们看到了非常多的机会。怎么从技术到产品转化这个问题,可能今天最好的例子就是认知服务,其中大概2/3的技术是原来微软研究院做的,而且做了很多年,以前我们不是很清楚,一些计算机视觉的技术怎么转化成产品。但是因为有Azure,有认知服务这样的机会,很多很多的微软研究院的技术,都已经通过认知服务转化成为产品。

  微软5000人AI军团:发力搜索、Cortana等四大方向

  在工具层面,我举个例子,比如讲TensorsFlow,有一些新的工具出来,像深度学习做到这样的地步,大家都觉得有道理,它就自然会出现一些工具出来。在TensorFlow出现的同时,至少有4、5个工具,比如讲亚马逊最近收了公司去做MXNet,大家各有所长。TensorFlow谷歌推的比较早,推的比较猛,用户很多。很重要的一点,我们作为一个community,大家应该把一些力量聚集起来。

  在这样一个设计的过程当中,因为它本身就叫digital assistant,帮助你把事情做好。大家想的都是怎么样尽快找到你需要的东西,尽快帮你完成这样的工作,在这样的设计过程当中,完成任务的时间越短越好。另外一条思路,很特别的地方,我觉得还没有太多的人做的是从聊天机器人:我是你的同伴,我是陪伴你的,我不帮你解决任何问题。从微软研究院来说,我们是在两条腿走路,这肯定是我们最不一样的地方。

  问:微软现有的一些成果或者说优势都有哪方面?