中国图像图形学学会科普与教育工作委员会

人工智能革命的第一步从摄像头开始

        在2013年秋季英特尔信息技术峰会(Intel Developer Forum,IDF)。英特尔带来了很多给予英特尔芯片的产品,其中非常引入瞩目的,就是这个原型来自瓦力的机器人,她的名字就是瓦力(Walle)。瓦力最重要的功能是:一、跟人打招呼;二、跟人握手;三、英特尔在机器人腹部放了一个屏幕,让人们可以看到机器人是如何“看到”或者说感知世界的。

你是我的眼:人工智能革命的第一步从摄像头开始

        看看“瓦力”那萌萌的大眼睛!这简直就是皮克斯送给人类最好的礼物。但很抱歉,从技术的角度来说,这两炯炯有神的眼球只是装饰品。机器人胸口的微软 Kinect 1才是所谓的“眼睛”和“耳朵”。机器人通过Kinect来获取图像和深度信息,以此完成从识别人到打招呼、握手的环节。因为Kinect也配备了高清麦克风,所以顺带把“听”也解决了。加之Kinect本身具备一定的运算能力,也起到了部分大脑的作用。明白了吧?瓦力是通过深度摄像头,来获取真实世界的信息,并将其转化成虚拟世界所需要的数据,然后加以处理的。目前有个时髦词汇来形容这一整个过程,叫“机器感知”,或许马上这词就会跟“云”一样连老大妈都能说了。总之,你可以这么理解,深度摄像头就是下一代“电脑”比如机器人最重要的器官,这个器官将承担新一代人机交互的重任——从人与手机,到人与机器人。核心技术来自于Primesense ,一家长期致力于将深度摄像头民用的公司。Primesense不是深度摄像头的始祖,但这场新人机交互革命,却是这么打响第一枪的,在 Primesense 的背后,是无数的巨头在为其举着火把。简单来说, Primesense解决了很多数学算法问题,帮助他们能够设计出来足以快速处理深度信息的芯片,这些芯片被授权给硬件厂商生产,这就是深度摄像头的核心组件。通俗的比喻,就是图像图形界的英特尔。

        Primesense 成立于2005年,在2006年对外宣布完成了3D感应芯片的研发,在当年的 E3 大展上与微软建立了联系,并催化出代号为 Project Natal 的神秘项目。等到 2009 年 E3 大展时,微软发布了获得PrimeSense 芯片授权的 Kinect 1。于此同时获得 Primesense 授权的也包括华硕,这就是 的由来。不过传说微软因收购 Primesense 的失败,在 Kinect 2时放弃了Primesense 。最终在2013年11月25日,苹果最终3.6亿完成了对 Primesense 的收购。看到了吗?从微软、英特尔再到华硕,最终是苹果,在计算机业界里数的来的巨头,都跟这家年纪尚轻的公司产生了联系。最早爆料苹果要收购 Primesense 的以色列媒体 Calcalist 是如此描述苹果的意图:苹果通过对 PrimeSense 的收购,从而在室内娱乐领域获得了关键性的技术。在此之后,无数媒体都在预测苹果将在客厅这个战场上与微软、索尼掰掰手腕,从新一代AppleTV再到iTV。不过收购至今将满1年,苹果看起来在这方面没有任何消息,多少是让人有点失望的。不过细想下也符合苹果的作风:秘密开发然后一鸣惊人。

你是我的眼:人工智能革命的第一步从摄像头开始

        从 Primesense 被收购开始,才正式拉开了新人机交互战争的序幕,曾经在触屏或键鼠时代的不少巨头,都在此后快速入场布局。因为 PrimeSense 被苹果收购,其对外授权的技术将会在 2015 年终止,所以那些使用了 PrimeSense 技术的厂商们不得不寻找替代方案。很多人是看到了赚钱的新方式,比如很多国内的新兴公司,比如小米。有些则是看到了颠覆的点,希望能够扳回在手机时代的败局,比如英特尔。还有些则是害怕被颠覆,比如苹果。来自中国的公司,有些名字你也许还不熟悉,不过他们或许是下一个世代的巨星。接下来,我将分国内和国外两个部分,来解析巨头们或者准巨头们的布局:

国内创业公司:

  • 格灵深瞳 主打智能安保的公司,此前36氪曾对格灵深瞳有过报道,他们也宣称自己造出了带有深度摄像头的安保设备,这家微软孵化器第二期的公司,看团队履历非常耀眼。不过我判断他们的实际竞争力应该在软件和存储端,在硬件端大致上会倾向于采购更为合算的方案。

  • 奥比中光 奥比中光的核心目标就是取代 Primesense ,他们从成立的那一天起就是希望能够在弥补 Primesense不再授权后,国内留下的市场空白。他们目标是做给基于安卓系统的新人机交互提供设备。主要市场之一是游戏市场,比如那些主打游戏功能的安卓盒子,特别是例子就是乐视电视。乐视电视此前已经具备体感游戏功能,他们选择的恰恰是由 Primesense 授权而生产的 Xtion 。当 Xtion 存货没有后,奥比中光的产品是可以做到即插即用的。据悉他们在今年10月份已经完成了核心芯片的定型流片,预计会在2015年2月份(可能是春节期间)公开更多信息。

  • 北京冰果 这家公司从工商注册信息来看,主要从事的是技术进出口。从多个渠道的消息来看,他们是在委托西安交大的某个研究所在做 Kinect 1的复刻研发。跟奥比中光一样,他们的目标也是取代 Primesense 取消授权后剩余的市场。这家公司的人员组成尚不熟悉,如果有知道的读者,可以邮件联系我。

  • 酷感科技 母公司是数码视讯,股票代码300079,主要持股人清华科技园 ,属于清华的校企。清华的图形图像实验室在计算机视觉是有非常重要地位的,可以推测这家公司的技术实力。他们对外宣称已经完成了研发,目标自然也是取代 Primesense。

        国外的计算机视觉首先要谈的肯定是大名鼎鼎的微软Kinect,但是他们深度摄像头的核心技术还是来自于授权, Kinect 1 是来自Primesense, Kinect 2来自 Canesta 。微软长期以来的目标,是将深度摄像头应用在游戏场景下。不过有两件事,让笔者可以肯定微软会开始对 Kinect 进行小型化,并应用在新的场景里。

        首先,随着机器人视觉的再次兴起,微软在此前 IROS2014 chicago 上推出的开源机器人,工程图标注的是启用了 Kinect 的核心传感器;其次,回想下比尔-盖茨同学在2007年那次 D5峰会上第一次谈及3D感应器,实际上那个点他们已经和Primesense 取得了合作,所以盖茨会说他们已经有货了。那次 D5 峰会上盖茨所谈及的愿景是无处不在的摄像头,希望人们走到哪里,都有一个操作系统;无论是走到哪都能通过 Kinect 操作的设备,还是走到哪都能跟到哪的机器人,确实符合这样的想法。Windows 10的目标又是要做物联网的枢纽从而无处不在,那么 Kinect 或者其他名字但实现更强大功能的“器官”也会需要部署到无处不在吧。可以这么总结,微软摆脱 Primesense 后做出的 Kinect 2相比Kinect 1是飞跃性的革新产品,在一定时间内,微软在这个领域会保持其技术优势。除了微软之外,在这一领域的大公司和国外的创业公司还有:

  • Primesense 被苹果收购之后,Primesense 宣布将在2015年停止授权,看来是铁了心要自己做包含深度摄像头的硬件。到底是电视还是合作,或者来个苹果的机器人?笔者就不再猜测了。不过这里可以提供一个有趣的事实, Pirmesense实际比任何一家都要更早的完成了微型版深度摄像头的研发。2012年下半年, Primesense就完成了代号“Capri”的微型深度摄像头设备的研发,他们的目标是笔记本、平板甚至是手机里。不久的未来,也许在某代iPhone里就能看到了。

  • Pebbles Interfaces 这家公司被小米投资了,因为小米没有相关的技术储备,未来也不会有这个打算。通过这笔收购,小米得到了关于3D感应器(核心芯片)的相关授权。还签订了三个月的排他协议,相信在未来小米智能电视和盒子上会看到体感应用了。

  • 英特尔购买了 softkinetic 公司的核心技术,然后推出了自己的深度摄像头设备——Realsense。Realsense 分别有对应安卓和Windows的型号,也有对应超极本和平板的版本。可以看出来英特尔在努力做深度摄像头的小型化,并铁了心的要抓住下一代人机交互的入口。就跟小米投资的 Pebbles Interfaces 和 Primesense一样, softkinetic 来自比利时。

  • 谷歌购买的是来自 Movidius 这家公司的技术,主要应用在 Project Tango 这个项目上,主打 3D感应手机这个概念。

  • Leap Motion 这家公司很早就为国人所知,此前他们也跟神州合作进入了中国,除了主打电脑端的人机交互外,还希望能进入车联网这样的领域。操作精确度一直是 Leap Motion 强调的重点,不过可能由于过度强调精确度,反而使得 Leap Motion 操作体验的不佳。加之他们在处理跟开发者的关系上屡屡出问题,导致后继无力。

        如果有机会,笔者应该将 Primesense 、 Pebbles Interfaces 和 softkinectic 这样来自以色列的亲身父亲做个详细的介绍。不过在这里省略也是有意为之,因为实际上这些公司的研发是非常消耗金钱,这就是为何 Primesense 在发展的风生水起的时候,却在2012年将公司员工从190人砍至50人的原因。失去微软支援的他们,实际上是失去了源源不断的财源,而哥斯拉级别的微软却有能力另立门户,直接用钱烧出一台 Kinect 2。需要大量的金钱去完成研发,这就是深度摄像头在上游的现实。这也是为何只有微软、苹果、谷歌才能称得上真正的玩家,而 Leap Motion 这样的厂商往往后继无力。 Pebbles Interfaces 则是直接来到中国完成的融资,站在他们身后的是小米这样的新巨头为其输送炮弹。也许超级巨头的入场,预示着下一代人机交互的到来,但新巨头的集体布局,也预示着这个行业在硬件端门槛之高。那么捉摸着在这个领域创业的人们,他们可以做什么呢?

        做智能家居、家庭机器人的,可以向以上公司采购设备,对交互要求不高的可以选用国内公司的方案。以前做互联网做APP的公司,不如跟笔者一样,老老实实做应用。不过在新人机交互下的应用,对于每个应用场景的理解将上升几个层级的要求,甚至开发者们还要读懂更多平台传输来的数据。因为在这个即将无处不在传感器的时代,我们将在真实世界里廉价的捕捉到大量数据,读懂这些数据,才能从虚拟世界获得更多的帮助。