云顶国际娱乐官网

小猴机器人:征途路上,星辰大海

2014-09-23 22:28 BY 站酷工作室

    文:Gracia,摄影:周振邦

    导语:小猴机器人,清华人工智能专业博士在读。2009年开始,他参与实验室的无人车项目,和军事交通学院共同研发“军交猛狮III号”无人车。这辆由黑色现代ix35改装的大家伙,配备雷达、摄像头和GPS传感器,可精确识别路况、判断障碍物,并自主进行刹车、油门、制动、换挡等操作。身为概率论、AI、Python的狂热爱好者,小猴正致力于用概率图模型方法,让机器变得更聪明。

    在我的书柜顶层,放着侯世达的《哥德尔、埃舍尔、巴赫:集异璧之大成》,这本被誉为人工智能“圣经”的厚重大部头,出版于70年代中期,曾获得普利策文学奖,轰动一时。其后,人工智能领域研究进入拐点,关注“人类思维如何运作”的传统研究方式进入死胡同,逐渐淡出公众视野。直到80年代末期,人工神经网络发明,基于大量训练样本的机器学习模型,取代传统人工规则,这一领域才重新取得突破性进展。

    随着大数据与人工智能结合,我们逐渐进入一个算法主导的世界,无所不在的机器智能,精确记录着你的点滴,计算着你的喜好,推荐你需要的物品,物理世界和虚拟世界的分界变得模糊。在欢天喜地迎接万亿级别新市场同时,也不乏对科技和人类未来的反思,对技术“奇点”的担忧是其中之一。大约一万年前,人类在改造自然的能力上逐渐占据主导,迎来了自身的大繁荣。当机器智能超越人类智能,意味着第二个临界点到来,这种智能会在多大程度上操纵人类的认知方式?一个有人性的世界是否会由此终结?人工智能这把通往未来的钥匙,究竟能打开一扇什么样的门?需要每位参与者谨慎思考。

     “三清团”(清华本科、硕士、博士)的经历,让小猴养成了严谨、务实的科学态度。他喜欢用“科技工作者”称呼自己,并且善于用通俗易懂,带点戏谑的方式,把那些看起来高深的理论,解释得通俗易懂。他曾做过一份《机器学习周刊》,用自己鲜明的个性,把严肃、枯燥的技术新闻,解读得无比鲜活。即使整整一下午,我耳边回荡着“卷积神经网络”、“约束玻尔兹曼机”、“马尔科夫随机场”这样的专业名词,听起来仍是津津有味。或许因为成长于广袤的内蒙,小猴身上带着大山和草原一般的洒脱与乐观,在他钟爱的无人车上,印上了一个美好的Slogan:我们的征途是星辰大海。

    技术人攻略:你们的无人车项目始于何时?做到了什么程度?有哪些难点?

    我现在清华“不确定性人工智能实验室”读博士,主要做和不确定性相关的东西,例如:知识挖掘、知识图谱、读心机器人、视觉识别、四旋翼、自平衡车、足球机器人等项目。

    实验室的无人车项目从2005年开始启动,目前已和若干高校,以及上汽、北汽等公司联合,共有100多人参与。我2009年加入该项目,从做模型车开始,逐渐做到大车。目前为止,该车已通过约5万公里测试,在全程无人工干预情况下,高速路跑下来没问题。2012年12月,央视曾跟拍过我们从北京收费站入口,跑到天津收费站出口的全过程。

    接下来的挑战是错综复杂的城区道路,解决复杂问题的方式是剥洋葱,剥到我们能解决的那一层。城市道路抽象地看,可分成机场高速、环路、普通城市道路、小区道路,难度依次提升。以“机场接人”这个任务为例,无人车需要从机场一号航站楼,跑到天安门旁的工信部大院。这段路涉及机场高速、东二环、前门大十字路口等许多交通元素,逐步搞定预计要用两年时间。

    无人车行走依靠三大工具,一是GPS卫星定位,二是激光雷达,三是相机。雷达和相机实现局部定位,GPS实现全局定位。这里面有很多技术难点,其中之一就是如何实现高精度定位。

    普通车道线的宽度是3.3米,手机上的GPS号称误差2.5米,一旦出现5米左右的误差,会导致从左拐车道偏移到直行车道。针对高精度定位需求,已出现了一些高层次GPS定位方法,例如RTK-GPS、差分GPS,通过静态GPS基站和卫星同时定位,精度可达到50厘米。

    一辆无人车的总成本高达200万人民币,激光雷达国外卖6万刀,国内加上税得到80万人民币,用精度更高的航天级传感器,成本会高达上百万。差分GPS市价30万,基站覆盖范围10公里。从机场到天安门这段路约29.1公里,想实现全程信号覆盖,至少得建3个基站。如果用3G,不用搭建基站,但信号覆盖效果会是个问题。所以最后的定位方式会结合多种传感器做融合推理。

    Google无人车依赖GPS,及传感器做特征抽取,并把这些信息连到一块分析。分析过程用到了SLAM(协同定位与绘图)技术,它是一个机器学习算法,在机器人领域应用得很广。根据车的移动,不断调整地理位置估计,当搜集的信息足够多时,就能实现精准定位。如果有足够完善的地图,就不需要用到SLAM,直接把场景和地图特征做Mapping就可以。

    技术人攻略:你现在主要的研究方向是什么?

    我个人的兴趣是用概率模型(例如概率图模型)方法解决人工智能问题。在无人车这块,正尝试通过深度学习模型,对人的驾驶及周围环境建模,训练出一些模型,和车的控制算法结合,让机器变得更聪明。

    传统控制方式会写一些if、then条件,例如:如果视野里出现红色,则前方有红灯。但仅凭这一条规则判断,结果会存在一定不确定性。图模型则会连接更多前件和后件,根据已有知识,去推论图里面某一个节点或者某一条边,是否会存在或发生。仍然拿红灯举例,根据先验知识,红灯一般在高处。除了判断颜色之外,还需要判断红灯和地面之间的关系。如果在地面上检测出来一个红色物体,那么它是红灯的可信度不会很高,如果在天空上,那么很可能是一个红灯。

    除无人车外,我还对自然语言处理感兴趣,例如做Email的Intention Direction分析,怎么知道某封邮件是找你要资料的Email,还是老板通知你去开会的Email。再进一步,通过智能助理提醒你,回复前两天别人找你要资料的Email,或只对老板让你开会的Email做出响应。如何理解你老板,和开会这两件事,涉及到对人和事件的识别与抽取,这中间可以做大量的尝试,会让你对人工智能的能力感到很振奋。

    我参与过最有趣的人工智能项目是MSRA的“读心机器人”:你在心中设想一个公众人物,它能通过一系列问题,猜出你心里想的那个TA是谁。这实际上是一个排序算法,根据用户的每一次回答调整 Ranking。其中的技术涉及到知识库构建,所有人物的背景知识都从互联网上抓取。还涉及到群体智能,通过用户的回答调整算法。

    技术人攻略:刚提到用图模型方法解决人工智能问题,图模型有哪些好处?如何实现?

    用图模型解决问题的方法,在人工智能里被称为“连接主义”。过去我们常把数据看成一个个孤立的点,针对点做假设。但实际上,可能很远的地方一个毫不相干的信息,会触发你这里致命,或决策性的响应。所以用图来研究人工智能是很自然的方式。

    Google知识图谱(Knowledge Graph)就是根据图模型构建起来的,我们一般叫它知识库(Knowledge Base)。例如你想搜索关于奥巴马总统的知识,传统搜索引擎做关键字匹配,难免会搜出一些不需要的东西。用知识图谱方式,全世界有1000个人叫奥巴马,但可能只有一个人和“米歇尔(奥巴马的妻子)”有关系,通过这类联系,迅速定位出目标。

    但如何能知道米歇尔和奥巴马之间的联系呢?这就涉及到知识库的构建。构建分为两步,第一步是Entity Linking,找出材料中提到了知识库里的谁?第二步是Slot Filling,找出在说他的什么事?

    人类的思考过程并不仅依靠输入的材料,而是会结合已有常识分析。例如大部分人大学毕业都在22岁左右,大部分人会在30岁之前结婚、生子,大部分人寿命不会超过100岁……这一系列概率分布构成了人的背景知识,利用这些知识可以辅助和改进人工智能效果。

    常识一般分三类,第一类叫事实,例如:布莱尔是英国总理。这个层面的知识可以从大英百科全书或Wikipedia上拿到;第二类常识,例如:布莱尔是个人,他是个男人。涉及上下层级关系,要更难一些;第三层更困难,例如:布莱尔是个男人,男人通常会和女人结婚,通常会在结婚后两年生小孩。第三层涉及的规则,是真正的人类智力和人工智能之间的壁垒所在,如何能够有效挖掘出这些规则,是目前人工智能遇到的最大挑战。

    技术人攻略:除了规则挖掘,人工智能遇到的难题还有哪些?

    所有做人工智能和机器学习的人,遇到最普遍的难题是:缺乏被标记好的数据。举个例子,我们面前这一瓶可乐,网络上能找到成千上万张图片,但就是没有标记出来它是一瓶“可乐”。即使在电商网站上,这张图很可能也并不会标记为“可乐”,而是叫“解暑佳品”。在这样的情况下,机器又如何能知道对应的图就是“可乐”呢?

    再举个极端的例子,你在朋友圈贴了几张美食的图片,发了一句感慨:今天真开心。这句话和美食没有任何关系,根本没法处理。而有的人会说:我在大众点评上找了一家烤肉店,味道非常不错。那“烤肉”这个词就能抓出来了。所以这不是技术上的问题,而是要看你能拿到多少数据。 

    怎样从这些没有标记过的数据中,搞出一点苗头出来,这就是当下最火的深度学习要做的事。有别于深度学习直接用原始数据的生猛做法,传统解决办法是用远程监督(Distant Supervision)技术获取数据,例如从网上抽出一些可能的标签,在“减肥佳品,消暑必备可乐”这句话里,会抽出“减肥”,“消暑”、“可乐”这些名词。统计相似的图片里面,有哪些关键词经常出现,用不确定性解决这个问题。算完之后给出一个概率:这个东西在谈可乐的概率80%,在谈减肥的概率20%。只要数据量够大,这些都不是问题。

    机器学习上手很容易,关键是能挖出什么东西来。真实数据里噪声非常多,缺失的信息也很多,实践者要学会绕出这些坑,从纷乱的数据中找出规律。在深度学习还没到大家脑海里之前,大部分机器学习学者都在观察数据有什么特征,这叫做特征工程。例如你发现数据里所有单词的第一个字母都大写,就把它当成一个特征,别人如果没用到这个特征,你的算法就超前了。搞人工智能的人,必须对数据敏感,能从数据里发现一些别人看不到的端倪。机器学习是一个优化过程,但能从数据里挑什么来做优化,需要专业技术。而且数据特征和领域有紧密关系,广告、网页的、图片识别的特征各不一样,用到的模型也可能不一样。

    技术人攻略:前阵子媒体报道已有机器通过图灵测试,你怎么看?

    前阵子宣称通过图灵测试的那台计算机,模拟了一位13岁的匈牙利外国男孩,并且还是得了病的那样一个人的智能。做了许多限制条件,把AI设计成有缺陷的人,试图蒙混过关。

    实际上,真正的人工智能学家根本不会致力于去通过图灵测试。我们不去争论什么是真正的人工智能,而做以下设想:如果有一台无人车,可以让驾驶过程中90%的场景全都和人一样。逐渐把这种算法应用到地铁、飞机驾驶,并且都做到效果无限和人逼近。最后这些综合起来,形成一个整体,你觉得它算不算人工智能?

    人工智能分为两派,以Google为首的一派搞统计,以侯世达为首的一派搞规则。两派人总在争论,究竟谁才是真正的人工智能。讨论参与到最后,就变成了人和机器最后到底谁会控制谁的畅想。畅想完了之后总还要干活,作为科技工作者,不如埋头把活干好。在局部范围内让机器人去逼近人,如果能做到一个比较良好的状态,就称其为在这个领域内,达到一定程度的人工智能。比起通过图灵测试,这应该是更为实际的目标。

    对于图灵测试智能与否,也有学者吐槽。去年人工智能大会(IJCAI)上,Hector Levesque就指出:人与机器的区别应该在于认知和理解,比如“指代消歧”能力,普通人可以轻松结合上下文,分辨出文中的“它”指的是谁,但目前机器要做到这点挺难。

    技术人攻略:Yann LeCun(燕乐存)预测这两年会大量出现人工智能、机器学习的初创公司,你关注到有哪些这个领域的公司?

    国外机器学习的初创公司很多,方向也相对比较杂,应用领域包括广告、机器人、智能家居等。例如今年初Google以4亿美金收购了DeepMind,这家公司的创始人之一是Yann LeCun的学生,他们把深度学习模型应用到游戏领域,做了个自动玩超级玛丽的算法,发了篇很厉害的Paper。

    深度学习最牛的地方,在于完全不需要定义规则,所有规则都由机器自己学习得出。在超级玛丽游戏里,你根本不用定义马里奥和乌龟的距离,只需定义活下去这个目标,把整幅截图给机器,它自然就能找出在什么场景或什么动作序列下,游戏角色能存活最长时间。

    这家公司价值如此大,关键还在于,超级玛丽通关的算法,实际上跟其它高精尖领域的控制算法原理一样。例如航天飞行器的控制算法,是在模拟器里,用模型驱动参数变化,给出结果并反复训练的过程。广告系统也类似,Google以前通过人,或者简单算法调整广告系统的参数,一方面效果达不到,另一方面浪费人力物力,深度学习或者超参优化能自动化地解决这个问题。

    国内的创业环境更偏向于短平快,做机器学习初创的公司主要集中在广告、营销方向,包括舆情监控、精准投放等领域。也有像Face++这样的,用机器学习做人脸识别,并做到这个领域的世界冠军。

    技术人攻略:机器学习、深度学习、人工智能、模式识别之间的区别与联系是什么?想进入这个领域的人应该如何提升? 

    人工智能是目标;机器学习是一种技术手段;模式识别与机器学习有交集,但不一定非要经历机器学习的训练过程,可通过给匹配给定模式的方式实现;和深度学习对应的是浅层学习,都属于机器学习的方式之一。

    想进入人工智能领域,首先得了解它的发展历史。从技术上看,人工智能应用领域基本可以落在图像识别、声音识别,自然语言处理这三类。从中找到你的载体,再从载体上寻找和明确要解决的科学问题。接下来看别人的解决方案是如何实现的,世界冠军的标准是什么,朝着把世界冠军打败的方式去努力。这是所有做科研的人应该遵循的成长方式。

    现在最火的深度学习领域的顶级牛人有4位,包括神经网络的发明人、就职于Google的Geoff Hinton;Facebook人工智能研究院主任Yann LeCun;加拿大Montreal大学教授Yoshua Bengio;百度首席科学家Andrew Ng。他们当年都曾在NEC Lab里共事。

    2006年之前,支持向量机模型(Support Vector Machine)占据了机器学习领域的江山。神经网络出来了之后,在性能上压倒式地超越了SVM,在语音和图像识别两个领域,把原有的世界机器学习纪录全干掉了,所以一下子火了。不过目前深度学习在自然语言上还没有特别好的解决方案。

    大家普遍认为,人工智能这一行对数学有很高的要求,尤其是线性代数和概率论。以下几本机器学习的书,也可以看看:《Pattern Recognition and Machine Learning》、《Machine Learning——An ALGorithmic Perspective》、《Programming Collective Intelligence》、《Machine Learning in Action》、《Machine Learning for Hackers》。想做得好,还得多看Paper。不管是Paper还是新闻,推荐都尽量看英文原文。

    技术人攻略:你在清华从本科一直读到博士,谈谈在清华成长的感受吧?

    外界对清华同学的吐槽比较多,比如情商低,自视甚高等。有些看法很片面,但至少我们做事情很认真。个体行为在一定程度上代表着学校,如果自己做事不靠谱,别人会说那个清华的谁不靠谱,有负于前面成百上千的师兄师姐营造出来的形象。

    别人眼中的清华学子可能很乖巧好学。但真的乖吗?不一定。好学吗?有时候也会犯懒。这跟是不是清华其实没关系。我从小也算是“别人家的孩子”,除了学习和品行不错,内心其实很叛逆。许多同学来自于格式化的城市,我却成长于广袤的内蒙古,大兴安岭给了我洒脱的性格。我可能并不算典型的清华同学,所以这里谈的都是些个人看法。

    我从小非常喜欢看书,语文和英语很好,差点去学文科。但后来发现应试教育里那些文科的东西,不像理科那么有确定性。比如历史,让你谈一下对鸦片战争的看法。我想这还不如解方程,于是学了理科。结果因为数学不行,各种被虐。

    大一期中考试,我微积分考了52。从2004级开始,国内一些省份已经把微积分放进了高中数学,而我高中没学,对微积分一窍不通。当时心里有巨大压力,想着这回完了,我要被清华退回去了。后来一转念,数学天赋我没有,但刻苦这件事是可以做到的。为了向老师请教学习方法,我每天帮老师擦黑板(微积分上了三学期,我擦了整整三学期黑板),并把能找到的数学习题集都做了一遍。期末考试前,我做过的草稿纸,垒起来已足足有10公分高,但心里仍然是没底。老师说:你如果再不及格,我就放过你(这句话更多是为安慰我,后来才听说这位老师是名捕之首!)。结果是我考了98分,在半个小时之内做完了所有的题,许多题目熟悉得甚至不用算就知道答案。从那时候我就觉得,在清华混,努力是个很重要的因素。

    技术人攻略:你未来一到两年的计划是什么?

    我明年博士毕业,导师是国内人工智能领域的专家李德毅老师。他教导我做事要有载体、要思路清晰、要坚持,对我影响很大,完全能跟我长辈相提并论。

    我现在大部分时间都在忙无人车。希望能在未来几年,把无人车做到世界顶尖,让中国自己的无人车在国际上占有一席之地。

    毕业之后打算继续搞科研,通过一个载体,把自己的模型放上去不断优化。我不想完全去做产品,产品导向会有KPI要求,被虐成渣会影响家庭辛福。而且做科研可以经常换一些话题,新的事物一旦出现,就可以转过去。但做产品可能三、五年都得耗在一条产品线上,世界在变化,好多好玩的事情不断在发生,就没办法去做了。

    我是一个比较胆小的人,不适合一个人创业,让我抛下身家冒险,我做不来。如果有一个好朋友,他又对项目很有信心,我在里面帮他做一部分力所能及的事倒是可以。

    我也搞不了偏商业化的东西。曾有人找我做高频交易机器人,但那不是我的兴趣所在。一旦你进入一个高频交易所,每天给他们写脚本,但那件事情并不是你想做的。只是你有的那块技术正好变成了他们比较重要的一块积木,上面和下面的积木都会挤压着你,带着你走向一个你不知道是什么样的地方。我想做一块独立、自由的积木,最好是变形金刚那种,最好周围的积木也不太规则,这样大家就不会完全拼在一块儿,求同存异,会更有趣。

    作者介绍:技术人攻略访谈是关于技术人生活和成长的系列访问,由独立媒体人Gracia创立和维护。报道内容以“人”为核心,通过技术人的故事传递技术梦想;同时以小见大,见证技术的发展和行业的变迁。在这个前所未有的变革时代下,我们的眼光将投向有关:创造力、好奇心、冒险精神,这样一些长期被忽略的美好品质上。相信通过这样一群心怀梦想,并且正脚踏实地在改变世界的技术人,这些美好的东西将重新获得珍视。

    联系方式 gracia@devlevelup.com  微博: @技术人攻略

    订阅:微信搜“技术人攻略”或“dev-levelup”