腾讯汤道生：计算机视觉发展或将开启AI“寒武纪”--人工智能技术网

腾讯高级执行副总裁汤道生

腾讯《一线》卜祥

9月6日，腾讯优图联合国际顶级期刊《科学》（Science）杂志共同举办了一场计算机视觉峰会。会上，腾讯高级执行副总裁汤道生表示，计算机视觉在人工智能的发展中占据关键地位，如果我们在计算机视觉领域取得重要突破，或将推动人工智能迎来质变。

汤道生披露了接下来腾讯在计算机视觉领域的布局：将优图实验室正式升级为腾讯计算机视觉研发中心，持续加码计算机视觉技术的研发投入，不设KPI；此外，优图实验室还和《科学》杂志达成了战略合作，探讨通过学术奖金、产学研交流等多种形式，整合全球科研资源，在人工智能前沿研究领域展开广泛合作。

未来腾讯还会进一步联合全球产、学、研各方力量，持续推动计算机视觉技术的发展。同时，腾讯优图的技术成果也会通过腾讯云平台开放给产业上下游的合作伙伴。

他还表示，人工智能不仅要在技术实力上“跑高分”，也要在各个垂直场景落地应用，推动研究成果的转化，让科技普惠民生。优图实验室未来会深耕医疗、自动驾驶、工业、零售、办公、文化、社会公益等十大领域的应用。

以下是汤道生演讲实录：

大家好，欢迎各位来参加腾讯优图和Science联合主办的计算机视觉峰会。今天到场的嘉宾，很多是人工智能领域的科学家和专家学者，我们很荣幸能跟各位交流探讨。

本届大会主题叫作“Vision and Visionary”，聚焦在计算机视觉。中国这几年人工智能主题的大会很多，但是以计算机视觉为主题却不多。作为人工智能最基础和最重要的研究之一，计算机视觉对于人工智能意味着什么，我们为什么那么重视，以及未来将怎样推动计算机视觉的发展，我想谈三点思考。

第一、如果我们在计算机视觉领域取得重要突破，将有可能带来“人工智能大爆发”。

视觉对于人类有多重要？有一个数据，人脑有90%的信息是通过视觉获得的。甚至，对于目前已知的智慧生物而言，视觉都是最有效的认知手段。过去，人类通过视觉认知和开发这个世界；未来，人工智能也将通过计算机视觉，认知并协助我们改造世界。我们今天看到的无人机、无人车、AI医疗、太空探索等领域也将受益于计算机视觉技术的进步，取得巨大的突破。

最近有一项研究发现很有意思，是关于生命进化的历史。地球有生命存在的历史可以追溯到大约30多亿年前，但在之后很长一段时间，地球上只有一些生活在海洋里的无脊椎动物。直到5.4亿年前，生物物种突然繁荣，这个时期就是历史上著名的寒武纪大爆发。近期，有学者认为这种大爆发和视觉的出现有很大关系。动物进化出了视觉，具备了更强的改造世界的能力，也有了更复杂的行为方式。

目前，人工智能的形态也像大爆发前海洋里的“无脊椎动物”一样比较初级，AlphaGo、波士顿动力的机器人虽然已经是人工智能领域一流的水平，但是他们能处理的问题也很有限。我想，借由计算机视觉的发展，机器可能将突破认知瓶颈，让人工智能迎来“寒武纪大爆发”。

第二，人工智能不仅要在技术上“跑高分”，也要深入“跑场景”。这可以快速转化研究成果，助力产业高质量发展，也让科技普惠民生。

2012年以后，随着移动互联网的普及和应用，带来了数据量的井喷、计算能力的提升和机器学习算法的突破。直到前几年人工智能开始兴起，成为很火的话题。可以说，当前人工智能的几个主要分支：计算机视觉、语音识别、自然语义处理、机器学习等都已经达到了一定的原始积累水平。前两年，我们还经常看到各家公司说“我们的某某能力达到了96.88%，又提升了一个百分点”。但现在这种声音已经开始慢慢变少，人工智能已经开始进入到一个场景化深度发展时期。除了在基础能力上不断“跑高分”，人工智能已经在许多垂直应用场景技术落地，进入了“跑场景”时代。

优图是2012年成立的，刚开始就是一个研发团队。在6年的时间里，除了做基础的技术研发，我们还将产品运用到广泛的应用场景之中。今年，我们将以计算机视觉为核心，探索包括医疗、自动驾驶、零售、办公、社交娱乐、工业、文化、社会公益等领域的具体应用。

比如，在医疗场景，我们内部事业群之间深入合作，发布了一款“AI＋医疗”产品“腾讯觅影”，利用AI医学影像分析辅助医生筛查食管癌、肺结节、糖尿病视网膜病变、结直肠肿瘤、乳腺癌、宫颈癌等疾病，其中对早期食道癌的筛查准确率高达90%，已经在全国100多家三甲医院落地。到上个月，腾讯觅影已累计辅助医生阅读医学影像超1亿张，服务90余万患者，提示高风险病变13万例。不仅如此，我们还利用AI辅诊引擎辅助医生对700多种疾病风险进行识别和预测，累计辅助分析门诊病例650万份，提示高风险16万次。

在智慧零售的日常生活场景，今年5月，优图和微信支付合作刷脸支付系统正式在上海家乐福投入使用。这一场景应用融入了优图活体识别和1:1核身技术。这次投入应用的是腾讯优图的人脸识别祖母模型，能够判断面部的细微差别，1：1条件下可以实现十亿分之一的错误率。家乐福相对一般的零售场景，环境更为复杂，客流量更大，不同地方的光暗度挑战，是一个很好的应用场景。优图与腾讯云、每日优鲜联合推出的智能货柜，结合优图的商品识别算法，可以准确判断交易商品的种类与数量，消费者可以即拿即走，非常方便。

计算机视觉技术同样可以运用于公益。我们的人脸识别技术，能深度学习五官的变化规律，实现跨年龄人脸识别，最高可达到每秒5000万张检索对比速率。我们把这项技术放在QQ平台，用来寻亲。去年6月，这个项目成功帮助一个家庭找回了走失3年的18岁少年，凭借的是家人提供的一张孩子8岁的照片。

到目前为止，优图的技术积累和应用可以说取得了一些成绩，但只是这样是远远不够的，我们也在思索一些更长远的问题，这就说到了我要分享的第三点。

第三、我们希望机器不仅能“看得见”，还能“看得懂”，甚至未来还能帮人类“看更远”。这是很有挑战的基础研究工作，我们会有耐心地长期持续投入，不设KPI，希望能推动社会发展。

目前，世界上从事计算机视觉研究的公司主要在做两件事情：让机器识别世界，和让机器理解世界。让机器识别世界，包括对特定物体的识别，比如无人驾驶车辆看到的障碍物是石头还是树的影子，比如一张人脸是属于张三还是李四，再比如一张X光片里有没有需要医生重点关注的“阴影”。这是目前大多数AI公司都在做的事情，它考验的是识别的准确度。可能不需要太久的时间，主要的AI公司和机构在准确度上面的指标都会比较接近，至少是不会有质的差别。

而另一个目标，让计算机“理解”世界，这对技术是一个很大的考验，最终不同的AI公司和研究机构之间可能会拉开巨大的差距。腾讯在计算机视觉上接下来要做的事情，是基于自学习或半监督、弱监督的学习方式，让机器自动去学习自然世界的问题，通过图像或者视频分析有可能发生的事情。打个比方，停车场、电梯、家庭婴儿房的监控，目前需要人工去巡查监控视频、判断有没有突发状况，我们希望以后计算机视觉能“理解”它看到的状况，从而做出一些预警。

从识别世界到理解世界是一个质的飞跃，这需要相当的耐心和持续不断在基础研究上的投入。从今年起，我们将把优图实验室升级为计算机视觉研发中心，加强计算机视觉领域的人才招募、底层技术研发和应用场景探索，进一步聚焦到我们最擅长的计算机视觉领域。

同时，我们也很清楚，基础研究的研究和突破，往往超出了一个团队的能力和一家公司的实力，需要全球领域专家更开放的合作和分享。优图实验室诞生在上海，这得益于上海的国际化视野氛围和全球人才的积累，给了我们快速发展的动力。未来，我们将继续植根在这里发展，通过与深圳、香港和合肥的研究团队形成一个大的开放创新网络，携手全球更多的科学家和研究机构。

今天，我们和国际顶尖的期刊《Science》达成合作，共享在计算机视觉领域的资讯、资源和信息，通过产学研之间的无障碍合作，一起推动计算机视觉技术的发展。我们希望未来能够与更多的全球科学家展开合作，进一步提升计算机视觉的技术水平，同时也通过腾讯云来开放给更多使用者，将这些前沿技术输出给更多产业上下游的伙伴。

再过两个月就是腾讯的20岁生日了。腾讯是互联网科技发展的受益者，在技术领域的持续投入、在科技领域的不断探索，既是我们自身长远发展的需要，也是我们作为一家互联网科技公司应该承担的责任。未来，我们将持续在AI技术上进行投入，联合全球顶尖的合作伙伴，联动学术界、政府、企业一起，推动计算机视觉技术发展、技术应用和科技知识的普及。让能够“看得见”、“看得懂”的计算机视觉能力，帮助我们面向未来”看得更远“。

这个过程中，离不开在座各位的支持与帮助。我代表腾讯公司，再次感谢大家的参与与支持，谢谢！

继续阅读：

人工智能技术网倡导尊重与保护知识产权。如发现本站文章存在版权等问题，烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至1851688011@qq.com我们将及时沟通与处理。！：首页 > 新闻 » 腾讯汤道生：计算机视觉发展或将开启AI“寒武纪”

相关推荐