2019年末，10 位院士对 AI 的深度把脉（下）

点击数: 2132　发布时间: 2020-02-17 12:07:21

站在2019年年末，这或许是本年度国内对人工智能最后也是最大的一次把脉。

2019 年 12 月 20 日，由鹏城实验室、新一代人工智能产业技术创新战略联盟主办的为期两天的「新一代人工智能院士高峰论坛」在深圳开幕。

这次会议延续去年强大的院士阵容，今年邀请了多达 10 位院士以及诸多人工智能领域学术和企业界的顶级专家，从各自的领域深度剖析了人工智能领域的发展现状和未来值得探索的方向。

继上次 AI 科技评论发表了蒲慕明、高文、张东晓、赵沁平、吴建平几位院士及产业专家汤晓鸥、王海峰等人对人工智能的深度把脉之后，

这次AI科技评论将分享张正友、颜水成、孙剑、陈熙霖、李世鹏和夏勤几位业界人士对人工智能的深度见解，同时，也有五位院士

中国工程院院士、同济大学校长陈杰

中国工程院院士、广播电视技术专家丁文华

中国工程院院士、通信与信息系统专家王沙飞

中国科学院院士、激光与光电子技术专家王立军

德国汉堡大学信息学科学系教授、德国汉堡科学院院士张建伟

对未来中国人工智能发展的展望与建议。

我们一起来看。

1、张正友：机器人的智能演进

腾讯 AI Lab & Robotics X 主任，ACM、IEEE Fellow 张正友博士作为下午场的首位报告嘉宾，带来了主题为《机器人的智能演进》的报告。

腾讯 AI Lab & Robotics X 主任，ACM、IEEE Fellow 张正友

正式进入报告前，张正友回忆起去年同样是高文院士邀请他人工智能院士高峰论坛做报告，而今年高文院士再度邀请他时，还强调了一句话「一定要做最新的研究报告」。他笑着打趣：「我估计他是想来考考我，想看看我这一年多来到底有没有取得一些研究进展。」

「人工智能目前还是初春，还不是非常智能，存在很多问题。」话落下，他便以摄像机无法识别遮挡镜头的假图像为例指出目前人工智能还只是从大量标注数据学习，泛化能力较差。

他认为，随着传感器技术发展与充分应用，人与智能化机器人共存的时代必然会来临，这也是他选择回国加入腾讯创建 Robotics X 机器人实验室的重要原因。

张正友博士接着介绍了机器人的 6 个组成部分，包括本体、感知、执行器、动力系统、交互系统、决策。机器人的未来趋势是自动化、智能化，要在不确定的环境中自主决策。针对机器人的自主决策，他提出了 SLAP 范式，即传感器和执行器要紧密结合，在学习和计划模块的帮助下提升能力、做出决策。

针对智能机器人技术未来的突破点，他再度提及去年分享过的「A2G 理论」，其中 ABC 是代表了机器人的基础能力，A 是指机器人能看、说、听以及理解，B 是机器人本体，C 是自动控制；而 DEF 是指更高一层的机器人能力，D 是进化学习，E 是情感理解，F 是灵活操控；最后一层——G 则是表示守护人类。这对更先进、更智慧的机器人提出了要求，而机器人的最终目标是要服务于人。

最后，张正友表达了对机器人发展的愿景，那就是人机共存、共创、共赢，为此，需要从「用机器人增强人的智力、关怀人的情感、发挥人类体能潜力、实现人机协作」四个方面来创建这种未来。

2、颜水成：Transform AI into Affordable Intelligence

同样是二次出席人工智能院士高峰论坛的报告嘉宾还有依图科技首席技术官，IEEE、IAPR Fellow 颜水成博士。他在主题为《Transform AI into Affordable Intelligence》演讲中，指出了让人工智能变为「Affordable Intelligence」所面临的挑战，并从芯片和模型的角度分享了一些工作进展。

依图科技首席技术官，IEEE、IAPR Fellow 颜水成

颜水成提到，一个 AI 创业公司以及大厂 AI 实验室的核心使命是实现 AI 的真正落地，这就需要解决两个方面的问题：

第一个是算法，一方面是要保证算法「可以用」，即精度足够高，能够真正解锁一个场景；另一方则是算法要「足够用」，因为现在很多场景仅凭单模态的算法已经无法提供用户满意的解决方案。

第二是算力，一方面是要让用户「买得起」，比如用于支撑计算的 AI 芯片，它的并发性能要足够高；另一方面是要让用户「用得起」，即这种算力要保证功耗足够低，不然即便用户买回家也可能因为数据中心的电费过高而无法使用。

随着人工智能在越来越多的场景中得到使用，而随着技术上已经达到可以用的阶段，现在除了对算力和算法的要求越来越高，也更多地从「Affordable」的角度去考量。

颜水成博士进一步指出，研究表明，训练和测试人工智能模型所需要的算力，每三个半月就会翻一番，这个比摩尔定律已经快了很多。正如今年刚开完的 NeurIPS 会议上，大家比较关注的一件事情就是：当 AI 应用得越来越多，其带来的电力消费也越来越高，这会不会对环境产生影响呢？

所以要真正让 AI 在一个场景落地，最关键的两个引擎是：

第一个引擎是高效能的 AI 模型，这是算法的维度。要想获得一个高效能的 AI 模型有两种做法，一种是基于不同 Motivation 的模式，另一种是基于 NAS（神经网络架构搜索）的模式。针对这一点，主要是希望能够解决研究和应用中的「Affordable」问题。

第二个引擎是高效能的 AI 芯片，这是算力的维度。针对这一点，芯片厂商首先要遵循算法和芯片原则，确保芯片在足够大的使用场景中达到很高的效能；其次要预测领域中最前沿的算法发展趋势，确保接下来几年时间这款芯片能「发挥所长」；最后要让用户的建设成本足够低并用得起。

最后，他总结道，AI 在越来越多的场景得到应用，并且追求的精度和目标越来越高，这就对算法和算力提出了越来越高的要求。而这时，AI 的「Affordable」问题就会变得越来越重要。

并且，如果要把 AI 转换成「Affordable Intelligence」的话，高性能的 AI 模型和高性能 AI 芯片则是推动这一转换的双引擎，只有这样才能让我们最终的用户能够「买得起」和「用得起」。

3、孙剑：视觉计算的前沿进展

旷视首席科学家、何梁何利基金奖获得者孙剑博士以《视觉计算的前沿进展》为题，重点从卷积神经网络和计算机视觉技术本身介绍了计算机视觉的研究历程与进展。

旷视首席科学家、何梁何利基金奖获得者孙剑

卷积神经网络开始得比较早，上世纪 80 年代日本就有教授提出这样的概念，并得以发展。而后续针对卷积神经网络的研究工作，主要围绕四个问题开展：

第一个是神经网络的卷积问题。现在大家用的比较多的是 3×3 或 5×5 的卷积，而卷积此前经历了 AlexNet 网络、GoogleNet 网络、Facebook 提出的 faster R-CNN、旷视科技提出的 ShuffleNet V1/V2 等等，当前最新的研究进展则是动态卷积/条件卷积。

第二个是神经网络的深度问题。这是困恼神经网络多年的问题，当网络的深度不够大时，就很难实现网络的训练。神经网络最开始的深度是 8 层，过了两年后增加到了 20 层，再之后微软提出的深度残差网络将深度增加到了 152 层，其采用残差网络的思想能够得到好的训练结果。

第三个是神经网络的宽度问题。当深度学习复杂度超过一个点时，模型越大，训练和测试的错误率反而会同时下降，跟我们传统机器学习的认知不同，这其实跟网络的宽度有关。目前比较新的两个方向：一个是从 Kernel 的角度着手，另一个是尝试剪枝的方法，例如 MetaPruning。

第四个是神经网络的大小问题。一般来说，在训练过程中神经网络的大小是不变的，然而研究发现，当在训练中让神经网络的大小变化时，能够实现更好的网络性能。

针对计算机视觉技术本身，孙剑博士则重点选择了目标检测这一方向，分享了目前研究中所存在的一些问题和进展：

第一，当图像中的物体隔得很近时，检测技术就无法精确检测到单个物体；

第二，计算架构的设计问题，对此，旷视提出了轻量级的两阶段目标检测器——ThunderNet，设计了多尺度架构的融合，在 ARM 设备上的运行速度非常快。

最后，孙剑还指出了计算机视觉应用中的几个最重要并且投入最多的关键问题：

第一，火灾等特殊场景的数据非常难收集，并且很难通过数据增强的方式获得；

第二，对于新的研究方法如自监督方法的需求；

第三，遮挡问题，虽然现在对此也有一些工作进展，但是深度学习还无法完全解决这个问题；

第四，深度学习和计算机视觉技术还无法很好连续追踪同时处于动态的多个物体；

第五，视觉控制问题，比如说现在还无法通过视觉反馈来连续控制机器人或机械臂；

第六，现实应用中要实现低成本、易部署以及安全面临的挑战还很大；

第七，现有方法还无法实现高精度的预测问题。

4、陈熙霖：迈向可理解的计算机视觉

中科院计算所研究员，ACM、IEEE、IAPR Fellow 陈熙霖本次也作为报告嘉宾，带来了主题为《迈向可理解的计算机视觉》的报告。他在报告中也从他的视角分享了计算机视觉领域存在的一些问题以及针对这些问题自己所做的一些探索工作，并对于计算机视觉的未来发展给出了自己的想法。

中科院计算所研究员，ACM、IEEE、IAPR Fellow 陈熙霖

他指出，计算机视觉从提出概念到现在已有差不多半个世纪，主要历经了马尔计算视觉、主动和目的视觉、多视几何与分层三维重建、基于学习的视觉这四个阶段。该领域虽然取得的进展很明显，然而也带来了一些问题，就比如评测基准的出现。

「之前大家在研究上彼此之间没有比较，即便发了论文，但是结果可能在原地踏步，于是后来有了评测基准，然而带来的一个坏处就是，现在的研究者尤其是学生就只顾着去「刷榜」了，这其实并不是在做真正的研究。所以这是一个很大的问题。」

他认为，在做计算机视觉研究上，不仅要知道 What 和 Where，还需要知道 How、Why、When 等等。除了研究方法上的问题，当前计算机视觉研究还面临着两大严峻问题，

一是研究处于一个「封闭的世界」，这既体现新数据无法得到及时更新，无法从其他领域借用知识，也无法真正理解物体之间的真正联系；

二是无法很好地处理开放世界的问题，比如说无法区分现实世界的语言和语义上的区别等。

针对这些问题，陈熙霖在可解释性决策模式，概念空间、语义空间、可视空间之间的相似性，可迁移的对比学习以及利用上下文方面进行了一系列探索和工作。

最后他总结道，过去 50 多年时间里，计算机视觉在应用上实现了很多成功，那未来将如何呢？——未来计算机视觉研究会朝着可理解的方向发展，即技术背后的知识会扮演更加重要的作用。

5、李世鹏：万物互联，集智过人

国际欧亚科学院院士、深圳市人工智能与机器人研究院副院长、IEEE Fellow 李世鹏在题为《万物互联，集智过人》的演讲中，重点回顾了 IoT（智能物联网）到 AIoT（人工智能物联网）再到 IIoT（智物联网）的发展历程。

国际欧亚科学院院士、深圳市人工智能与机器人研究院副院长、IEEE Fellow 李世鹏

李世鹏认为，抛开其他因素，现在的人工智能时代主要包括四个基本因素：AI、人、机器人和 IoT。其中，人是处于中心的因素，人跟智能的交互叫人机耦合或者是人机协作，人跟 IoT 结合在一起是物理的智能，人跟 AI 放在一起就是虚拟的场景。

而整个 IoT 的发展历程可分为三个阶段：

第一个阶段是 IoT 最基本的阶段。所有能连上网、能传送数据的设备都叫 IoT 设备，主要是关注在设备之间的连接问题、数据的采集跟通讯的问题。人则主要通过指令命令或者遥控跟 IoT 设备进行交互。这个阶段的智能程度很低，基本上只能做 IFDtt 这种类型的条件控制。

第二个阶段叫做 AIoT，这个名词并不是国际提出来的，是一个中国特色的概念。上一阶段的 IoT 基本没有智能，对数据的应用也很简单或者只停留在表面，而这个阶段则对 IoT 产生数据进行智能处理。一方面，用户对 IoT 设备的交互变得越来越智能；另一方面，对采集的数据不仅仅停留在原始数据的解释方面，而是把数据结合在一起，然后形成一些新的知识。在这个阶段，AIoT 总有一个集中的控制器来控制所有的 IoT 设备，因为它需要这样一个大脑来进行总体的控制。

第三个阶段也就是 IIoT（智物联网）。在上个阶段，独立的智能物体本身有一定的智能，而且在很多时候可以独立运作。而这个阶段要探讨怎样把有智能和独立的智能体之间的智能联合起来以及联合在一起又能形成什么智能呢？人和机器之间的关系成为了比较平等的合作关系。

李世鹏认为，IIoT 带来的聚合智能的演变正在发生，这一趋势可能会打破人工智能行业的一些现有障碍，并最后可能为未来基于因果关系的 AI 框架铺平道路。

6、夏勤：云大为美——高性能计算芯片的现在和未来

华为海思首席芯片规划师、海思图灵产品管理部部长夏勤以《云大为美——高性能计算芯片的现在和未来》为题，分享了关于高性能计算芯片的现在与未来的思考，并以华为的昇腾芯片和鲲鹏芯片为例，探讨了高性能芯片设计方面的问题。

华为海思首席芯片规划师、海思图灵产品管理部部长夏勤

院士、同济大学校长陈杰主持。中国工程院院士、广播电视技术专家丁文华，中国工程院院士、通信与信息系统专家王沙飞，中国科学院院士、激光与光电子技术专家王立军，德国汉堡大学信息学科学系教授、德国汉堡科学院院士张建伟四位院士，结合当日主题演讲内容各抒对未来中国人工智能发展的展望与建议。

丁文华院士：此次大会内容丰富，体现出中国人工智能在各领域都有了非常大的进展。今年的演讲内容涉及算法、应用、资源，大家都在各自研究方向上实现了突破。我相信通过鹏城实验室这个平台，能够聚集全国乃至全球的人工智能领域的高端专家和人才共同交流和推进整个人工智能技术的发展。

王沙飞院士：我认为现在整个人工智能的发展还需要经过一个漫长的阶段，有这么几个方面的挑战和问题：

第一，现在人工智能的技术在落地应用场景时，在智能推理方面还存在很多问题，人工智能还很难像人一样对未知的场景或者目标进行智能推理。

第二，可解释性问题。现在 AI 可以计算海量大数据并且能够实现一定的感知，但是得出的结果是否正确呢？或许未来我们可以通过加入人的经验来改善这个问题。

今天听各位专家的报告很受启发，我认为通过各位同仁的努力，可以让人工智能突破基础研究上的难点并获得更好的应用。

王立军院士：我主要研究激光芯片，近几年随着人工智能、信息感知的发展，也向通讯和信息感知（光电集成芯片）开展研究。我研究激光芯片几十年，有一些自己的体会。

国内芯片这些年发展比较缓慢，并且还处于受限于人的阶段，为什么会出现这样的局面？有以下几个原因：

第一，芯片在研制过程中需要的设备费非常巨大，一般单位承受不起；

第二，在时间上，做芯片需要踏踏实实几年甚至是十几年的功夫才能搞定的；

第三，我们最近几年都追求尽快出成果，当然本意是好的，但是有些东西要尊重事实，像这种大投入、见效慢的，一些政府机构可能不是很愿意投的；

第四，做芯片的研究者尤其是年轻人也更愿意去投入一些见效快，马上能出成果、出文章的研究。

现在我们国家意识到这些问题，也采取了一些举措去攻克芯片问题。我相信几年后，我们国内在芯片这一块会有重大的突破。

另外针对信息感知，我个人认为下一步在光电、混合集成芯片方面是一个很重要的方向，它既把集成电路的技术和集成光学的技术进一步集成，还把感知的软件和光学的东西集成到一起，进一步提高了可靠性，会对 AR 产业有很大的推动。

张建伟院士：首先热烈祝贺鹏城实验室在一年多内取得这么大的成就，定义了未来几个重要的方向之后，组织各方各业的研究者从交叉的角度来解决国际民生的重大问题，已经成为了吸引产学研最高端人才聚集交流和头脑碰撞的很重要的平台。

今天听了各位的报告后，我还想再强调几点：

第一，打基础。今天有专家谈到了多模态的技术，从脑科学多模态的处理、芯片多模态的处理、图像识别、图片理解等等，多模态信息处理成为人工智能一个核心技术，也非常值得我们进一步开发和研究。我 5 年前组织的跨模态学习项目就是中、德之间最大的研究项目，从脑科学、心理学、人工智能、机器人等多方面来组织研究人的多模态学习机制，然后做新的算法，最后用机器人来实现。

第二，人工智能下一步如何落地。我认为除了提供人工智能基础平台之外，下一步要真正融入需求和垂直领域，深度融合，把加工链做深做长，做成世界级的知识产权和世界级的市场，使人工智能的价值更快产生。

第三，公共平台交流、生态打造以及社会影响。现在地方政府也对开源和为企业提供平台越来越重视，我认为在深圳这块创业热土上一定能作出新的世界级的人工智能 Demo 样机。

本文分析自微信公众号-Ai科技评论