2020 年 8 月 7 日,第五届全球人工智能与机器人峰会CCF-GAIR 2020)在深圳正式开幕。

 

CCF-GAIR 2020 峰会由中国计算机学会(CCF)主办,香港中文大学(深圳)、雷锋网联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办。

 

作为中国最具影响力和前瞻性的前沿科技活动之一,CCF-GAIR 大会已经度过了四次精彩而又辉煌的历程。

 

在第二天的人工智能前沿专场上,澎思科技首席科学家、新加坡研究院院长申省梅以“迁移学习”为主题发表了精彩演讲。

 

申省梅从传统机器学习的痛点、深度学习带来的突破、深度迁移学习、迁移学习中用到的一些技术和实例方面进行了分享,并分析了迁移学习在视觉智能方向上的应用需求。

 

传统机器学习的痛点之一是泛化能力差,原因之一是它使用手工特征,靠设计者的经验得到,并无法掌握数据中的非线性变化,每种特征只能对特定的场景或特定的任务才有效。泛化能力差导致鲁棒性差,落地成本高,用户满意度差。

 

另一方面,深度学习模型为计算机视觉带来的突破,也是在给定的数据集上训练出来的,可以很好地反映给定数据的特点。而给定的数据集仅仅代表了某一领域。尽管在这些特定数据集训练的模型具有很高的准确性,远远超过传统机器学习,但在新的场景下它的性能无法维持,并且在用于新任务的时候可能会导致性能显著下降。深度学习的突破仍然取决于数据。

 

另外,申省梅还指出深度学习 AI 落地痛点:

1、感知环境及应用场景的千变万化:天气、光线、角度、遮挡等因素变化导致成像质量不同并且质量不佳;训练数据与落地场景的不一致导致 AI 模型性能陡然下降;

2、重新训练模型需要大量的 AI 专业人才来完成,周期长成本高见效慢,已经成为 AI 普惠的障碍;

 

3、AI 人才的短缺以及成本昂贵会阻碍企业采纳人工智能以及它带来的效益。

 

通用智能是下一代 AI 发展的必然趋势,申省梅表示,澎思会在迁移学习、无监督、自监督学习、小样本学习、多模态学习这几个真正反映 AI 落地实际情况的领域里面落地生根。

 

以下为申省梅的现场演讲内容,雷锋网 AI 掘金志作了不改变原意的编辑及整理:

大家好,我是申省梅,澎思科技首席科学家,也是新加坡研究院的负责人,我今天的主题是“基于迁移学习的视觉智能发展与应用”。

 

我会从传统机器学习的痛点、深度学习带来的突破,以及深度迁移学习、迁移学习中用到的一些技术和实例做分享,也会给大家展望一下迁移学习在视觉智能方向上的应用需求。

 

 

传统机器学习的痛点:泛化能力差

 

 

传统机器学的痛点就是泛化能力差,原因之一是它的特征不是针对数据的自适应性,它是用一个手工特征预先经过很多先验知识得到的 HOG、LBP、SIFT 这样的特征,再进行提取特征的。不像深度学习能够用深度神经网络自动地提取。

 

由于泛化能力差,在实际落地的时候,鲁棒性也会差,导致每次训练好的模型在换场景时,全部都需要重新搜集数据训练,落地的成本非常高,用户的满意程度也很差。

 

在传统机器学习时代,也有一个很好的 Benchmark 数据库,叫 PASCAL VOC。学术界、工业界都在上面训练,测评自己训练的模型。我们在 2010 年到 2012 年期间与新加坡国立大学的颜水成团队一起打比赛,并且获得三年的冠军。这个比赛包括目标的分类、检测和分割。

 

当时另外一个 Benchmark 的比赛叫 VOT Tracking,是一个视觉跟踪任务的国际比赛,2013 到 2014 年我们也获得这个比赛的冠军。这个性能评价不仅仅包括跟踪的精度,还有跟踪的速度、鲁棒性以及实现的复杂性。我们的冠军模型可以在当时的英特尔 i5 上跑到每秒 200 帧以上。

 

 

深度学习带来的突破:仍取决于数据

深度学习能够解决泛化性和鲁棒性,并且精度大幅度提升,所以 2013 年《麻省理工科技评论》把深度学习列在十大技术的突破之一。

 

我们当时也意识到深度学习可以让机器学习更加逼近人的大脑智能:它不仅是精度从 95%升到 99%,更是一个商业模式的改变。它可以实现过去很多不能实现的东西,能够挖掘出比人类大脑更智能化的东西。最近这几年,风险投资公司投入了很多,尤其是在深度学习和计算机视觉领域,我们也看到了越来越多这方面的技术得到落地。

 

深度学习带来的突破,我们都不会忘记最大的贡献者,ImageNet 数据库。由于它的量很大,标注干净,噪声少,吸引了大量的研究机构在上面进行模型训练和比赛。

 

最早开始的机器学习还只能够达到 70%多的准确率,26%的分类误差。接下来的四五年内,准确率越来越高,很快就超越了人眼判断的精度。当时大家都认为 ImageNet 是计算机视觉年度的奥林匹克大赛。

 

除了大数据很重要以外,算力也非常重要。如果没有提取大数据的超级算力,没有 GPU 的算力,没有这些耕耘在深度学习网络的开拓者们,大家不会看到今天的变化。

 

澎思在各个行业耕耘时发现,产业对计算机视觉技术要求、性能要求非常高,我们很快就在不同的需求下开发出自己的人脸技术、行人技术、车辆技术、人机非技术、人群分析、行为识别、图象增强恢复技术,以及声纹和指纹技术,还有自主导航、3D 重建的技术。在这之前,通过传统机器学习,大部分的技术都能实现,但是使用深度学习后,性能极大提升,澎思也以此将自研的计算机视觉技术应用在自家的很多产品和各个落地业务当中。

 

澎思科技在成立短短的两三年中,15 次取得了国际比赛冠军,也刷新了各种权威数据集的世界纪录。去年 ICCV 的轻量级人脸识别挑战赛的 4 个赛道中,我们在三个赛道的成绩都是名列第一。

 

澎思 AIoT 的蓝图中,深度学习算法可以应用在智慧楼宇、智慧社区、智慧园区、智慧工厂等多个场景中,中间一层是澎思的算法,不仅仅用在服务器端,即澎思云端,也应用在边缘端和前端智能设备。

 

深度学习模型,比如 CNN(卷积神经网络)为计算机视觉带来很大突破,但它也是在给定的数据上训练出来的,可以很好地反应给定数据的特点。

 

而给定的数据集仅仅代表某个领域、某些场景、某种特定任务,比如 CCTV 监控下的自然图像领域、户外场景、任务是人脸识别、行人再识别和行为分析。

 

尽管在这些特定数据上训练的模型具有很高的准确性,远远超过传统机器学习,但在新场景下它的性能会下降。举个简单的例子,比如它的人脸识别是针对亚洲女性,就很难把这个模型应用在男性甚至是白人女,或者是儿童的识别上。

 

 

深度学习还是完全取决于给定的数据。也因此,目前依然存在着 AI 落地的痛点:

 

1、感知环境及应用场景的千变万化:

相机在各个环境下捕捉到的图像,随着天气、光线、角度、遮挡等因素变化、成像质量也不同;

 

训练数据与落地场景的不一致导致 AI 模型性能陡然下降,比如在路面架着相机捕捉的行人、车辆和无人机捕捉的形状是非常不同的。

 

2、重新训练模型需要大量的 AI 专业人才来完成,成本高、周期长、见效慢,已经成为 AI 普惠的障碍。

 

3、AI 人才的短缺以及成本昂贵会阻碍企业采纳人工智能以及它带来的效益。

 

澎思的使命就是“AI 即服务”,在澎思的 AIoT 的平台,通过“AI 服务+AI 功能定制终端”的技术部署,形成一个闭环生态,从而解决这些痛点。

 

深度迁移学习:AI 大规模落地的希望

迁移学习并不是新的概念,在 1995 年 NIPS 的研讨会上大家就讨论过如何归纳系统的知识,整合并迁移到新的领域,在 2016 年的 NIPS 上,吴恩达教授在他的演讲里面也强调了下一个深度学习重要方向应该是迁移学习。

 

 

 

这是我们的迁移学习平台,我们专注在某个任务上训练出一个很好的预训练模型,当然数据量是一个很好的条件,我们可以进行在线迁移学习、在线优化,自动下载到边缘端。当目标域的数据出现各种各样的情况时,我们会选择不同的迁移算法。比如无监督学习、自监督学习、小样本学习,以及 GAN 的迁移,还有多任务的学习,以及原域到目标域的映射,到新领域的一些迁移学习。

 

刚才提到一个很重要的迁移条件,预训练模型。如果有一个很好的预训练模型,任务就具备了很好的完成条件。ImageNet 在计算机视觉领域在图像分类 / 目标检测 / 分割中有着无法撼动的地位,从李飞飞等人在 CVPR2009 发表的论文以来,很多人在 ImageNet 上训练出越来越好的模型,受惠于各行各业。比如从 2012 年开始的 AlexNet,后来有 VGGNet、GoogleNet、ResNet、DenseNet,ResNeXt,这些模型大家今天都还在用,我们在场景下可以进行预训练的方式,在这个场景上应用后,可以迁移到新的域。

 

这是一个应用案例,比如在某个特定的场景下需要高性能无人看管包的检测,通过预训练模型(人的检测、包的检测),应用迁移学习的框架,使得在迁移学习框架上性能从 30%达到 98%以上,加上其他的算法,就可以做到高性能的无人看管包的检测。

 

另一个例子是人脸识别,如果有一个很好的预训练模型,但训练数据里,只有很少的儿童人脸识别,或者不同肤色人脸的识别、暗光的识别,就可能存在性能下降,所以迁移学习可以在特定的情况下达到源域一样的性能,并且在源域的场景下,性能不打折扣。

 

 

另一个研究热点是行人再识别。人脸识别之后,人们想用行人再识别,从图像和外貌上寻找并鉴别是否是同一个人,在应用上我们叫跨相机场景下搜寻一个人。但是不像人脸和指纹,人体是非刚性的,受相机的角度、光线遮挡、分辨率变化,行人姿态 / 遮挡不同影响,它的因素是在变化的,到底人体的哪些特征是专属一个特定人的,没有一个确定的独特性。行人图像在监控下千变万化,使得这个课题在计算机领域还是极具挑战,也是一个研究的热点和难点。

 

2019 年 7 月份,澎思科技在行人再识别三大主流的测试数据上得到了业内最好的成绩,刷新了世界纪录,去年 8 月份我们又在基于视频的行人再识别数据库上再次取得了突破性的进展,刷新了历史纪录。

 

这些都是同一个域、同一类数据集取得的成绩。当跨数据集或者跨域时会有什么问题?比如说在 Duke 上训练出的模型,你要运用在 Market-1501 上,直接跨域,得到的数值是 17.5mAP,如果进行迁移学习,可以提升到 54.1 以上。今年 6 月份在一个 ReID 的比赛上,澎思科技通过迁移学习,在三个数据集上都取得了很好的成绩,大幅提升了跨域 ReID 算法的准确率。

 

本次比赛,澎思创新性地将对抗生成网络与自监督学习算法结合进行模型训练,通过迁移学习,进行高准确率的跨场景(数据库)行人再识别算法研发。

 

对抗生成网络在算法中主要有两个功能:

 

一方面,进行数据库的域迁移,具体为原域到目标域的风格迁移;另一方面,进行目标域数据库的数据增强,具体为生成跨摄像头数据并给模型赋予相机风格不变的约束。自监督学习则是通过聚类的方式给目标域数据库打虚拟标签并微调之前训练好的网络。

 

澎思在今年 6 月举办的 CVPR 2020 的一个跨域小样本挑战赛上也拿到了很好的成绩。

 

传统的机器学习和现在的深度学习都依赖大量的标注数据,并在监督下训练出表现优异以及具备较强泛化能力的模型。最大的痛点是数据标注费时费力,训练数据对应的场景和实际应用的场景不一致,这成为人工智能落地和广泛普及的一大障碍。在此背景下,迁移学习和小样本学习成为近年来研究的前沿热点。

 

这个小样本挑战赛设计的前提是,目标域条件是样本无法标注,且只有少量的样本(5、20 或 50 个样本),目标域常与原域不同,而且标注数据非常耗时费力,尤其是一些医学图像,需要医生专家的监督下来标注。在此情况下,他们设计的原域是自然图像,怎么样通过迁移学习和小样本学习方式,让它能够在 4 个不同的域上,比如说农作物的疾病、卫星图像和皮肤病变,以及胸部 X 光上达到很好的性能。

 

这是我们的成绩,可以看到在农作物疾病上,在仅有 5 个样本的情况下,迁移达到了 96%的性能,随着样本的增加,到 20、50 个样本时,可以达到接近 99%的精度。随着跨域越来越大,性能会下降,当样本越来越多,性能也会相应的提高。平均的情况下,我们比 Benchmark 的 67%多了 7%,我们的结论是 73.78%。在这个比赛中,我们用了一个框架叫元迁移学习+图网络,可以用在各种前端网络。

 

 

多任务学习,在人脸属性上,先在已有的源数据集(多种属性)训练一个对人脸属性有好的表征性的模型,由于在我们要求的目标域的任务上,这个模型的数据没那么多,但是我们利用了这个预训练模型的泛化性,在目标域的多个任务上进行了优化,使得它能够达到多个任务高性能的指标。

 

另外一个例子是在各种各样的摄像头角度下异常行为的检测,比如说打架,各种各样角度的打架,不同的表现方式、不同的光线,怎么样训练出来一个好的模型,使它能够在不同的目标域上进行快速地迁移。

 

前沿算法研究以实现 AI 快速落地

通用智能是下一代 AI 发展的必然趋势,代表智能革命的未来。所以澎思会在迁移学习、无监督、自监督学习、小样本学习、多模态学习这几个真正反映 AI 落地实际情况的领域中落地生根。

 

我们的核心算法方向就是基于应用场景开发一站式服务,从场景的理解到解决方案,利用我们的算法池和工具箱,与前端设备、数据库来进行端侧和上云管理的优化,以及云计算的 Cluster,让我们无论是在云端算法还是边缘端的算法,都有很好的一站式服务。

 

澎思的目标是在算法技术上走在国际计算机视觉的前沿,基于 AI 落地为主的前沿技术开发,建设云端 AI 在线迁移学习平台,加强端侧 AI 轻量化的设计体系,推动以用户价值为导向的 To B/To C 产品创新。

 

最后展望一下迁移学习在视觉智能当中的应用需求。计算机视觉领域的预训练模型目前还是不够泛化、不够鲁棒,拿行人再识别做例子,在现有的数据上都无法在跨域当中提高到可用的性能。在现实的应用场景下,ReID 的标注也是非常费力、耗时的,希望能够在无标签、少标签的情况下,迁移学习能够大幅度的提高。另外一个跨域场景的人的行为检测,可以看到很多现实问题还待解决,希望迁移学习能够在接下来 AI 落地和惠普进程中有更多突破。