联想CTO芮勇：我们在AI上是如何转型和布局的？

发布时间：2021-07-24 15:57:19 所属栏目：大数据来源：互联网

导读：芮勇博士在 2016 年 11 月正式从微软亚洲研究院卸任常务副院长职务，担任联想集团首席技术官、高级副总裁，负责联想集团技术战略和研发方向的规划和制定，并领导联想研究院的工作。2017 年年底，芮勇博士凭借对图像、视频和多媒体分析、理解和检索的贡献当选

芮勇博士在 2016 年 11 月正式从微软亚洲研究院卸任常务副院长职务，担任联想集团首席技术官、高级副总裁，负责联想集团技术战略和研发方向的规划和制定，并领导联想研究院的工作。2017 年年底，芮勇博士凭借对图像、视频和多媒体分析、理解和检索的贡献当选 ACM Fellow。

在任职联想 CTO 的一年多时间内，如芮勇博士所言，联想正在进行「from device/infrastructure only to device + cloud and infrastructure + cloud powered by AI」的转型。目前联想研究院在人工智能的发展上存在哪些优势，芮勇博士所擅长的多媒体计算领域又将如何与联想的产品与业务相结合?

雷锋网 AI 科技评论近期与芮勇博士进行了一次专访，结合国际计算机学会(ACM)对芮勇博士进行的采访内容整理成文，并做了不改动原意的编辑和删减。

您是怎样进入多媒体计算研究领域的?

在我读本科和硕士的时候，我的方向是控制理论和大规模系统优化。这些专业知识对我后来在多媒体领域的研究工作，比如「相关性反馈 (relevance feedback)」，神经网络和深度学习等，都发挥了重要的作用。

在伊利诺伊大学厄巴纳-香槟分校读博期间，我开始从事多媒体分析和检索的研究。那时，互联网还处于幼年时期，Web 浏览器刚刚出现，而搜索引擎还没有诞生。在那个时代，图像搜索的概念相当超前。

当时我遇到了一个很好的机会。美国国家自然科学基金会设立并资助了「数字图书馆」项目。我有幸参与其中。我把控制理论，信息检索和计算机视觉这三个领域融合起来，进行了深入的跨学科研究，最终，我成为第一批基于相关性反馈实现图像搜索的研究者，为图像搜索创造了一种全新的模式。「相关性反馈」是一种通过用户先前的搜索结果和行为模式分析而优化搜索结果的方法。

获得博士学位后，我开始了在微软 18 年的职业生涯。在那里，我继续从事多媒体分析、理解和检索，机器学习，计算机视觉和模式识别等领域的研究工作。

现在，作为联想的首席技术官和联想研究院的领导者，我将继续带领团队推进多媒体计算的发展，并将最前沿的多媒体研究成果融入到联想的产品和服务中去。

在人工智能的研究上，联想目前取得了哪些进展和应用?有哪些难点和挑战?

联想研究院目前已建立了公司级别的人工智能平台，支持计算机视觉，语音，自然语言理解等领域的研究。

在计算机视觉领域，我们已经取得了显著进展。比如我们在 2017 联想 Tech World 上展示了 E-Health。E-Health 是应用于医学领域的智能医疗图像辅助诊断解决方案。它集成了前沿的深度学习算法，依托于拥有强大计算能力的联想云平台，凝聚了众多医学专家全方位的诊疗经验。它一方面在减轻医生工作量的同时，也可以避免由于医生疲劳等因素而产生的误诊情况;另一方面能够智能分析医疗图像自动为医生提供辅助诊断的意见。

在 2017 全球肝脏肿瘤医疗图像分割大赛 (Liver Tumor Segmentation Challenge) 中，E-Health 团队力压群雄，夺得冠军。

我们还研发出融合了先进 slam 技术和计算机视觉技术的联想第一代晨星 AR 眼镜和 AR 平台，致力于将 AR 与工业维护、教育、培训等垂直行业结合。

在自然语言理解方面，联想发布了旗下首款智能音箱，它可通过语音交互实现选歌播放，天气查询，电台收听等操作，其中的自然语言理解以及会话引擎就是来自联想研究院的研究成果。研究院为智能音箱提供了多轮、多子域、上下文相关的会话引擎，其交互体验和准确率均达到了国内领先水准。

在人机交互方向，联想研究院研发的自动语音识别平台能够使用户通过语音完成手机上打电话等基本操作，以及查询天气，叫车等基于互联网的服务。目前该平台已应用在了 Moto 手机的智能语音助手、应用商店等预装服务中。

还有，我们研发的联想小乐智能客服解决方案，有机结合人工智能客服机器人和人工客服代表，实现任何时间、任何地点、以客户喜欢的多媒体方式(文字，图片，语音)为客户提供服务。

从 ACM MM 17 的论文录用情况来看，视觉依然是多媒体领域的一个重要研究方向。而近年来，计算机视觉与 NLP 之间的结合也越来越丰富。面对这种研究领域间的交叉融合，相较其它企业，联想具有哪些研发优势?

是的，计算机视觉与自然语言理解之间的结合越来越丰富。联想研究院在这方面也取得了不少成果，比如刚才提到的、我们在 2017 联想 Tech World 上展示的 E-Health。它可以智能分析医疗图像，并自动为医生提供辅助诊断的意见。

从技术的角度来说，以深度学习为代表的人工智能算法正在并将继续促进多媒体研究，尤其近期深度学习较好构建了基于多模态 (multi-modality) 的算法框架，使得跨领域的多媒体数据的有效融合、利用/检索成为可能。

比如图像和视频的描述 (captioning)。几年前，描述能做的只是给图像或视频自动打上标签 (tag)。而深度学习建立了计算机视觉和自然语言处理之间的连接，可以将零散的标签变成一句基于视觉内容并且通顺连贯的自然语言描述。这是交叉领域的典型应用，不仅需要理解视觉，也要知道如何对自然语言进行建模。

随着相关领域和硬件设备的进一步发展，图像/视频描述甚至将支持一段(多句)关于内容的自然语言描述，也将支持更自然的用户交互系统;支持的模态 (modality) 也会超越计算机视觉和自然语言处理的范围，例如，可以导入语音特征 (voice features), 空间深度信息 (depth feature), 文本特征 (text features) 等。

联想在人工智能的算法方面有很多投入。联想研究院人工智能实验室研究人员已增加到 100 多位，吸引了全球的顶尖选手加入。

除了算法，在发展人工智能方面，不论是大数据、计算力，还是从端到云，联想都有很多优势。

大数据：联想在大数据上也有非常多的投入。我们是国内最大的制造企业数据集群，拥有超过 12 个 PB+的数据，并且每天还新增 30 个 TB 的数据，处理超过 150 亿条的信息。

计算力：联想拥有强大的运算能力。全球前 500 个超级计算机中有 87 个是联想的。联想连续第四次取得 HPC TOP 500 榜单中国第一，全球第二的成绩，并以 17% 的增长率成为全球增速最快的 HPC 厂商。目前全球 500 强企业超算系统中，有 87 家采用了联想的 HPC。

联想其实对垂直行业非常了解。一个算法再好，也必须要和垂直行业相结合，这一点也是联想的优势。

此外，我们还有从端到云的独特优势。联想拥有设备入口，能让设备和服务更好结合。后端又有云，通过云，利用人工智能技术，我们可以更好地了解用户的需求，从而会把服务做得更好，更贴心，更加个性化。设备、服务、云三个元素有机结合起来，从而形成一个相互放大的、正反馈的循环。

在研发团队方面，我们正在大力建设我们的创新军团。去年底，凭借在图像、视频和多媒体分析、理解和检索领域的贡献，我当选了含金量非常高的国际计算机学会(ACM)Fellow，而且是中国大陆首位来自企业的 ACM Fellow。此外，联想研究院 AI Lab 负责人是原德国人工智能研究中心徐飞玉博士，欧洲科学院院士汉斯·乌思克尔特博士是我们的首席 AI 顾问。我相信，在众多优秀人才的努力下，联想的创新能力将得到极大提升。

您于 2016 年 11 月加入联想担任 CTO，在您的推动下，人工智能在一年多的时间里成为联想「设备+云」、「基础设施+云」战略转型的重要支撑点。从研发的角度来看，目前联想重点攻关的人工智能技术是什么?有哪些方针与规划?

技术研发方面，目前，联想研究院正在计算机视觉、语音、自然语言理解、情景感知、知识图谱等人工智能重点技术领域加大研发。

（编辑：我爱故事小小网_铜陵站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

善用企业数据策略无惧	未来已来 Cloudera拥抱
MPP与Hadoop 两种主流	数据科学家应对的几大