Photoshop如何实现AI图像论文（英伟达PS之路）

前段时间，Adobe 推出了一个名为「 Neural Filters 」的工具包，将 AI 论文中常见的上色、换表情、改年龄、超分辨率等效果统统打包，集成到了 Photoshop 中，让用户动动鼠标就能用上这些功能。当时就有人问：「视频能 p 吗?」

作为一款主打图像处理的软件，Photoshop 或许没有办法很好地回答这一问题。但同样深耕于计算机视觉、计算机图形学的英伟达用行动告诉我们，他们似乎正在向这一方向努力。

Photoshop如何实现AI图像论文

今年 10 月初，英伟达推出了一项 AI 视频会议服务 Maxine，这是一套 GPU 加速的 AI 视频会议软件。该公司将 Maxine 描述为一种「云原生」解决方案，使用了 AI 来提升分辨率、降低背景噪声、压缩视频、对齐人脸以及执行实时翻译和转录。

利用英伟达 Maxine 实现的视频会议人脸对齐功能。

据了解，开发者、软件合作伙伴和服务提供商已可申请 Maxine 的早期使用权。

本文将解读 Maxine 的多项功能的工作机制以及它们与英伟达 AI 研究的关联。本文也会谈到英伟达的 AI 驱动型视频会议平台中仍待解决的问题和可能的商业模式。

使用神经网络实现超分辨率

在展示 Maxine 时，英伟达介绍的第一个功能是「超分辨率」，英伟达说这「能实时地将低分辨率视频转换为高分辨率视频」。超分辨率技术能让视频会议参与者发送低分辨率视频流，而服务器能让它们变得更加清晰。这能降低视频会议应用的带宽需求，能让它们在网络连接不稳定的地区也能获得更稳定的表现。

提升视觉数据分辨率的一大挑战是如何填充缺失的信息。打个比方，你有一张由一定数量像素构成的图像，你想要将其扩大为包含更多像素的图像。你该如何确定这些新像素的颜色?

以前的图像放大技术使用的是不同的插值方法(双三次插值、Lanczos 插值等)来填充原像素之间的空间。这些技术太过笼统，可能会将不同类型的图像和背景混在一起。

机器学习的一大优势是能在经过调节之后用于非常特定的具体任务。举个例子，基于视频会议流数据，深度神经网络可使用缩小后的视频帧及其对应的高分辨率原图像进行训练。只要样本充足，该神经网络就能根据在视频会议视觉数据(大多是人脸)中找到的一般特征调节其参数，从而能在低到高分辨率转换任务上取得比通用型放大算法更优的表现。一般来说，领域范围越狭窄，神经网络就越有可能收敛到非常高的准确度。

使用人工神经网络来放大视觉数据已经有了坚实的研究基础，其中包括英伟达 2017 年的一篇论文，其中讨论了使用深度神经网络的通用型超分辨率技术。

由于视频会议是一种非常特定的具体案例，因此经过良好训练的神经网络在该任务上的表现肯定会优于更一般化的任务。除了视频会议之外，超分辨率技术还有其它应用场景，比如电影行业可以使用深度学习来重制老电影，使其质量更高。