近日,NVIDIA 最新发表的论文披露了一种名为 Perfusion 的「文生图」模型的个性化学习技术。
官网显示,Perfusion 技术是由 NVIDIA 和以色列的特拉维夫大学合作研发的。Perfusion 技术可以帮助自由创造生成更加个性化的物体,实现更生动的结果,具有更好的提示匹配性,并且不易受原始图像背景特征的影响。
NVIDIA 图形研究副总裁 Aaron Lefohn 曾经将 Perfusion 技术描述为「高度紧凑的技术 ...... 允许用户将多个个性化元素(例如特定的泰迪熊和茶壶)组合到人工智能生成的单一视觉效果。」
【资料图】
在这当中,NVIDIA 用到了一种名为「密钥锁定」的新颖机制。
通俗一点的解释就是,它将图像生成模型内的注意力机制分成两部分 : 位置部分和内容部分。位置部分决定画什么物体,内容部分决定物体的外观样式。「密钥机制」固定住位置部分,不让物体随意变化,比如特定泰迪熊的位置与所有修改后的泰迪熊一致。同时,内容部分允许物体的外观自由变化,比如给泰迪熊凭空换一套装扮。
此外,Perfusion 技术在文生图的过程中,可以选择控制物体的变化程度,可以更像原物也可以更符合用户的描述语。历史记录生成的几个物体还可以组合放在同一张图像里。
得益于「密钥锁定」机制的先进性,官方宣称由 Perfusion 技术生成的图片质量与 Stability Diffusion v1.5 版本不分伯仲。不过 Perfusion 技术更加个性化,具备快速学习处理新概念的能力,而无需重新训练整个模型,这是 Stability Diffusion 所不具备的。
此外,Perfusion 技术的控制能力更强,可以方便在视觉质量和语义控制之间取得平衡,还可以组合多个新概念(比如让模型同时生成特定泰迪熊和特定茶壶)。
总的来说,Perfusion 技术主要就是在个性化学习和控制方面做了创新,使文生图的系统生成更容易自定义。
可能很多人不知道的是,低调的 NVIDIA 其实在生成式 AI 领域颇有建树,在图像超分辨、深度估计等多个生成任务上都有着开创性的贡献。今年 5 月份的时候,NVIDIA 创始人黄仁勋曾大胆预测:「计算机行业正在同时经历两个转型——加速计算和生成式人工智能。」其补充道:「随着公司竞相将生成式 AI 应用到每一个产品、服务和业务流程中,价值一万亿美元的数字中心基础设施将被升级到加速计算。」
生成式 AI 训练大规模神经网络,需要高度复杂的计算能力。GPU 通用性较强,更适合大规模并行计算,且设计及制造工艺较为成熟,这恰恰正是 NVIDIA 掌握 AI 大模型「命门」的舒适圈。
从市场占有率上看,NVIDIA 占据了 GPU 市场 84% 的市场份额。市场调查机构 TrendForce 集邦咨询公布的数据显示,如果以 NVIDIA A100 显卡的处理能力计算,运行 ChatGPT 将需要用到 30000 块 NVIDIA GPU,这意味 NVIDIA 将可以赚取超过 3 亿美元。
但得天独厚的 NVIDIA 并不仅仅满足于「淘金卖水人」,而是将自身资源的「天赋异禀」在生成模型技术发展领域释放得淋漓尽致。
2018 年,NVIDIA 研究人员就率先提出了生成式对抗网络 StyleGAN,这是第一个可以高质量生成人脸图像的 GAN 模型,时隔一年后,NVIDIA 正式发布第一个从语义布局就可以直接生成逼真图像的模型。类似的「第一」还有很多,现如今,Perfusion 技术便是 NVIDIA 最新发布的生成式 AI 的成果之一。
发布 Perfusion 技术,一方面可以继续展示 NVIDIA 在生成式 AI 领域的技术能力,充分建立 NVIDIA 在生成式 AI 领域的领导力和影响力,另一方面也可以回应业界和学术界的热点需求,进而在未来集成到 NVIDIA 的产品和服务中。
值得注意的是,目前 NVIDIA 只在官网发表了相关论文,具体的代码演示将很快推出,届时用户文生图的功能需求也会有更加多元化的选择。