苹果发布新型AI模型MGIE,一句话精修图片

虽然相比微软等公司,苹果在人工智能领域的动作相对低调,但他们在这一领域的进展却丝毫不可小觑。近日,苹果公司发布了一款名为“MGIE”的全新开源人工智能模型,旨在根据自然语言指令来编辑图像。

苹果发布新型AI模型MGIE,一句话精修图片

MGIE 的全称是MLLM-Guided Image Editing,它利用多模态大型语言模型(MLLM)来解释用户的指令,并执行像素级操作。这一模型可以理解用户发出的自然语言命令,执行类似于Photoshop的修改、全局照片优化以及局部编辑等操作。

苹果发布新型AI模型MGIE,一句话精修图片

这项研究是苹果公司与加州大学圣巴巴拉分校合作完成的,他们在2024年国际学习表征会议(ICLR)上发表了与MGIE相关的研究成果,ICLR是人工智能研究领域的顶级会议之一。

在介绍MGIE之前,我们先来了解一下MLLM。MLLM是一种强大的人工智能模型,可以同时处理文本和图像,从而增强了基于指令的图像编辑能力。尽管MLLM在跨模态理解和视觉感知响应生成方面表现出卓越能力,但在图像编辑任务中尚未得到广泛应用。

苹果发布新型AI模型MGIE,一句话精修图片

MGIE通过两种方式将MLLM集成到图像编辑过程中:首先,它利用MLLM从用户输入中推导出富有表现力的指令,为编辑过程提供明确的指导。其次,它利用MLLM生成视觉想象力,即所需编辑的潜在表征,用于指导像素级操作。MGIE采用了一种新颖的端到端训练方案,可以联合优化指令推导、视觉想象和图像编辑模块。

苹果发布新型AI模型MGIE,一句话精修图片

MGIE可以处理各种编辑情况,从简单的颜色调整到复杂的对象操作。该模型还可以根据用户的偏好执行全局和局部编辑。MGIE的一些特性和功能包括:

  • 基于指令的表达式编辑:MGIE可以生成简洁明了的说明,有效指导编辑过程,提高编辑质量并增强用户体验。
  • Photoshop风格修改:MGIE可以执行常见的Photoshop风格编辑,如裁剪、调整大小、旋转、翻转和添加滤镜,还可以应用更高级的编辑,如更改背景、添加或删除对象以及混合图像。
  • 全局照片优化:MGIE可以优化照片的整体质量,如亮度、对比度、清晰度和色彩平衡,还可以应用素描、绘画和漫画等艺术效果。
  • 局部编辑:MGIE可以编辑图像中的特定区域或对象,如脸部、眼睛、头发、衣服和配饰,还可以修改这些区域或对象的属性,如形状、大小、颜色、纹理和风格。

MGIE是GitHub上的一个开源项目,用户可以找到代码、数据和预训练模型。该项目还提供了一个演示笔记本,展示了如何使用MGIE完成各种编辑任务。

苹果发布新型AI模型MGIE,一句话精修图片

本文来自投稿,不代表TePhone特锋手机网立场,如若转载,请注明出处:https://www.tephone.com/article/8685

(0)
小雨的头像小雨作者
上一篇 2024年2月8日
下一篇 2024年2月8日

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注