什么是Visual ChatGPT

　　微软刚刚推出了一种名为 Visual ChatGPT 的新模型，它将 Transformers、ControlNet 和 Stable Diffusion 等视觉基础模型 (VFM) 与 ChatGPT 相结合。Microsoft的 Visual ChatGPT 使用不同的 Visual Foundation Models 让用户与 ChatGPT 进行交互。此连接使用户能够通过聊天发送消息并在聊天期间接收图像。它还允许他们通过添加一系列视觉模型提示来编辑图像。

　　不仅可以导入图像并生成新图像，还可以编辑图像。Visual ChatGPT 的目的很简单。您可以以聊天格式生成和修改图像，从而为处理 AI 生成图像和艺术创造不同类型的用户体验。本文晓得博客为你介绍什么是Visual ChatGPT，虽然我们使用了特定于图像和艺术的平台和应用程序，但它融合了聊天 + 图像提示的概念。

Visual ChatGPT是如何工作的？

　　Visual ChatGPT将不同的视觉基础模型与 ChatGPT 集成。简单来说，Visual Foundation Models 是用于编辑图像的高级算法。通过使用这些视觉基础模型，ChatGPT 还可以处理用户生成和编辑图像的请求。它不仅能够理解用户的指令（搜索查询），它还具有根据反馈修改和改进输出的反馈回路。

　　微软开发了一个名为 Visual ChatGPT 的系统，该系统集成了许多视觉基础模型，使用户能够使用图形用户界面与 ChatGPT 进行交互。它能够：

传输和接收不仅是文本而且是图像
提供复杂的视觉查询或视觉编辑指令，需要多个 AI 模型的多阶段协作。
提供输入和请求更正

　　考虑到具有许多输入/输出的模型和需要视觉反馈的模型，研究人员创建了一系列提示以将视觉模型信息注入 ChatGPT。测试表明，Visual ChatGPT 可以使用视觉基础模型调查 ChatGPT 的视觉角色。

　　推荐：如何修复ChatGPT Load Failed加载失败

　　注意：单击此处查看 Visual ChatGPT GitHub 存储库。

Visual ChatGPT有什么作用？

　　例如，假设用户上传了一张黑色大象的图片，上面有一条难以理解的指令，例如“请在图片中制作一头白色的非洲大象，然后像卡通一样逐步构建它”。

　　在提示管理器的帮助下，Visual ChatGPT 开始执行链接的视觉基础模型。特别是，它使用深度估计模型来计算深度信息，使用深度到图像模型将深度信息变成白象的图片，以及基于稳定扩散模型的风格转移 VFM 来制作图像看起来像卡通。

　　在上面显示的处理链中，提示管理器通过提供可视化表示并跟踪信息如何变化来充当 ChatGPT 的调度程序。例如，Visual ChatGPT 从 Prompt Manager 获得提示后，它将停止管道并显示最终结果。

　　推荐：AI Engine Pro免费下载WordPress ChatGPT插件

Visual ChatGPT面临的挑战

　　研究人员指出，VFM 的失败和 Prompt 的不规则性是值得关注的领域，因为它们会导致不太令人满意的生成结果。因此，需要一个单独的自我纠正模块来确保执行输出与人的意图一致并进行必要的纠正。此外，由于模型倾向于不断修正路线，因此模型的推理时间可能会增加。该团队打算在未来的研究中调查这个问题。

　　基本上，一张图片承载了很多信息——最明显的是形式、颜色、形状——系统需要了解用户的需求以及如何正确渲染图像。虽然视觉基础模型已经取得了长足的进步，但要求生成式人工智能通过简单的语音命令创建和定制图像还为时过早。话虽如此，VisualGPT 可能是一个令人兴奋的测试用例。

Visual ChatGPT 的优势

它具有从生成图像到高级图像编辑功能的各种好处
从用户输入文本生成图像
从照片中删除对象
用照片中的另一个对象替换一个对象
它可以解释照片中的内容
让图像看起来像一幅画
边缘检测
线路检测
检测
在边界图像上生成图像条件
图像分割
在分割上生成图像条件

Visual ChatGPT内存使用

Foundation Model	Memory Usage (GB)
ImageEditing	6.5
ImageCaption	1.7
T2I	6.5
canny2image	5.4
line2image	6.5
hed2image	6.5
scribble2image	6.5
pose2image	6.5
BLIPVQA	2.6
seg2image	5.4
depth2image	6.5
normal2image	3.9
InstructPix2Pix	2.7