YouTuber使用OpenAI的GPT-4重新制作“伪造”的Google Gemini视频

一位YouTuber利用OpenAI的视觉AI模型GPT-4V重新制作了Google Gemini Ultra视频,该视频展示了对实时视频变化的即时响应。谷歌上周推出了令人印象深刻的Gemini人工智能模型,包括旗舰Gemini Ultra,其中的视频似乎显示它实时响应视频中的变化,但问题是,谷歌是在伪造

YouTuber使用OpenAI的GPT-4重新制作“伪造”的Google Gemini视频

Google发布的宣传视频实际上是Gemini Ultra在更长的时间内通过静止图像解决问题,而不是实时响应。为了验证是否可能让AI执行类似的任务,比如在视频中找到球、在地图上识别位置或者在绘制图像时发现变化,Greg Technology创建了一个简单的应用程序来测试GPT-4V对相同概念的处理能力。

Gemini Ultra从头开始就被训练成为多模态模型。这意味着其数据集包括图像、文本、代码、视频、音频甚至动作数据,使其能够更广泛地理解世界并以“人类的方式”看待。

为了展示这些功能,谷歌发布了一个视频,展示了不同的操作,Gemini的声音描述了它能看到的内容。在视频中,这一切似乎是实时发生的,Gemini对变化作出响应,但实际情况并非如此。尽管响应是真实的,但它们是静止图像或片段,而不是实时的。简而言之,该视频更像是一次营销活动,而不是技术演示。

在一个短短的两分钟视频中,Greg,这位为他的频道制作新技术演示的人,解释说他对Gemini的演示感到兴奋,但发现它并非实时,令他感到失望。“当我看到这一点时,我觉得有点奇怪,因为一个月前发布的GPT-4 vision一直在做演示中展示的事情,只不过是实时的,”他说。

与ChatGPT Voice版本类似,与之类似的自然语气进行回答。区别在于这包括了视频,并使OpenAI模型对手势作出响应,识别水上鸭的绘画,并玩剪刀石头布。

由Greg Technology制作的用于演示视频的ChatGPT Video接口的代码已在GitHub上发布,以便其他人也可以尝试使用。

尝试使用GPT-4 Vision代码

我在我的Apple MacBook Air M2上安装了Greg Technology制作的代码,并将其与我的GPT-4V API密钥配对,以查看这个视频是否有效,而不是另一个“伪造演示”。 几分钟后,我已经安装并运行它,效果完美。它愉快地识别手势、我的玻璃咖啡杯和一本书。它甚至可以告诉我书的标题和作者是什么。

这显示了OpenAI在多模态支持方面有多么领先,特别是在其他模型现在能够分析图像内容的同时,它们在实时视频分析方面可能会遇到困难。

本文来自投稿,不代表TePhone特锋手机网立场,如若转载,请注明出处:https://www.tephone.com/article/840

(0)
cl15的头像cl15编辑
上一篇 2023年12月13日 14:11:15
下一篇 2023年12月13日 14:54:25

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注