谷歌 Gemini 1.5 Pro评Sora生成的视频：存在诸多不合理之处，网友：酸死了

AI每日新闻1年前 (2024)发布 NewNew

647 0 0

近日，谷歌的人工智能模型Gemini 1.5对OpenAI Sora生成的一段视频进行了评价，指出其虽然在视觉上很吸引人，但存在明显的不合理之处，从而揭示出这并不是一个真实的视频场景。这一评价引发了双方技术实力的新一轮比较和公众对于AI生成内容真实性的关注。

据AI旋风了解，谷歌和OpenAI分别发布了各自的最新技术成果。谷歌推出了功能强大的Gemini 1.5 Pro，而OpenAI则发布了文本转视频工具Sora。

谷歌 Gemini 1.5 Pro评Sora生成的视频：存在诸多不合理之处，网友：酸死了

有趣的是，Sora的发布时机恰好与谷歌Gemini 1.5的发布相近，这引发了一些人的猜测，认为OpenAI可能是为了转移公众对谷歌Gemini 1.5的注意力。

对于这一猜测，AI旋风认为，虽然发布时机的巧合确实可能让人产生这样的联想，但也不能忽视OpenAI在AI生成视频领域的突破。Sora作为一款能够生成长达60秒视频的AI文本转视频工具，其能力不容小觑。它能够创建包含细节丰富的场景、复杂摄像机运动以及具有丰富情感的多个人物画面。

然而，谷歌似乎并不满足于现状。AI旋风了解到，谷歌的一位高管在X平台上分享了对Sora生成视频的详细分析。他们使用Gemini 1.5 Pro对一段由Sora生成的日本街道视频进行了深入剖析。这段视频展示了既有雪景又有樱花盛开的街道景象。然而，根据Gemini 1.5 Pro的分析，这段视频存在多处明显的不合理之处。

首先，大雪纷飞和盛开的樱花同时出现并不符合常理。樱花通常在春季开放，而那时并不会伴有降雪。此外，视频中的雪花下落方式非常均匀，这与现实生活中通常的降雪方式不符。更为显著的是，视频中的人物虽然身处大雪环境，却并未穿着任何冬装，这显得非常违和。

Gemini 1.5在评价中总结道：“总而言之，这段视频虽然视觉上很吸引人，但其中的矛盾之处表明它并非现实生活中的场景。”这一评价无疑给OpenAI的Sora技术带来了不小的挑战。

值得注意的是，谷歌的Gemini 1.5在性能上也有着显著的优势。AI旋风了解到，Gemini 1.5拥有惊人的100万词条上下文窗口，这一数字远超GPT-4 Turbo的12.8万和Anthropic Claude 2.1的20万。这意味着Gemini 1.5可以一次处理大量信息，包括1小时的视频、11小时的音频以及超过30,000行代码或70万字的代码库。这一性能优势使得Gemini 1.5在处理复杂任务时具有更高的效率和准确性。

对于这两大AI巨头的竞争，AI旋风将持续关注并为您带来最新的报道和分析。我们期待看到双方在AI生成内容领域的更多创新和突破，同时也希望这些技术能够为我们的生活带来更多便利和乐趣。