OpenAI推出人工智能AI文字生成视频模型“Sora”

AI每日新闻1年前 (2024)更新 okay

719 0 0

2021年初和2022年末，OpenAI分别推出了图像生成系统DALL·E和聊天机器人ChatGPT。这也使得AI逐渐成为各行各业辅助工作的工具，也正逐渐改变人们对未来工作的看法。

2月16日，OpenAI宣布推出全新的生成式人工智能模型“Sora”。据了解，通过文本指令，Sora可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。

这意味着，继文本、图像之后，OpenAI将其先进的AI技术拓展到了视频领域。OpenAI亦表示，Sora是能够理解和模拟现实世界的模型的基础，这一能力将是实现AGI（通用人工智能）的重要里程碑。

据介绍，Sora是基于过去对DALL·E和GPT的研究基础构建，利用DALL·E 3的重述提示词技术，为视觉模型训练数据生成高描述性的标注，因此模型能更好的遵循文本指令。

Sora能够生成具有多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景。不仅了解用户在提示中要求的内容，还了解这些东西在物理世界中的存在方式。

同时，该模型对语言有深刻的理解，使其能够准确地解释提示并生成表达生动情感的引人注目的角色。

通过简短的文本提示或一张静态图片，Sora能够生成持续一分钟左右的1080P高清视频，涵盖多个角色、不同类型的动作和背景细节等，几乎达到了电影级别的逼真场景。

对于OpenAI视频生成模型的出现，业内其实早有预期，但仍有人评价称“比想象中来得更快”，亦有人振奋地表示“我们真的看到新工业革命来临”。

据悉，Sora如今正面向部分用户开放，以评估关键领域的潜在危害或风险。同时，OpenAI也邀请了一批视觉艺术家、设计师和电影制作人加入，期望获得宝贵反馈，以推动模型进步，更好地助力创意工作者。OpenAI提前分享研究进展，旨在与OpenAI以外的人士合作并获取反馈，让公众了解即将到来的AI技术新篇章。