2月15日,谷歌发布其大模型矩阵的最新力作——Gemini 1.5,并将上下文窗口长度扩展到100万个tokens。
据悉,Gemini 1.5 Pro达到了与1.0 Ultra相当的质量,同时使用了更少的计算。该模型在长语境理解方面取得突破,能够持续运行多达100万个tokens,实现迄今任何大型基础模型中最长的上下文窗口。
这意味着Gemini 1.5 Pro可一次处理大量的信息,包括1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库。
此外,谷歌透露其在研究中还成功测试了多达1000万个tokens。
Gemini 1.5 Pro可以在给定的提示符内无缝地分析、分类和总结大量内容。例如,当给它一份402页的阿波罗11号登月任务的记录时,它可以对文件中的对话、事件和细节进行推理。该模型可以理解、推理并识别出阿波罗11号登月任务402页记录中的奇怪细节。
Gemini 1.5 Pro能对不同的模式执行高度复杂的理解和推理任务,包括视频。
例如,当给定巴斯特·基顿44分钟的无声电影时,该模型可以准确地分析各种情节点和事件,甚至可以推理出电影中容易被遗漏的小细节。
当给出简单的线条图作为现实生活中物体的参考材料时,Gemini 1.5 Pro可以识别出巴斯特·基顿(Buster Keaton)44分钟默片中的场景。
1.5 Pro可以跨更长的代码块执行更相关的问题解决任务。当给出一个包含超过100,000行代码的提示时,它可以更好地对示例进行推理,提出有用的修改建议,并解释代码的不同部分是如何工作的。
在对文本、代码、图像、音频和视频的综合评估面板上进行测试时,在用于开发大语言模型的87%的基准测试中,Gemini 1.5 Pro优于1.0 Pro。在相同的基准测试中,与1.0 Ultra相比,它的性能水平大致相似。
即日起,谷歌将通过AI Studio和Vertex AI向开发者和企业客户提供Gemini 1.5 Pro的有限预览版。
早期的测试人员可以在测试期间免费尝试100万个tokens上下文窗口。有兴趣测试1.5 Pro的开发人员可在AI Studio注册,企业客户可以联系Vertex AI客户团队。