谷歌DeepMind发布Gemini 1.5技术报告，引领多模态AI新篇章

400 0 0

近日，谷歌 DeepMind团队发布了一份长达150页的技术报告，这份报告不仅深入剖析了Gemini 1.5 Pro和Gemini 1.5 Flash两大模型的性能特点和架构优势，还详细阐述了多模态大型模型的最新进展。

据悉，Gemini 1.5自今年2月上线以来，凭借其工程优化、MoE架构等创新策略，已显著提升了模型的性能和速度。它不仅拥有更长的上下文理解能力、更强的推理能力，还能轻松应对跨模态内容的处理，为AI技术的发展注入了新的活力。

AI旋风认为，Gemini 1.5的两大新型号——Gemini 1.5 Pro和Gemini 1.5 Flash，更是进一步巩固了其在多模态AI领域的领先地位。Gemini 1.5 Pro在多个功能和基准测试中均超越了2月份的版本，展现出了更为卓越的性能；而Gemini 1.5 Flash作为轻量级变体，则在提高效率的同时，性能损失极小，为用户提供了更为灵活的选择。谷歌DeepMind发布Gemini 1.5技术报告，引领多模态AI新篇章

特别值得一提的是，Gemini 1.5 Flash作为一个Transformer解码器模型，其拥有的超过2M的上下文和多模态功能，让其在处理跨模态内容时游刃有余。此外，通过优化张量处理单元（TPU）的使用和减少模型服务延迟，Gemini 1.5 Flash能够在保证性能的同时，实现更快的生成速度。据报告评估，在处理英语、中文、日语和法语查询时，Gemini 1.5 Flash在所有测试语言中均实现了最快的生成速度。

除了速度上的优势外，Gemini 1.5在跨模态长上下文检索任务上也展现出了惊人的能力。它实现了近乎完美的召回率，提高了长文档问答、长视频问答和长上下文自动语音识别的最佳水平。同时，在一系列广泛的基准测试中，Gemini 1.5也匹配或超越了Gemini 1.0 Ultra的性能表现。

值得一提的是，Gemini 1.5 Pro在5月份的版本中进行了进一步的改进。它在多个推理、编码、视觉和视频基准测试中均有所提升，而音频和翻译性能则保持不变。此外，Gemini 1.5 Pro还推出了数学增强版本，该版本在Hendryck的MATH基准测试中取得了91.1%的突破性性能，成功解决了此前模型无法解决的亚太数学奥林匹克题目。

据了解，Gemini 1.5的技术报告不仅展示了谷歌在大型多模态模型领域的最新进展，还强调了该模型在现实世界中的应用潜力。报告显示，Gemini 1.5能够与专业人士合作完成任务，并在10个不同的工作类别中节省26-75%的时间。此外，该模型还具备强大的语言学习能力，能够学会将英语翻译成Kalamang这种只有不到200人使用的语言，其翻译水平与人类学习者相当。