谷歌开放Gemini 1.5 Pro API，全新功能助推AI多模态应用

581 0 0

近日，谷歌宣布开放其最新AI模型 Gemini 1.5 Pro的API，该版本在原有基础上进行了功能的大幅扩展，现已覆盖全球180多个国家。这一举措无疑将加速AI技术在多模态理解、内容索引、搜索以及创意内容生成等领域的应用进程，为开发者提供了更广阔的创新空间。

AI旋风了解到，Gemini 1.5 Pro的显著特点在于其新增的原生音频（语音）理解能力。这一功能的引入使得Gemini模型能够直接处理音频输入，无需先将音频转换为文本，从而大大提高了模型处理音频模态的效率和准确性。此外，该模型还新增了文件API和系统指令等新功能，进一步丰富了其应用场景和灵活性。

值得一提的是，Gemini 1.5 Pro大大扩展了输入模态的范围。现在，它不仅能理解文本，还能理解音频（语音），这使得AI模型在处理音频和视频模态时更加得心应手。同时，该模型还能对上传到Google AI Studio中的视频进行图像（帧）和音频（语音）的同时推理，从而实现了对视频内容的全面理解。

这一改进的应用潜力巨大。例如，通过综合分析视频中的视觉信息和音频信息，Gemini 1.5 Pro可以更全面地理解视频内容，进而帮助创建更详细的内容索引。这将使用户能够基于视频内容的视觉和听觉信息进行搜索，大大提高了搜索的准确性和效率。谷歌开放Gemini 1.5 Pro API，全新功能助推AI多模态应用

除了上述功能外，Gemini API也进行了一些重要的改进。据了解，谷歌引入了系统指令来引导模型响应，这一功能现已在Google AI Studio和Gemini API中提供。开发者可以通过定义角色、格式、目标和规则来指导模型的行为，以适应特定的应用场景。这一改进将有助于开发者更好地控制模型的行为，提高模型的可用性和准确性。

此外，谷歌还推出了新的嵌入模型，其性能得到了显著提升。从今天开始，开发者将能够通过Gemini API访问Gemini下一代文本嵌入模型。这个新模型在MTEB基准测试中取得了更强的检索性能，超过了具有可比维度的所有现有模型。这一改进将有助于提高模型在处理文本数据时的效率和准确性，为开发者提供更加优质的服务。

AI旋风认为，谷歌开放Gemini 1.5 Pro API的举措将进一步推动AI技术的发展和应用。随着多模态数据的不断增加和多样化，对于能够处理多模态数据的AI模型的需求也日益迫切。Gemini 1.5 Pro的推出正好满足了这一需求，为开发者提供了更加强大和灵活的工具来处理多模态数据。

展望未来，随着AI技术的不断发展和完善，我们有理由相信，多模态理解和处理将成为AI领域的一个重要发展方向。而谷歌作为AI技术的领军企业，其推出的Gemini 1.5 Pro无疑将为这一领域的发展注入新的活力和动力。我们期待着看到更多基于Gemini 1.5 Pro的创新应用和服务，为人类生活带来更多便利和惊喜。