谷歌开放Gemini 1.5 Pro API,全新功能助推AI多模态应用

AI每日新闻8个月前发布 shen
352 0

近日,谷歌宣布开放其最新AI模型Gemini 1.5 Pro的API,该版本在原有基础上进行了功能的大幅扩展,现已覆盖全球180多个国家。这一举措无疑将加速AI技术在多模态理解、内容索引、搜索以及创意内容生成等领域的应用进程,为开发者提供了更广阔的创新空间。

AI旋风了解到,Gemini 1.5 Pro的显著特点在于其新增的原生音频(语音)理解能力。这一功能的引入使得Gemini模型能够直接处理音频输入,无需先将音频转换为文本,从而大大提高了模型处理音频模态的效率和准确性。此外,该模型还新增了文件API和系统指令等新功能,进一步丰富了其应用场景和灵活性。

值得一提的是,Gemini 1.5 Pro大大扩展了输入模态的范围。现在,它不仅能理解文本,还能理解音频(语音),这使得AI模型在处理音频和视频模态时更加得心应手。同时,该模型还能对上传到Google AI Studio中的视频进行图像(帧)和音频(语音)的同时推理,从而实现了对视频内容的全面理解。

这一改进的应用潜力巨大。例如,通过综合分析视频中的视觉信息和音频信息,Gemini 1.5 Pro可以更全面地理解视频内容,进而帮助创建更详细的内容索引。这将使用户能够基于视频内容的视觉和听觉信息进行搜索,大大提高了搜索的准确性和效率。谷歌开放Gemini 1.5 Pro API,全新功能助推AI多模态应用

除了上述功能外,Gemini API也进行了一些重要的改进。据了解,谷歌引入了系统指令来引导模型响应,这一功能现已在Google AI Studio和Gemini API中提供。开发者可以通过定义角色、格式、目标和规则来指导模型的行为,以适应特定的应用场景。这一改进将有助于开发者更好地控制模型的行为,提高模型的可用性和准确性。

此外,谷歌还推出了新的嵌入模型,其性能得到了显著提升。从今天开始,开发者将能够通过Gemini API访问Gemini下一代文本嵌入模型。这个新模型在MTEB基准测试中取得了更强的检索性能,超过了具有可比维度的所有现有模型。这一改进将有助于提高模型在处理文本数据时的效率和准确性,为开发者提供更加优质的服务。

AI旋风认为,谷歌开放Gemini 1.5 Pro API的举措将进一步推动AI技术的发展和应用。随着多模态数据的不断增加和多样化,对于能够处理多模态数据的AI模型的需求也日益迫切。Gemini 1.5 Pro的推出正好满足了这一需求,为开发者提供了更加强大和灵活的工具来处理多模态数据。

展望未来,随着AI技术的不断发展和完善,我们有理由相信,多模态理解和处理将成为AI领域的一个重要发展方向。而谷歌作为AI技术的领军企业,其推出的Gemini 1.5 Pro无疑将为这一领域的发展注入新的活力和动力。我们期待着看到更多基于Gemini 1.5 Pro的创新应用和服务,为人类生活带来更多便利和惊喜。

© 版权声明

相关文章

暂无评论

暂无评论...