推出PaliGemma、Gemma 2和Responsible AI升级工具包

五月 14, 2024
Tris Warkentin Director, Product Management
Xiaohua Zhai Senior Staff Research Scientist
Ludovic Peran Product Manager

在Google ,我们相信协作和开放研究的力量可以推动创新,我们很高兴看到Gemma在推出后的短短几个月内就获得了数百万次下载,受到社区的欢迎。

这种热情的回应令人难以置信的鼓舞人心,因为开发人员已经创建了各种各样的项目,如印度语的多语言版本Navarasa ,以及设备上行动模型Octopus v2,开发人员正在展示Gemma的潜力,以创建有影响力和可访问的人工智能解决方案。

这种探索和创造精神也推动了我们CodeGemma和RecurrentGemma的发展, CodeGemma具有强大的代码完成和生成能力, RecurrentGemma提供了高效的推理和研究可能性。

Link to Youtube Video (visible only when JS is disabled)

Gemma是一系列轻量级、最先进的开放式模型,由用于创建Gemini模型的相同研究和技术构建而成。今天,我们很高兴能够通过推出PaliGemma进一步扩展Gemma家族,PaliGemma是一种功能强大的开放视觉语言模型( VLM ),并且随着Gemma 2的发布,我们可以先睹为快。此外,我们正在通过更新负责任的生成式人工智能工具包,进一步履行我们对负责任的人工智能的承诺,为开发人员提供新的和增强性工具,用于评估模型安全性和过滤有害内容。


介绍PaliGemma :开放视觉语言模型

PaliGemma是一款功能强大的开放式VLM ,灵感来自PaLI-3。PaliGemma建立在包括SigLIP视觉模型和Gemma语言模型在内的开放组件之上,旨在为各种视觉语言任务提供领先水平的微调性能。这包括图像和短视频字幕、可视化问答、理解图像中的文本、对象检测和对象分割。

我们提供多种分辨率的预训练和微调检查点,以及专门针对混合任务进行调整的检查点,以便立即探索。

为了促进开放式探索和研究, PaliGemma可通过多平台和资源提供实现。使用Kaggle和Colab笔记本电脑等免费选项,立即开始探索。寻求突破视觉语言研究界限的学术研究人员也可以申请Google Cloud学分来支持他们的工作。

立即开始使用PaliGemma。您可以在GitHub Hugging Face模型 Kaggle、 Vertex AI Model Garden和ai.nvidia.com (通过TensoRT-LLM加速)上找到PaliGemma ,通过JAX和Hugging Face Transformers轻松集成。( Keras集成即将推出)您还可以通过此拥抱面部空间与模型进行交互。

Screenshot from the HuggingFace Space running PaliGemma showing an image of a cat wearing a tiny hat, with his head on stack of four pancakes
运行PaliGemma的HuggingFace Space的屏幕截图

宣布Gemma 2 :下一代性能和效率

我们很高兴地宣布,下一代Gemma型号Gemma 2即将推出。Gemma 2将提供新的尺寸,适用于广泛的人工智能开发人员用例,并具有专为突破性性能和效率而设计的全新架构,可提供以下优势:

  • 一流领先性能:在270亿个参数下, Gemma 2以不到一半的尺寸提供与Llama 3 70B相媲美的性能。这种突破性的效率在开放模式领域树立了新的标准。

  • 降低部署成本: Gemma 2的高效设计使其能够适应不到同类型号一半的计算量。27B型号经过优化,可以在NVIDIA的GPU上运行,也可以在Vertex AI的单个TPU主机上高效运行,从而为更广泛的用户提供更方便、更具成本效益的部署。

  • 多功能调整工具链: Gemma 2将为开发人员提供跨平台和工具的多样化生态系统的强大调整功能。从基于云的解决方案(如Google Cloud )到流行的社区工具(如Axolotl ) ,微调Gemma 2将比以往任何时候都更容易。此外,与Hugging Face和NVIDIA TensorRT-LLM以及我们自己的JAX和Keras的无缝合作伙伴集成,确保您可以优化性能并在各种硬件配置中进行高效部署。
Gemma pre-trained model performance benchmarks
Gemma 2仍在预训练。此图表显示了最新Gemma 2检查点的性能以及基准预训练指标。资料来源: Hugging Face Open LLM排行榜( 2024年4月22日)和Grok公告博客

敬请期待Gemma 2在未来几周的正式发布!


扩展负责任的生成式人工智能工具包

出于这个原因,我们正在扩展我们的Responsible Generative AI Toolkit ,通过发布开源LLM Comparator来帮助开发人员进行更强大的模型评估。LLM 比较器是一种新的交互式和可视化工具,用于执行有效的并行评估,以评估模型回复的质量和安全性。要查看LLM比较器的实际操作,请查看我们的演示,其中展示了Gemma 1.1和Gemma 1.0之间的比较。

screenshot showing a side by side evaluation in the LLM Comparator

我们希望这个工具将进一步推进工具包的使命,即帮助开发人员创建不仅具有创新性,而且安全负责的人工智能应用程序。

随着我们不断扩大Gemma的开放模型系列,我们仍然致力于营造一个协作环境,让尖端的人工智能技术和负责任的开发齐头并进。我们很高兴看到您使用这些新工具构建了什么,以及我们如何共同塑造人工智能的未来。