推出PaliGemma、Gemma 2和Responsible AI升级工具包

五月 14, 2024

Tris Warkentin Director, Product Management

Xiaohua Zhai Senior Staff Research Scientist

Ludovic Peran Product Manager

在Google ，我们相信协作和开放研究的力量可以推动创新，我们很高兴看到Gemma在推出后的短短几个月内就获得了数百万次下载，受到社区的欢迎。

这种热情的回应令人难以置信的鼓舞人心，因为开发人员已经创建了各种各样的项目，如印度语的多语言版本Navarasa ，以及设备上行动模型Octopus v2，开发人员正在展示Gemma的潜力，以创建有影响力和可访问的人工智能解决方案。

这种探索和创造精神也推动了我们CodeGemma和RecurrentGemma的发展， CodeGemma具有强大的代码完成和生成能力， RecurrentGemma提供了高效的推理和研究可能性。

Link to Youtube Video (visible only when JS is disabled)

Gemma是一系列轻量级、最先进的开放式模型，由用于创建Gemini模型的相同研究和技术构建而成。今天，我们很高兴能够通过推出PaliGemma进一步扩展Gemma家族，PaliGemma是一种功能强大的开放视觉语言模型（ VLM ），并且随着Gemma 2的发布，我们可以先睹为快。此外，我们正在通过更新负责任的生成式人工智能工具包，进一步履行我们对负责任的人工智能的承诺，为开发人员提供新的和增强性工具，用于评估模型安全性和过滤有害内容。

介绍PaliGemma ：开放视觉语言模型

PaliGemma是一款功能强大的开放式VLM ，灵感来自PaLI-3。PaliGemma建立在包括SigLIP视觉模型和Gemma语言模型在内的开放组件之上，旨在为各种视觉语言任务提供领先水平的微调性能。这包括图像和短视频字幕、可视化问答、理解图像中的文本、对象检测和对象分割。

我们提供多种分辨率的预训练和微调检查点，以及专门针对混合任务进行调整的检查点，以便立即探索。

为了促进开放式探索和研究， PaliGemma可通过多平台和资源提供实现。使用Kaggle和Colab笔记本电脑等免费选项，立即开始探索。寻求突破视觉语言研究界限的学术研究人员也可以申请Google Cloud学分来支持他们的工作。

立即开始使用PaliGemma。您可以在GitHub、 Hugging Face模型、 Kaggle、 Vertex AI Model Garden和ai.nvidia.com （通过TensoRT-LLM加速）上找到PaliGemma ，通过JAX和Hugging Face Transformers轻松集成。（ Keras集成即将推出）您还可以通过此拥抱面部空间与模型进行交互。

Screenshot from the HuggingFace Space running PaliGemma showing an image of a cat wearing a tiny hat, with his head on stack of four pancakes

运行PaliGemma的HuggingFace Space的屏幕截图

宣布Gemma 2 ：下一代性能和效率

我们很高兴地宣布，下一代Gemma型号Gemma 2即将推出。Gemma 2将提供新的尺寸，适用于广泛的人工智能开发人员用例，并具有专为突破性性能和效率而设计的全新架构，可提供以下优势：

一流领先性能：在270亿个参数下， Gemma 2以不到一半的尺寸提供与Llama 3 70B相媲美的性能。这种突破性的效率在开放模式领域树立了新的标准。

降低部署成本： Gemma 2的高效设计使其能够适应不到同类型号一半的计算量。27B型号经过优化，可以在NVIDIA的GPU上运行，也可以在Vertex AI的单个TPU主机上高效运行，从而为更广泛的用户提供更方便、更具成本效益的部署。

多功能调整工具链： Gemma 2将为开发人员提供跨平台和工具的多样化生态系统的强大调整功能。从基于云的解决方案（如Google Cloud ）到流行的社区工具（如Axolotl ），微调Gemma 2将比以往任何时候都更容易。此外，与Hugging Face和NVIDIA TensorRT-LLM以及我们自己的JAX和Keras的无缝合作伙伴集成，确保您可以优化性能并在各种硬件配置中进行高效部署。

Gemma pre-trained model performance benchmarks

Gemma 2仍在预训练。此图表显示了最新Gemma 2检查点的性能以及基准预训练指标。资料来源： Hugging Face Open LLM排行榜（ 2024年4月22日）和Grok公告博客

敬请期待Gemma 2在未来几周的正式发布！

扩展负责任的生成式人工智能工具包

出于这个原因，我们正在扩展我们的Responsible Generative AI Toolkit ，通过发布开源LLM Comparator来帮助开发人员进行更强大的模型评估。LLM 比较器是一种新的交互式和可视化工具，用于执行有效的并行评估，以评估模型回复的质量和安全性。要查看LLM比较器的实际操作，请查看我们的演示，其中展示了Gemma 1.1和Gemma 1.0之间的比较。

screenshot showing a side by side evaluation in the LLM Comparator

我们希望这个工具将进一步推进工具包的使命，即帮助开发人员创建不仅具有创新性，而且安全负责的人工智能应用程序。

随着我们不断扩大Gemma的开放模型系列，我们仍然致力于营造一个协作环境，让尖端的人工智能技术和负责任的开发齐头并进。我们很高兴看到您使用这些新工具构建了什么，以及我们如何共同塑造人工智能的未来。