Mô hình Gemma mở

Một dòng mô hình mở, gọn nhẹ, hiện đại, được xây dựng dựa trên chính nghiên cứu và công nghệ dùng để tạo ra các mô hình Gemini

Biểu trưng mô hình Gemma

Chịu trách nhiệm ngay từ khâu thiết kế

Kết hợp với các biện pháp an toàn toàn diện, những mô hình này giúp đảm bảo mang đến những giải pháp AI đáng tin cậy và có trách nhiệm thông qua các tập dữ liệu được tuyển chọn và những tính năng điều chỉnh nghiêm ngặt.

Biểu trưng mô hình Gemma

Hiệu suất chưa từng có ở quy mô lớn

Các mô hình Gemma đạt được kết quả điểm chuẩn vượt trội ở kích thước 2B và 7B, thậm chí còn vượt trội hơn một số mô hình mở lớn hơn.

Biểu trưng mô hình Gemma

Khung linh hoạt

Với Keras 3.0, bạn có thể tận hưởng khả năng tương thích liền mạch với JAX, TensorFlow và PyTorch, cho phép bạn dễ dàng chọn và chuyển đổi các khung tuỳ thuộc vào nhiệm vụ của mình.

Điểm chuẩn

Gemma thiết lập một tiêu chuẩn mới cho hiệu suất tiên tiến về kích thước so với các mẫu phổ biến như Llama 2 và Mistral 7B.

5 tấm, hàng đầu

Hàm MMLU

Điểm chuẩn MMLU là một bài kiểm tra đánh giá phạm vi kiến thức và khả năng giải quyết vấn đề mà các mô hình ngôn ngữ lớn có được trong quá trình huấn luyện trước.

ảnh 0

HellaSwag

Điểm chuẩn HellaSwag thử thách khả năng hiểu và áp dụng lập luận theo lý luận thông thường của một mô hình ngôn ngữ bằng cách chọn phần kết hợp lý nhất cho câu chuyện.

ảnh 0

PIQA (Khoá được chia sẻ trước)

Điểm chuẩn PIQA kiểm tra khả năng hiểu và áp dụng kiến thức vật lý thông thường của một mô hình ngôn ngữ bằng cách trả lời các câu hỏi về các tương tác vật lý thường ngày.

ảnh 0

SIQA

Điểm chuẩn SIQA đánh giá mức độ hiểu biết của một mô hình ngôn ngữ về tương tác xã hội và ý thức xã hội thông thường bằng cách đặt câu hỏi về hành động của người dùng và ý nghĩa xã hội của họ.

ảnh 0

Tiếng Boolq

Điểm chuẩn BoolQ kiểm tra khả năng trả lời các câu hỏi có/không xảy ra tự nhiên (tạo ra trong chế độ cài đặt không có gợi ý và không bị ràng buộc) của một mô hình ngôn ngữ, kiểm tra khả năng thực hiện các nhiệm vụ suy luận ngôn ngữ tự nhiên trong thế giới thực.

tính điểm một phần

Tiếng Winogrande

Điểm chuẩn Winogrande kiểm tra khả năng giải quyết các công việc điền vào chỗ trống không rõ ràng của mô hình ngôn ngữ bằng quyền chọn nhị phân, đòi hỏi khả năng lập luận chung tổng quát.

7 tấm

CQA (Quản lý chất lượng)

Điểm chuẩn CQA đánh giá hiệu suất của các mô hình ngôn ngữ ở câu hỏi trắc nghiệm, đòi hỏi nhiều loại kiến thức chung.

Hàm OBQA

Điểm chuẩn OBQA đánh giá khả năng trả lời câu hỏi nâng cao của một mô hình ngôn ngữ thông qua khả năng lập luận nhiều bước, kiến thức thông thường và khả năng hiểu văn bản đa dạng thức, được mô hình hoá sau các bài kiểm tra mở theo sách mở.

ARC-e

Điểm chuẩn ARC-e sẽ kiểm tra kỹ năng trả lời câu hỏi nâng cao của một mô hình ngôn ngữ thông qua các câu hỏi khoa học trắc nghiệm, cấp trường học thực sự.

ARC-C

Điểm chuẩn ARC-c là một tập dữ liệu ARC-e tập trung nhiều hơn, trong đó chỉ bao gồm những câu hỏi có câu trả lời sai bằng các thuật toán phổ biến (cơ sở truy xuất và từ cùng xuất hiện).

5 ảnh

TriviaQA

Điểm chuẩn của TriviaQA kiểm tra kỹ năng đọc hiểu với bộ ba số bằng chứng theo câu hỏi-trả lời.

truyền@1

HumanEval

Điểm chuẩn HumanEval kiểm thử khả năng tạo mã của mô hình ngôn ngữ bằng cách đánh giá xem các giải pháp của mô hình đó có vượt qua các bài kiểm thử đơn vị chức năng cho các vấn đề lập trình hay không.

Chụp 3 tấm

MBPP

Điểm chuẩn MBPP kiểm tra khả năng giải quyết các vấn đề lập trình Python cơ bản của mô hình ngôn ngữ, tập trung vào các khái niệm lập trình cơ bản và cách sử dụng thư viện tiêu chuẩn.

maj@1

GSM8K

Điểm chuẩn GSM8K kiểm tra khả năng giải các bài toán toán học ở cấp trường của một mô hình ngôn ngữ thường yêu cầu nhiều bước lập luận.

4 tấm

MATH

Điểm chuẩn MATH đánh giá khả năng giải các bài toán đố phức tạp của một mô hình ngôn ngữ, đòi hỏi khả năng suy luận, giải quyết vấn đề qua nhiều bước và hiểu biết về các khái niệm toán học.

AGIEval

Điểm chuẩn AGIEval kiểm tra trí thông minh tổng quát của mô hình ngôn ngữ bằng cách sử dụng các câu hỏi lấy từ các bài kiểm tra thực tế được thiết kế để đánh giá khả năng trí tuệ của con người (bài thi tuyển sinh đại học, bài thi luật, v.v.).

BBH

Điểm chuẩn BBH (BIG-Bench Hard) tập trung vào những nhiệm vụ được xem là vượt quá khả năng của các mô hình ngôn ngữ hiện tại, kiểm tra các giới hạn của những nhiệm vụ đó trên nhiều miền lý luận và hiểu biết.

100%

75%

50%

25%

0%

100%

75%

50%

25%

0%

Gemma

7 tỷ

64,3

Gemma

2 tỷ

42,3

Mistral

7 tỷ

62,5

LLAMA-2

13 tỷ

54,8

LLAMA-2

7 tỷ

45,3

Gemma

7 tỷ

81,2

Gemma

2 tỷ

71,4

Mistral

7 tỷ

81,0

LLAMA-2

13 tỷ

80,7

LLAMA-2

7 tỷ

77,2

Gemma

7 tỷ

81,2

Gemma

2 tỷ

77,3

Mistral

7 tỷ

82,2

LLAMA-2

13 tỷ

80,5

LLAMA-2

7 tỷ

78,8

Gemma

7 tỷ

51,8

Gemma

2 tỷ

49,7

Mistral

7 tỷ

47*

LLAMA-2

13 tỷ

50,3

LLAMA-2

7 tỷ

48,3

Gemma

7 tỷ

83,2

Gemma

2 tỷ

69,42

Mistral

7 tỷ

83,2*

LLAMA-2

13 tỷ

81,7

LLAMA-2

7 tỷ

77,4

Gemma

7 tỷ

72,3

Gemma

2 tỷ

65,4

Mistral

7 tỷ

74,2

LLAMA-2

13 tỷ

72,8

LLAMA-2

7 tỷ

69,2

Gemma

7 tỷ

71,3

Gemma

2 tỷ

65,3

Mistral

7 tỷ

66,3*

LLAMA-2

13 tỷ

67,3

LLAMA-2

7 tỷ

57,8

Gemma

7 tỷ

52,8

Gemma

2 tỷ

47,8

Mistral

7 tỷ

52,2

LLAMA-2

13 tỷ

57,0

LLAMA-2

7 tỷ

58,6

Gemma

7 tỷ

81,5

Gemma

2 tỷ

73,2

Mistral

7 tỷ

80,5

LLAMA-2

13 tỷ

77,3

LLAMA-2

7 tỷ

75,2

Gemma

7 tỷ

53,2

Gemma

2 tỷ

42,06

Mistral

7 tỷ

54,9

LLAMA-2

13 tỷ

49,4

LLAMA-2

7 tỷ

45,9

Gemma

7 tỷ

63,4

Gemma

2 tỷ

53,2

Mistral

7 tỷ

62,5

LLAMA-2

13 tỷ

79,6

LLAMA-2

7 tỷ

72,1

Gemma

7 tỷ

32,3

Gemma

2 tỷ

22,0

Mistral

7 tỷ

26,2

LLAMA-2

13 tỷ

18,3

LLAMA-2

7 tỷ

12,8

Gemma

7 tỷ

44,4

Gemma

2 tỷ

29,2

Mistral

7 tỷ

40,2*

LLAMA-2

13 tỷ

30,6

LLAMA-2

7 tỷ

20,8

Gemma

7 tỷ

46,4

Gemma

2 tỷ

17,7

Mistral

7 tỷ

35,4*

LLAMA-2

13 tỷ

28,7

LLAMA-2

7 tỷ

14,6

Gemma

7 tỷ

24,3

Gemma

2 tỷ

11,8

Mistral

7 tỷ

12,7

LLAMA-2

13 tỷ

3,9

LLAMA-2

7 tỷ

2.5

Gemma

7 tỷ

41,7

Gemma

2 tỷ

24,2

Mistral

7 tỷ

41,2*

LLAMA-2

13 tỷ

39,1

LLAMA-2

7 tỷ

29,3

Gemma

7 tỷ

55.1

Gemma

2 tỷ

35,2

Mistral

7 tỷ

56,1*

LLAMA-2

13 tỷ

39,4

LLAMA-2

7 tỷ

32,6

*Xem báo cáo kỹ thuật để biết chi tiết về hiệu suất với các phương pháp khác

Phát triển AI có trách nhiệm

Thiết kế để làm tròn trách nhiệm

Được đào tạo trước dựa trên dữ liệu được tuyển chọn kỹ lưỡng và điều chỉnh để đảm bảo an toàn, qua đó hỗ trợ phát triển AI một cách an toàn và có trách nhiệm thông qua các mô hình của Gemma.

Quy trình đánh giá mạnh mẽ và minh bạch

Hoạt động đánh giá toàn diện và báo cáo minh bạch cho thấy các giới hạn của mô hình để áp dụng cách tiếp cận có trách nhiệm cho từng trường hợp sử dụng.

Thúc đẩy phát triển có trách nhiệm

Bộ công cụ AI tạo sinh có trách nhiệm giúp nhà phát triển thiết kế và triển khai các phương pháp hay nhất về AI có trách nhiệm.

Biểu tượng Google Cloud

Được tối ưu hoá cho Google Cloud

Với các mô hình Gemma trên Google Cloud, bạn có thể tuỳ chỉnh mô hình theo nhu cầu cụ thể của mình bằng các công cụ được quản lý hoàn toàn của Vertex AI hoặc lựa chọn tự quản lý của GKE và triển khai mô hình đó cho cơ sở hạ tầng trí tuệ nhân tạo (AI) linh hoạt và tiết kiệm chi phí.

Đẩy nhanh quá trình nghiên cứu học thuật nhờ các khoản tín dụng của Google Cloud

Gần đây, Chương trình nghiên cứu học thuật đã kết thúc giai đoạn đăng ký và trao tín dụng của Google Cloud để hỗ trợ các nhà nghiên cứu mở rộng giới hạn khám phá khoa học bằng các mô hình Gemma. Chúng tôi rất vui mừng khi được chứng kiến những nghiên cứu mang tính đột phá của sáng kiến này.

Hãy chú ý theo dõi các cơ hội trong tương lai để thúc đẩy hoạt động nghiên cứu của bạn với Google Cloud.

Tham gia cộng đồng

Kết nối, khám phá và chia sẻ kiến thức với những người khác trong cộng đồng mô hình học máy.