토큰당 지불에 지원되는 모델

아티클
06/14/2024

Important

이 기능은 공개 미리 보기 상태입니다.

이 문서에서는 토큰당 종량제 모드에서 Databricks Foundation 모델 API에서 지원하는 최신 개방형 모델에 대해 설명합니다.

Databricks 작업 영역에서 사용할 수 있는 토큰당 종량제 엔드포인트를 사용하여 이러한 모델에 쿼리 요청을 보낼 수 있습니다. 쿼리 기본 모델을 참조하세요.

토큰당 종량제 모드에서 모델을 지원하는 것 외에도 Foundation Model API는 프로비전된 처리량 모드를 제공합니다. Databricks는 프로덕션 워크로드에 프로비전된 처리량을 권장합니다. 이 모드는 토큰당 종량제 모드에서 지원되는 미세 조정된 모델 및 사용자 지정 미리 학습된 모델을 포함하여 모델 아키텍처 제품군의 모든 모델(예: DBRX 모델)을 지원합니다. 지원되는 아키텍처 목록은 프로비전된 처리량 Foundation Model API를 참조하세요.

AI Playground를 사용하여 지원되는 이러한 모델과 상호 작용할 수 있습니다.

DBRX 지시

Important

DBRX 지시는 Databricks에서 학습한 MoE(전문가) 언어 모델의 최신 혼합물입니다.

이 모델은 표준 벤치마크에서 설정된 오픈 소스 모델을 능가하며 텍스트 요약, 질문 답변, 추출 및 코딩과 같은 광범위한 자연어 작업 집합에서 뛰어난 성능을 발휘합니다.

DBRX 지시는 입력 길이의 최대 32k 토큰을 처리할 수 있으며 최대 4k 토큰의 출력을 생성합니다. MoE 아키텍처 덕분에 DBRX Instruct는 유추에 매우 효율적이며 총 132B 학습된 매개 변수 중 36B 매개 변수만 활성화합니다. 이 모델을 제공하는 토큰당 종량제 엔드포인트의 속도 제한은 초당 쿼리 1개입니다. 모델 서비스 제한 및 지역을 참조 하세요.

다른 큰 언어 모델과 마찬가지로 DBRX 지시 출력은 일부 사실을 생략하고 때때로 거짓 정보를 생성할 수 있습니다. Databricks는 정확도가 특히 중요한 시나리오에서 RAG(검색 보강 생성)를 사용하는 것이 좋습니다.

DBRX 모델은 다음 기본 시스템 프롬프트를 사용하여 모델 응답에서 관련성과 정확도를 보장합니다.

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

메타 라마 3 70B 지시

Important

Meta-Llama-3-70B-Instruct는 메타가 빌드하고 학습한 8,000개의 토큰 컨텍스트를 가진 최신 70B 매개 변수 조밀 언어 모델입니다. 이 모델은 대화형 사용 사례에 최적화되어 있으며 유용성 및 안전을 위한 사용자 기본 설정과 일치합니다. 영어 이외의 언어로는 사용할 수 없습니다. Meta Llama 3 모델에 대해 자세히 알아봅니다.

다른 큰 언어 모델과 마찬가지로, Llama-3의 출력은 일부 사실을 생략하고 때때로 거짓 정보를 생성할 수 있습니다. Databricks는 정확도가 특히 중요한 시나리오에서 RAG(검색 보강 생성)를 사용하는 것이 좋습니다.

Llama 2 70B 채팅

Important

Llama-2-70B-Chat은 메타에서 학습한 컨텍스트 길이가 4,096 토큰인 최신 70B 매개 변수 언어 모델입니다. 요약, 질문 답변 및 채팅 애플리케이션을 비롯한 강력한 추론 기능이 필요한 대화형 애플리케이션에서 탁월합니다.

다른 큰 언어 모델과 마찬가지로, Llama-2-70B의 출력은 일부 사실을 생략하고 때때로 거짓 정보를 생성할 수 있습니다. Databricks는 정확도가 특히 중요한 시나리오에서 RAG(검색 보강 생성)를 사용하는 것이 좋습니다.

Mixtral-8x7B 지시

Mixtral-8x7B 지시는 Mistral AI에서 학습한 SMoE(전문가 모델)의 고품질 스파스 혼합물입니다. Mixtral-8x7B 지시는 질문 답변, 요약 및 추출과 같은 다양한 작업에 사용할 수 있습니다.

Mixtral은 최대 32k 토큰의 컨텍스트 길이를 처리할 수 있습니다. Mixtral은 영어, 프랑스어, 이탈리아어, 독일어 및 스페인어를 처리할 수 있습니다. Mixtral은 대부분의 벤치마크(Mixtral 성능)에서 라마 2 70B 및 GPT3.5를 일치하거나 능가하는 반면 유추 중에는 Llama 70B보다 4배 더 빠릅니다.

다른 큰 언어 모델과 마찬가지로 Mixtral-8x7B 지시 모델은 실제로 정확한 정보를 생성하는 데 의존해서는 안 됩니다. 사전 학습 데이터를 정리하기 위해 많은 노력을 기울였지만, 이 모델은 음란하거나 편향되거나 공격적인 출력을 생성할 수 있습니다. 위험을 줄이기 위해 Databricks는 기본적으로 Mistral의 안전 모드 시스템 프롬프트 변형을 사용합니다.

GTE Large(En)

Important

GTE(일반 텍스트 포함) 는 텍스트를 1024차원 포함 벡터와 8192 토큰의 포함 창에 매핑할 수 있는 텍스트 포함 모델입니다. 이러한 벡터는 LLM용 벡터 데이터베이스 및 검색, 분류, 질문 답변, 클러스터링 또는 의미 체계 검색과 같은 작업에 사용할 수 있습니다. 이 엔드포인트는 영어 버전의 모델을 제공합니다.

모델 포함은 RAG(검색 보강 생성) 사용 사례에 대해 LLM과 함께 사용할 때 특히 효과적입니다. GTE를 사용하여 LLM의 컨텍스트에서 사용할 수 있는 큰 문서 청크에서 관련 텍스트 조각을 찾을 수 있습니다.

BGE Large(En)

BAAI BGE(일반 포함) 는 모든 텍스트를 1024차원 포함 벡터 및 512 토큰의 포함 창에 매핑할 수 있는 텍스트 포함 모델입니다. 이러한 벡터는 LLM용 벡터 데이터베이스 및 검색, 분류, 질문 답변, 클러스터링 또는 의미 체계 검색과 같은 작업에 사용할 수 있습니다. 이 엔드포인트는 영어 버전의 모델을 제공합니다.

모델 포함은 RAG(검색 보강 생성) 사용 사례에 대해 LLM과 함께 사용할 때 특히 효과적입니다. BGE를 사용하여 LLM의 컨텍스트에서 사용할 수 있는 큰 문서 청크에서 관련 텍스트 조각을 찾을 수 있습니다.

RAG 애플리케이션에서는 명령 매개 변수를 포함하여 검색 시스템의 성능을 향상시킬 수 있습니다. BGE 작성자는 성능에 미치는 영향이 도메인에 따라 달라지지만 쿼리 포함에 대한 지침을 "Represent this sentence for searching relevant passages:" 시도하는 것이 좋습니다.

MPT 7B 지시

Important

MPT 7B 지시는 더 이상 사용되지 않습니다. 2024년 8월 30일 이후에는 이 모델이 더 이상 지원되지 않습니다.

MPT-7B-8K-Instruct는 MosaicML에서 학습한 6.7B 매개 변수 모델로, 특히 긴 문서의 질문 답변 및 요약에 대한 긴 형식의 지침을 제공합니다. 이 모델은 데이터 세트의 혼합에 대해 1.5T 토큰에 대해 미리 학습되고 Databricks Dolly-15k 및 Anthropic 도움이 되고 무해한(HH-RLHF) 데이터 세트에서 파생된 데이터 세트에 대해 미세 조정됩니다. 제품에 mpt-7b-instruct 표시되는 모델 이름은 최신 버전의 모델입니다.

MPT-7B-8K-Instruct는 질문 답변, 요약 및 추출과 같은 다양한 작업에 사용할 수 있습니다. Llama-2-70B에 비해 매우 빠르지만 품질이 낮은 응답을 생성할 수 있습니다. 이 모델은 8,000개 토큰의 컨텍스트 길이를 지원합니다. MPT-7B-8k-Instruct 모델에 대해 자세히 알아봅니다.

이 크기의 다른 언어 모델과 마찬가지로 MPT-7B-8K-Instruct는 실제로 정확한 정보를 생성하는 데 의존해서는 안 됩니다. 이 모델은 다양한 공용 데이터 세트에 대해 학습되었습니다. 사전 학습 데이터를 정리하기 위해 많은 노력을 기울였지만, 이 모델은 음란하거나 편향되거나 공격적인 출력을 생성할 수 있습니다.

MPT 30B 지시

Important

MPT 30B 지시 모델은 더 이상 사용되지 않습니다. 2024년 8월 30일 이후에는 이 모델이 더 이상 지원되지 않습니다.

MPT-30B-Instruct는 MosaicML에서 학습한 다음 명령을 위한 30B 매개 변수 모델입니다. 이 모델은 영어 텍스트와 코드가 혼합된 1T 토큰에 대해 미리 학습된 다음 Databricks Dolly-15k, Anthropic Helpful and Harmless(HH-RLHF), CompetitionMath, DuoRC, CoT GSM8k, QASPER, QuALITY, SummScreen 및 Spider 데이터 세트에서 파생된 데이터 세트에 대해 미세 조정된 추가 지침을 제공합니다.

MPT-30B-Instruct는 질문 답변, 요약 및 추출과 같은 다양한 작업에 사용할 수 있습니다. Llama-2-70B에 비해 매우 빠르지만 품질이 낮은 응답을 생성할 수 있으며 멀티 턴 채팅을 지원하지 않습니다. 이 모델은 8,192개의 토큰의 컨텍스트 길이를 지원합니다. MPT-30B 지시 모델에 대해 자세히 알아봅니다.

이 크기의 다른 언어 모델과 마찬가지로 MPT-30B-Instruct는 실제로 정확한 정보를 생성하는 데 의존해서는 안 됩니다. 이 모델은 다양한 공용 데이터 세트에 대해 학습되었습니다. 학습 전 데이터를 정리하기 위해 많은 노력을 기울였지만, 이 모델은 음란하거나 편향되거나 공격적인 출력을 생성할 수 있습니다.

다음을 통해 공유

토큰당 지불에 지원되는 모델

DBRX 지시

메타 라마 3 70B 지시

Llama 2 70B 채팅

Mixtral-8x7B 지시

GTE Large(En)

BGE Large(En)

MPT 7B 지시

MPT 30B 지시

추가 리소스

피드백

피드백

추가 리소스