기본 제공 AI

Kenji Baheux
Kenji Baheux
Alexandra Klepper
Alexandra Klepper

웹에서 AI 모델로 기능을 빌드할 때 더 큰 모델을 만들기 위해 서버 측 솔루션을 사용하는 경우가 많습니다. 이는 가장 작은 모델도 웹페이지 크기 중앙값보다 약 천 배 더 큰 생성형 AI의 경우에 특히 그러합니다. 모델의 범위가 10~100MB인 다른 AI 사용 사례도 마찬가지입니다.

이러한 모델은 웹사이트 간에 공유되지 않으므로 페이지 로드 시 각 사이트에서 모델을 다운로드해야 합니다. 이는 개발자와 사용자가 비현실적인 방식으로

서버 측 AI는 대규모 모델에 적합한 옵션이지만 온디바이스 및 하이브리드 방식에는 자체적인 강력한 장점이 있습니다. 이러한 접근 방식을 실행하려면 모델 크기와 모델 제공 문제를 해결해야 합니다.

이러한 이유로 Google은 대규모 언어 모델 (LLM)을 비롯한 AI 모델을 브라우저에 직접 통합하도록 설계된 웹 플랫폼 API와 브라우저 기능을 개발하고 있습니다. 여기에는 LLM의 Gemini 제품군 중 가장 효율적인 버전인 Gemini Nano가 포함됩니다. 이 버전은 대부분의 최신 데스크톱 및 노트북 컴퓨터에서 로컬로 실행되도록 설계되었습니다. 기본 제공 AI를 사용하면 웹사이트 또는 웹 애플리케이션에서 자체 AI 모델을 배포하거나 관리할 필요 없이 AI 기반 작업을 수행할 수 있습니다.

기본 제공 AI의 이점과 구현 계획, 이 기술을 활용하는 방법을 알아보세요.

사전 체험판 이용

API를 구성하고, API가 사용 사례를 충족하는지 확인하고, 표준화를 위해 다른 브라우저 공급업체와 논의하는 데 필요한 여러분의 의견이 필요합니다.

조기 미리보기 프로그램에 참여하여 초기 단계의 기본 제공 AI 아이디어에 대한 의견을 제공하고 로컬 프로토타입 제작을 통해 진행 중인 API를 테스트할 기회를 찾아보세요.

Chrome AI 개발자 공개 공지사항 그룹에 가입하여 새 API가 출시될 때 알림을 받으세요.

웹 개발자를 위한 기본 제공 AI 이점

기본 제공 AI를 통해 브라우저는 기반 및 전문가 모델을 제공하고 관리합니다.

온디바이스 AI를 직접 실행하는 경우와 비교할 때 내장 AI는 다음과 같은 이점을 제공합니다.

  • 용이한 배포: 브라우저가 모델을 배포할 때 기기의 기능을 고려하고 모델 업데이트를 관리합니다. 즉, 사용자가 네트워크를 통해 대규모 모델을 다운로드하거나 업데이트할 필요가 없습니다. 스토리지 제거, 런타임 메모리 예산, 제공 비용 및 기타 문제를 해결할 필요가 없습니다.
  • 하드웨어 가속 액세스: 브라우저의 AI 런타임은 GPU나 NPU 또는 CPU로 대체와 같은 사용 가능한 하드웨어를 최대한 활용하도록 최적화되어 있습니다. 따라서 앱이 각 기기에서 최고의 성능을 얻을 수 있습니다.

온디바이스 실행의 이점

내장된 AI 접근 방식을 사용하면 기기에서 AI 작업을 수행하기가 간단해지므로 다음과 같은 이점이 있습니다.

  • 민감한 정보의 로컬 처리: 온디바이스 AI는 개인 정보 보호 스토리를 개선할 수 있습니다. 예를 들어 민감한 정보로 작업하는 경우 엔드 투 엔드 암호화를 통해 사용자에게 AI 기능을 제공할 수 있습니다.
  • Snappy 사용자 환경: 경우에 따라 서버로의 왕복을 생략하면 거의 즉각적인 결과를 제공할 수 있습니다. 온디바이스 AI는 실행 가능한 기능과 최적화되지 않은 사용자 환경의 차이일 수 있습니다.
  • AI 액세스 확대: 사용자 기기에서 추가 기능 액세스를 이용하는 대가로 일부 처리 부하를 부담할 수 있습니다. 예를 들어 프리미엄 AI 기능을 제공하는 경우 기기 내 AI로 이러한 기능을 미리 볼 수 있으므로 잠재고객이 추가 비용 없이 제품의 이점을 확인할 수 있습니다. 이러한 하이브리드 접근 방식은 특히 자주 사용되는 사용자 흐름에서 추론 비용을 관리하는 데도 도움이 됩니다.
  • 오프라인 AI 사용: 사용자는 인터넷에 연결되어 있지 않아도 AI 기능에 액세스할 수 있습니다. 즉, 사이트와 웹 앱이 오프라인에서 또는 다양한 연결로 예상대로 작동할 수 있습니다.

하이브리드 AI: 기기 내 및 서버 측

온디바이스 AI는 다양한 사용 사례를 처리할 수 있지만 서버 측 지원이 필요한 특정 사용 사례도 있습니다.

예를 들어 더 큰 모델을 사용하거나 다양한 플랫폼 및 기기를 지원해야 할 수 있습니다.

다음에 따라 하이브리드 접근 방식을 고려할 수 있습니다.

  • 복잡성: 구체적이고 접근하기 쉬운 사용 사례를 기기 내 AI로 더욱 쉽게 지원할 수 있습니다. 복잡한 사용 사례의 경우 서버 측 구현을 고려하세요.
  • 복원력: 기본적으로 서버 측을 사용하고, 기기가 오프라인 상태이거나 연결이 불안정한 경우 기기에서 사용합니다.
  • 단계적 대체: AI가 내장된 브라우저를 채택하는 데는 시간이 걸리고 일부 모델을 사용할 수 없으며 구형 또는 덜 강력한 기기가 모든 모델을 최적으로 실행하기 위한 하드웨어 요구사항을 충족하지 못할 수 있습니다. 이러한 사용자에게 서버 측 AI를 제공하세요.

Gemini 모델의 경우 백엔드 통합 (Python, Go, Node.js 또는 REST)을 사용하거나 새로운 웹용 Google AI 클라이언트 SDK를 사용하여 웹 애플리케이션에서 구현할 수 있습니다.

브라우저 아키텍처 및 API

Google은 Chrome에 내장된 AI를 지원하기 위해 기기 내 실행을 위한 기반 및 전문가 모델에 액세스하는 인프라를 만들었습니다. 이 인프라는 이미 작성 지원 기능과 같은 혁신적인 브라우저 기능을 지원하고 있으며 곧 온디바이스 AI용 API를 지원할 예정입니다.

기본 제공 AI 기능은 주로 translation API 또는 요약 API와 같은 작업 API를 사용하여 액세스합니다. Task API는 할당에 가장 적합한 모델을 대상으로 추론을 실행하도록 설계되었습니다.

Chrome에서 이러한 API는 미세 조정 또는 전문가 모델을 사용하여 Gemini Nano에 대한 추론을 실행하도록 빌드되었습니다. 대부분의 최신 기기에서 로컬로 실행되도록 설계된 Gemini Nano는 요약, 문구 수정 또는 분류와 같은 언어 관련 사용 사례에 가장 적합합니다.

또한 Google은 개발자가 로컬에서 실험하고 추가 사용 사례를 공유할 수 있도록 탐색적 API를 제공하려고 합니다.

예를 들면 다음과 같습니다.

  • 프롬프트 API: 자연어로 표현된 임의의 작업을 기본 제공 대규모 언어 모델 (Chrome의 Gemini Nano)에 전송합니다.
  • 미세 조정 (LoRA) API: 낮은 순위 조정 미세 조정으로 모델의 가중치를 조정하여 작업에 대한 기본 제공 LLM의 성능을 개선합니다.
이 다이어그램은 웹사이트 또는 앱에서 작업 및 탐색적 웹 플랫폼 API를 사용하여 Chrome에 내장된 모델에 액세스하는 방법을 보여줍니다.

기본 제공 AI를 사용해야 하는 경우

기본 제공 AI가 개발자와 사용자에게 도움이 될 것으로 기대되는 방식은 다음과 같습니다.

  • AI로 향상된 콘텐츠 소비: 요약, 번역, 일부 콘텐츠에 대한 질문에 답변, 분류, 특성 지정이 포함됩니다.
  • AI 지원 콘텐츠 생성: 글쓰기 지원, 교정, 문법 교정, 문구 수정 등

다음 단계

조기 미리보기 프로그램에 참여하여 초기 단계의 내장 AI API를 실험해 보세요.

그동안 Google AI JavaScript SDK 빠른 시작에서 웹사이트 및 웹 앱과 함께 Google 서버에서 Gemini Pro를 사용하는 방법을 알아볼 수 있습니다.