OCR (reconhecimento óptico de caracteres)

OCR (reconhecimento óptico de caracteres) com a melhor IA do Google Cloud

Extraia textos e dados de imagens e documentos, transforme conteúdo não estruturado em dados estruturados para empresas e receba insights valiosos.

Integre as funcionalidades de OCR aos seus aplicativos usando APIs.

Novos clientes ganham US$ 300 em créditos ao se inscreverem para usar documentos que resumem as soluções de OCR.

Visão geral

O que é OCR?

O reconhecimento óptico de caracteres (OCR) é uma tecnologia básica por trás da conversão de texto digitado, escrito à mão ou impresso de imagens em texto codificado por máquina.

Que tipos de OCR o Google Cloud oferece?

O Google Cloud oferece dois tipos de OCR: OCR para documentos e OCR para imagens e vídeos.

Embora tenham uma tecnologia fundamental, o Document AI é uma plataforma de compreensão de documentos otimizada para o processamento de documentos. O extrator personalizado usa a tecnologia de IA generativa , que processa documentos genéricos e específicos do domínio com maior precisão e rapidez, sem a necessidade de escolher um processador especializado. 

O Cloud Vision costuma ser usado para detectar texto, escrita à mão e uma grande variedade de objetos de imagens e vídeos.

Como o OCR funciona no Google Cloud?

O Google Cloud gera OCR com a melhor IA do setor. Além de reconhecer o texto tradicional, ele é capaz de compreender, organizar e enriquecer dados, gerando insights prontos para os negócios. 

Ele oferece flexibilidade para usar as ferramentas de OCR como um pacote unificado para melhorar a eficiência (por exemplo, Document AI) ou simplesmente chama as APIs relevantes diretamente no console do Google Cloud para integrar funcionalidades de OCR aos seus aplicativos.

Como a IA e o OCR do Google Cloud funcionam juntos?

Todas as soluções de OCR mencionadas acima fornecem acesso a modelos de ML pré-treinados que podem ser implantados imediatamente por meio de uma API ou treinamento para melhorar a precisão para suas necessidades específicas. 

Também é possível treinar seus próprios modelos personalizados com o AutoML, sem precisar de experiência em machine learning. 

Confira a documentação do AutoML sobre como criar modelos de ML personalizados.

Qual é a melhor solução de OCR para mim?

Se você quiser analisar um documento ou criar um pipeline de processamento de documentos automatizado, use Document AI: ele cuida de todo o fluxo de trabalho em um só lugar, desde a compreensão de documentos até a pesquisa, o armazenamento, a governança e o gerenciamento deles em conjunto com os dados extraídos.

Se você quiser analisar e processar imagens, use o Cloud Vision com outros produtos do Google Cloud para ter melhores resultados. Consulte a seção "Usos comuns" para ver detalhes e guias de início rápido.

As duas APIs são gratuitas para teste com uma conta do Google Cloud.

Comparar as opções de OCR

Opção de OCRIdeal paraPrincipais recursos

Casos de uso gerais de extração de texto que exigem baixa latência e alta capacidade.

Recursos predefinidos como rotulagem de imagens, detecção facial e de pontos de referência, OCR e pesquisa segura. 

Enterprise Document OCR

Digitalize textos de documentos (PDFs, documentos digitalizados como imagens ou arquivos Microsoft DocX).

Extraia textos em mais de 200 idiomas e 50 idiomas escritos à mão.

Complementos para reconhecer fórmulas matemáticas, estilos etc.



Document AI Workbench

Extraia, classifique e divida todos os documentos com a IA generativa (modelos de fundação)

Extrator personalizado: usa modelos básicos para criar rapidamente analisadores sem precisar de treinamento ou rotulagem de dados extensiva.

Classificador personalizado e divisor de documentos para um processamento eficiente.

Modelos pré-treinados

Extração de texto e campo de documentos específicos do domínio.

Extração e digitalização de textos de vários documentos de compras, empréstimos, identidade e contratuais.

Ideal para

Principais recursos

Casos de uso gerais de extração de texto que exigem baixa latência e alta capacidade.

Recursos predefinidos como rotulagem de imagens, detecção facial e de pontos de referência, OCR e pesquisa segura. 

Ideal para

Enterprise Document OCR

Principais recursos

Digitalize textos de documentos (PDFs, documentos digitalizados como imagens ou arquivos Microsoft DocX).

Extraia textos em mais de 200 idiomas e 50 idiomas escritos à mão.

Complementos para reconhecer fórmulas matemáticas, estilos etc.



Ideal para

Document AI Workbench

Principais recursos

Extraia, classifique e divida todos os documentos com a IA generativa (modelos de fundação)

Extrator personalizado: usa modelos básicos para criar rapidamente analisadores sem precisar de treinamento ou rotulagem de dados extensiva.

Classificador personalizado e divisor de documentos para um processamento eficiente.

Ideal para

Modelos pré-treinados

Principais recursos

Extração de texto e campo de documentos específicos do domínio.

Extração e digitalização de textos de vários documentos de compras, empréstimos, identidade e contratuais.

Como funciona

Para entender e processar documentos, use a Document AI.

Para imagens, recomendamos o uso do Cloud Vision.

Ambos dão acesso a modelos de ML pré-treinados que podem ser implantados no estado em que se encontram por meio de APIs ou treinamento. Também é possível treinar seus próprios modelos personalizados do zero com o AutoML, sem precisar de experiência com ML. 

As primeiras 1.000 unidades do mês são gratuitas quando você usa o Cloud Vision ou o OCR de documentos. Faça um teste com uma simples chamada de API.

imagem mostrando os produtos de nuvem trabalhando juntos
Como o Cloud Vision reconhece e classifica imagens

Demonstração

Veja o OCR de documentos em ação com seus próprios documentos

Teste a API Document AI com um simples arrastar e soltar.

Usos comuns

Extraia textos de documentos com a IA generativa

Descubra insights de documentos diferenciados com a Document AI

Com base em um modelo básico, o Extrator personalizado da Document AI extrai textos e dados de documentos genéricos e específicos do domínio com mais rapidez e precisão. Ajuste facilmente com apenas de 5 a 10 documentos para um desempenho ainda melhor.

Se você quiser treinar seu próprio modelo, rotule automaticamente seus conjuntos de dados com o modelo de fundação para acelerar o tempo de produção.

Também é possível usar processadores especializados pré-treinados. Veja a lista completa de processadores.


Implantar a API Document AI

Descubra insights de documentos diferenciados com a Document AI

Com base em um modelo básico, o Extrator personalizado da Document AI extrai textos e dados de documentos genéricos e específicos do domínio com mais rapidez e precisão. Ajuste facilmente com apenas de 5 a 10 documentos para um desempenho ainda melhor.

Se você quiser treinar seu próprio modelo, rotule automaticamente seus conjuntos de dados com o modelo de fundação para acelerar o tempo de produção.

Também é possível usar processadores especializados pré-treinados. Veja a lista completa de processadores.


Implantar a API Document AI

Cooper usa IA do Google para acelerar o processamento de hipotecas

Cooper é um dos maiores prestadores de serviços de empréstimo para casas no país com foco em fornecer diversos produtos de serviços e empréstimos, bem como serviços e tecnologias para proprietários.

A empresa criou um pipeline de processamento de documentos baseado em contêiner com uma arquitetura modular na pilha de tecnologia de OCR do Google e teve estes resultados:

- Mais de 95% de precisão para documentos essenciais.

- Capacidade máxima de 4.000 páginas/min, uma capacidade média de 2.000 páginas/min.

- Aumento de 400% na eficiência de processamento de documentos.

Leia o estudo de caso completo para ver detalhes técnicos
Diagrama da arquitetura do pipeline de processamento de documentos do Mr. Cooper

    Crie uma solução de documentos completa

    Criar um pipeline de processamento e compreensão de documentos

    Com a tecnologia de IA generativa, a Document AI oferece grande precisão na extração de dados de documentos com layouts e qualidades variados. É possível conectá-lo ao Cloud Storage para que seus documentos não estruturados tenham conformidade de nível empresarial. O BigQuery ajuda a processar e analisar em lote os dados extraídos da maneira que você quiser. Com o Looker, é fácil criar visualizações com base nas suas tabelas do BigQuery. Com a Vertex AI para Pesquisa, é possível consultar e pesquisar seus documentos no Cloud Storage, de forma conversacional ou tradicional.

    Implantar a API Document AI
    Arquitetura de referência de uma solução de documento completa com vários produtos do Google Cloud

    A configuração de todo o pipeline leva de 60 a 90 minutos, conforme mostrado. A parte da Document AI leva 10 minutos.

    Criar um pipeline de processamento e compreensão de documentos

    Com a tecnologia de IA generativa, a Document AI oferece grande precisão na extração de dados de documentos com layouts e qualidades variados. É possível conectá-lo ao Cloud Storage para que seus documentos não estruturados tenham conformidade de nível empresarial. O BigQuery ajuda a processar e analisar em lote os dados extraídos da maneira que você quiser. Com o Looker, é fácil criar visualizações com base nas suas tabelas do BigQuery. Com a Vertex AI para Pesquisa, é possível consultar e pesquisar seus documentos no Cloud Storage, de forma conversacional ou tradicional.

    Implantar a API Document AI
    Arquitetura de referência de uma solução de documento completa com vários produtos do Google Cloud

    A configuração de todo o pipeline leva de 60 a 90 minutos, conforme mostrado. A parte da Document AI leva 10 minutos.

    Extrair texto de imagens

    Extrair texto de imagens com a API Cloud Vision

    Com a API Cloud Vision, é possível detectar e extrair texto e escrita à mão de qualquer imagem em diferentes idiomas. Ela também tem suporte a várias regiões para as quais é possível especificar o armazenamento de dados e o processamento de OCR em nível de continente.

    É possível conseguir resultados imediatos para um pequeno número de imagens (até 16 por solicitação) ou processo em lote para um número maior de imagens (até 2.000 por solicitação) de maneira assíncrona para um resultado mais tarde.

    Implantar a API Cloud Vision
    Arquitetura de referência da API Cloud Vision

    Extrair texto de imagens com a API Cloud Vision

    Com a API Cloud Vision, é possível detectar e extrair texto e escrita à mão de qualquer imagem em diferentes idiomas. Ela também tem suporte a várias regiões para as quais é possível especificar o armazenamento de dados e o processamento de OCR em nível de continente.

    É possível conseguir resultados imediatos para um pequeno número de imagens (até 16 por solicitação) ou processo em lote para um número maior de imagens (até 2.000 por solicitação) de maneira assíncrona para um resultado mais tarde.

    Implantar a API Cloud Vision
    Arquitetura de referência da API Cloud Vision

    Exemplo de preço

    Para executar um pipeline de processamento básico que extrai texto de imagens, conforme mostrado à direita, seu custo mensal seria de US$ 27,36.

    É possível verificar as suposições de uso feitas para chegar a esse número na calculadora de preços.

    As primeiras 1.000 unidades por mês são gratuitas.

    Entre em contato conosco para realizar uma configuração mais complexa
    Processo de imagem

      Preços

      Quanto custa meu caso de uso?Entenda seu custo mensal para resolver um caso de uso com os produtos de que você precisa e as principais suposições de uso definidas.
      Caso de usoProdutos usadosHipóteses de usoCusto mensal estimado (USD)
      Inclusão de tag, processamento e pesquisa de imagens

      Cloud Vision

      Cloud Storage

      Pub/Sub

      Cloud Run

      1. 15.000 chamadas de API de detecção de rótulos do Cloud Vision mensalmente

      2. 100 GiB de armazenamento mensal

      3. Uma CPU de 1,25 GiB

      4. Quatro GiB publicados diariamente pelo Pub/Sub

      Ver detalhes do cálculo na calculadora

      US$ 27,36

      Extraia textos e insights de documentos

      Document AI

      Cloud Storage

      BigQuery

      Cloud Functions

      1. 1.000 chamadas de API do analisador de formulários da Document AI

      2. 100 GiB de armazenamento mensal

      3. Consultas mensais de 1 TiB

      4. RAM: 512 MB, CPU: 800 MHz

      Ver detalhes do cálculo na calculadora

      US$ 71,87

      Extrair texto de imagens

      Cloud Vision

      Cloud Storage

      Pub/Sub

      Cloud Run

      1. 15.000 chamadas da API Cloud Vision OCR por mês

      2. 100 GiB de armazenamento mensal

      3. Uma CPU de 1,25 GiB

      4. Quatro GiB publicados diariamente pelo Pub/Sub

      Ver detalhes do cálculo na calculadora

      US$ 27,36

      Confira todos os detalhes de preços unitários para Document AI, API Vision e AutoML.

      Quanto custa meu caso de uso?

      Entenda seu custo mensal para resolver um caso de uso com os produtos de que você precisa e as principais suposições de uso definidas.

      Inclusão de tag, processamento e pesquisa de imagens
      Produtos usados

      Cloud Vision

      Cloud Storage

      Pub/Sub

      Cloud Run

      Hipóteses de uso

      1. 15.000 chamadas de API de detecção de rótulos do Cloud Vision mensalmente

      2. 100 GiB de armazenamento mensal

      3. Uma CPU de 1,25 GiB

      4. Quatro GiB publicados diariamente pelo Pub/Sub

      Ver detalhes do cálculo na calculadora

      Custo mensal estimado (USD)

      US$ 27,36

      Extraia textos e insights de documentos
      Produtos usados

      Document AI

      Cloud Storage

      BigQuery

      Cloud Functions

      Hipóteses de uso

      1. 1.000 chamadas de API do analisador de formulários da Document AI

      2. 100 GiB de armazenamento mensal

      3. Consultas mensais de 1 TiB

      4. RAM: 512 MB, CPU: 800 MHz

      Ver detalhes do cálculo na calculadora

      Custo mensal estimado (USD)

      US$ 71,87

      Extrair texto de imagens
      Produtos usados

      Cloud Vision

      Cloud Storage

      Pub/Sub

      Cloud Run

      Hipóteses de uso

      1. 15.000 chamadas da API Cloud Vision OCR por mês

      2. 100 GiB de armazenamento mensal

      3. Uma CPU de 1,25 GiB

      4. Quatro GiB publicados diariamente pelo Pub/Sub

      Ver detalhes do cálculo na calculadora

      Custo mensal estimado (USD)

      US$ 27,36

      Confira todos os detalhes de preços unitários para Document AI, API Vision e AutoML.

      Calculadora de preços

      Estime o custo do seu projeto reunindo todas as ferramentas necessárias em um único lugar.

      Cota personalizada

      Entre em contato com nossa equipe de vendas e receba uma cotação personalizada para as necessidades da sua organização.

      Comece sua prova de conceito

      Clientes novos ganham até US$ 300 em créditos para testar produtos de IA do Google Cloud

      Confira amostras de código para soluções de OCR e casos de uso

      Saiba como detectar rótulos com a API Cloud Vision

      Saiba como automatizar um pipeline de processamento de documentos com a IA do Google

      Google Cloud
      • ‪English‬
      • ‪Deutsch‬
      • ‪Español‬
      • ‪Español (Latinoamérica)‬
      • ‪Français‬
      • ‪Indonesia‬
      • ‪Italiano‬
      • ‪Português (Brasil)‬
      • ‪简体中文‬
      • ‪繁體中文‬
      • ‪日本語‬
      • ‪한국어‬
      Console
      Google Cloud