O OCR de documentos agora usa a tecnologia de IA generativa. Confira como os modelos de fundação oferecem velocidade e acurácia.

OCR (reconhecimento óptico de caracteres)

OCR (reconhecimento óptico de caracteres) com a melhor IA do Google Cloud

Extraia textos e dados de imagens e documentos, transforme conteúdo não estruturado em dados estruturados para empresas e receba insights valiosos.

Integre as funcionalidades de OCR aos seus aplicativos usando APIs.

Implantar agora Solicite uma demonstração

Novos clientes ganham US$ 300 em créditos ao se inscreverem para usar documentos que resumem as soluções de OCR.

Visão geral

O que é OCR?

O reconhecimento óptico de caracteres (OCR) é uma tecnologia básica por trás da conversão de texto digitado, escrito à mão ou impresso de imagens em texto codificado por máquina.

Que tipos de OCR o Google Cloud oferece?

O Google Cloud oferece dois tipos de OCR: OCR para documentos e OCR para imagens e vídeos.

Embora tenham uma tecnologia fundamental, o Document AI é uma plataforma de compreensão de documentos otimizada para o processamento de documentos. O extrator personalizado usa a tecnologia de IA generativa , que processa documentos genéricos e específicos do domínio com maior precisão e rapidez, sem a necessidade de escolher um processador especializado.

O Cloud Vision costuma ser usado para detectar texto, escrita à mão e uma grande variedade de objetos de imagens e vídeos.

Como o OCR funciona no Google Cloud?

O Google Cloud gera OCR com a melhor IA do setor. Além de reconhecer o texto tradicional, ele é capaz de compreender, organizar e enriquecer dados, gerando insights prontos para os negócios.

Ele oferece flexibilidade para usar as ferramentas de OCR como um pacote unificado para melhorar a eficiência (por exemplo, Document AI) ou simplesmente chama as APIs relevantes diretamente no console do Google Cloud para integrar funcionalidades de OCR aos seus aplicativos.

imagem mostrando as funcionalidades da Document AI

VÍDEO

O que é a Document AI?

4:36

Como a IA e o OCR do Google Cloud funcionam juntos?

Todas as soluções de OCR mencionadas acima fornecem acesso a modelos de ML pré-treinados que podem ser implantados imediatamente por meio de uma API ou treinamento para melhorar a precisão para suas necessidades específicas.

Também é possível treinar seus próprios modelos personalizados com o AutoML, sem precisar de experiência em machine learning.

Confira a documentação do AutoML sobre como criar modelos de ML personalizados.

VÍDEO

Quando e como criar e treinar modelos de ML com o AutoML

2:11

Qual é a melhor solução de OCR para mim?

Se você quiser analisar um documento ou criar um pipeline de processamento de documentos automatizado, use Document AI: ele cuida de todo o fluxo de trabalho em um só lugar, desde a compreensão de documentos até a pesquisa, o armazenamento, a governança e o gerenciamento deles em conjunto com os dados extraídos.

Se você quiser analisar e processar imagens, use o Cloud Vision com outros produtos do Google Cloud para ter melhores resultados. Consulte a seção "Usos comuns" para ver detalhes e guias de início rápido.

As duas APIs são gratuitas para teste com uma conta do Google Cloud.

Comparar as opções de OCR

Opção de OCR	Ideal para	Principais recursos
API Cloud Vision		Casos de uso gerais de extração de texto que exigem baixa latência e alta capacidade.	Recursos predefinidos como rotulagem de imagens, detecção facial e de pontos de referência, OCR e pesquisa segura.
Document AI	Enterprise Document OCR	Digitalize textos de documentos (PDFs, documentos digitalizados como imagens ou arquivos Microsoft DocX).	Extraia textos em mais de 200 idiomas e 50 idiomas escritos à mão. Complementos para reconhecer fórmulas matemáticas, estilos etc.
	Document AI Workbench	Extraia, classifique e divida todos os documentos com a IA generativa (modelos de fundação)	Extrator personalizado: usa modelos básicos para criar rapidamente analisadores sem precisar de treinamento ou rotulagem de dados extensiva. Classificador personalizado e divisor de documentos para um processamento eficiente.
	Modelos pré-treinados	Extração de texto e campo de documentos específicos do domínio.	Extração e digitalização de textos de vários documentos de compras, empréstimos, identidade e contratuais.

API Cloud Vision

Ideal para

Principais recursos

Casos de uso gerais de extração de texto que exigem baixa latência e alta capacidade.

Recursos predefinidos como rotulagem de imagens, detecção facial e de pontos de referência, OCR e pesquisa segura.

Document AI

Ideal para

Enterprise Document OCR

Principais recursos

Digitalize textos de documentos (PDFs, documentos digitalizados como imagens ou arquivos Microsoft DocX).

Extraia textos em mais de 200 idiomas e 50 idiomas escritos à mão.

Complementos para reconhecer fórmulas matemáticas, estilos etc.

Ideal para

Document AI Workbench

Principais recursos

Extraia, classifique e divida todos os documentos com a IA generativa (modelos de fundação)

Extrator personalizado: usa modelos básicos para criar rapidamente analisadores sem precisar de treinamento ou rotulagem de dados extensiva.

Classificador personalizado e divisor de documentos para um processamento eficiente.

Ideal para

Modelos pré-treinados

Principais recursos

Extração de texto e campo de documentos específicos do domínio.

Extração e digitalização de textos de vários documentos de compras, empréstimos, identidade e contratuais.

Como funciona

Para entender e processar documentos, use a Document AI.

Para imagens, recomendamos o uso do Cloud Vision.

Ambos dão acesso a modelos de ML pré-treinados que podem ser implantados no estado em que se encontram por meio de APIs ou treinamento. Também é possível treinar seus próprios modelos personalizados do zero com o AutoML, sem precisar de experiência com ML.

As primeiras 1.000 unidades do mês são gratuitas quando você usa o Cloud Vision ou o OCR de documentos. Faça um teste com uma simples chamada de API.

Testar a Cloud Vision API

imagem mostrando os produtos de nuvem trabalhando juntos

Como o Cloud Vision reconhece e classifica imagens

Demonstração

Veja o OCR de documentos em ação com seus próprios documentos

Teste a API Document AI com um simples arrastar e soltar.

Usos comuns

Extraia textos de documentos com a IA generativa

Descubra insights de documentos diferenciados com a Document AI

Com base em um modelo básico, o Extrator personalizado da Document AI extrai textos e dados de documentos genéricos e específicos do domínio com mais rapidez e precisão. Ajuste facilmente com apenas de 5 a 10 documentos para um desempenho ainda melhor.

Se você quiser treinar seu próprio modelo, rotule automaticamente seus conjuntos de dados com o modelo de fundação para acelerar o tempo de produção.

Também é possível usar processadores especializados pré-treinados. Veja a lista completa de processadores.

Implantar a API Document AI

Dois palestrantes ao lado do nome do evento: como o OCR e a IA generativa podem turbinar sua empresa

25:47

Tutoriais

Descubra insights de documentos diferenciados com a Document AI

Com base em um modelo básico, o Extrator personalizado da Document AI extrai textos e dados de documentos genéricos e específicos do domínio com mais rapidez e precisão. Ajuste facilmente com apenas de 5 a 10 documentos para um desempenho ainda melhor.

Se você quiser treinar seu próprio modelo, rotule automaticamente seus conjuntos de dados com o modelo de fundação para acelerar o tempo de produção.

Também é possível usar processadores especializados pré-treinados. Veja a lista completa de processadores.

Implantar a API Document AI

25:47

Exemplos de clientes

Cooper usa IA do Google para acelerar o processamento de hipotecas

Cooper é um dos maiores prestadores de serviços de empréstimo para casas no país com foco em fornecer diversos produtos de serviços e empréstimos, bem como serviços e tecnologias para proprietários.

A empresa criou um pipeline de processamento de documentos baseado em contêiner com uma arquitetura modular na pilha de tecnologia de OCR do Google e teve estes resultados:

- Mais de 95% de precisão para documentos essenciais.

- Capacidade máxima de 4.000 páginas/min, uma capacidade média de 2.000 páginas/min.

- Aumento de 400% na eficiência de processamento de documentos.

Leia o estudo de caso completo para ver detalhes técnicos

Diagrama da arquitetura do pipeline de processamento de documentos do Mr. Cooper

Crie uma solução de documentos completa

Criar um pipeline de processamento e compreensão de documentos

Com a tecnologia de IA generativa, a Document AI oferece grande precisão na extração de dados de documentos com layouts e qualidades variados. É possível conectá-lo ao Cloud Storage para que seus documentos não estruturados tenham conformidade de nível empresarial. O BigQuery ajuda a processar e analisar em lote os dados extraídos da maneira que você quiser. Com o Looker, é fácil criar visualizações com base nas suas tabelas do BigQuery. Com a Vertex AI para Pesquisa, é possível consultar e pesquisar seus documentos no Cloud Storage, de forma conversacional ou tradicional.

Implantar a API Document AI

Arquitetura de referência de uma solução de documento completa com vários produtos do Google Cloud

Laboratório prático: criar um pipeline completo de captura de dados usando a Document AI e o Cloud Functions

A configuração de todo o pipeline leva de 60 a 90 minutos, conforme mostrado. A parte da Document AI leva 10 minutos.

Tutoriais

Criar um pipeline de processamento e compreensão de documentos

Com a tecnologia de IA generativa, a Document AI oferece grande precisão na extração de dados de documentos com layouts e qualidades variados. É possível conectá-lo ao Cloud Storage para que seus documentos não estruturados tenham conformidade de nível empresarial. O BigQuery ajuda a processar e analisar em lote os dados extraídos da maneira que você quiser. Com o Looker, é fácil criar visualizações com base nas suas tabelas do BigQuery. Com a Vertex AI para Pesquisa, é possível consultar e pesquisar seus documentos no Cloud Storage, de forma conversacional ou tradicional.

Implantar a API Document AI

Laboratório prático: criar um pipeline completo de captura de dados usando a Document AI e o Cloud Functions

A configuração de todo o pipeline leva de 60 a 90 minutos, conforme mostrado. A parte da Document AI leva 10 minutos.

Inclusão de tag, processamento e pesquisa de imagens

Usar a API Cloud Vision e o AutoML para marcar e processar imagens

A marcação de imagem também é conhecida como rotulagem de imagens.

A API Cloud Vision pode identificar e rotular objetos gerais, pontos de referência, locais, logotipos, atividades, espécies de animais, produtos e muito mais em uma imagem. Depois que as imagens são marcadas com os rótulos detectados, a pesquisa, o processamento e o gerenciamento de imagens são automatizados e ficam mais fáceis.

Se você precisar de rótulos personalizados segmentados, use o Cloud AutoML para treinar um modelo de ML personalizado.

Para usar as tecnologias de OCR do Google no local, use OCR no local, disponível no Cloud Marketplace.

Implantar a API Cloud Vision

diagrama de arquitetura que mostra como o ML automático e a Cloud Vision AI funcionam com outros produtos do Google Cloud para analisar imagens

Tutoriais

Usar a API Cloud Vision e o AutoML para marcar e processar imagens

A marcação de imagem também é conhecida como rotulagem de imagens.

A API Cloud Vision pode identificar e rotular objetos gerais, pontos de referência, locais, logotipos, atividades, espécies de animais, produtos e muito mais em uma imagem. Depois que as imagens são marcadas com os rótulos detectados, a pesquisa, o processamento e o gerenciamento de imagens são automatizados e ficam mais fáceis.

Se você precisar de rótulos personalizados segmentados, use o Cloud AutoML para treinar um modelo de ML personalizado.

Para usar as tecnologias de OCR do Google no local, use OCR no local, disponível no Cloud Marketplace.

Implantar a API Cloud Vision

Outros recursos

Exemplo de preço

Para executar um pipeline básico de processamento de imagens que detecta rótulos, conforme mostrado à direita, seu custo mensal seria de US$ 27,36.

É possível verificar as suposições de uso feitas para chegar a esse número na calculadora de preços.

As primeiras 1.000 unidades por mês são gratuitas.

Entre em contato conosco pelo custo de uma configuração mais complexa

Arquitetura de referência de pesquisa, processamento e inclusão de tags em imagens

Exemplos de clientes

O AutoML ajuda os cientistas a prever e rastrear mudanças no Shoreline

Usando o Cloud AutoML, os pesquisadores da Texas A&M University treinaram um modelo de conjunto de dados com vários rótulos usando 10.458 imagens da Shoreline em 24 horas de computação O modelo ajudou os pesquisadores a prever e rastrear alterações na costa com uma precisão média de 95,2%.

O AutoML ofereceu mais flexibilidade para treinar modelos avançados usando as imagens de treinamento, permitindo que a equipe inspecionasse os dados e analisasse os resultados com uma IU intuitiva e fornecendo uma API para exibição escalonável.

Leia o estudo de caso completo para ver detalhes técnicos

imagem mostrando o resultado de treinamento de ML com vários rótulos

Extrair texto de imagens

Extrair texto de imagens com a API Cloud Vision

Com a API Cloud Vision, é possível detectar e extrair texto e escrita à mão de qualquer imagem em diferentes idiomas. Ela também tem suporte a várias regiões para as quais é possível especificar o armazenamento de dados e o processamento de OCR em nível de continente.

É possível conseguir resultados imediatos para um pequeno número de imagens (até 16 por solicitação) ou processo em lote para um número maior de imagens (até 2.000 por solicitação) de maneira assíncrona para um resultado mais tarde.

Implantar a API Cloud Vision

Arquitetura de referência da API Cloud Vision

Tutoriais

Extrair texto de imagens com a API Cloud Vision

Com a API Cloud Vision, é possível detectar e extrair texto e escrita à mão de qualquer imagem em diferentes idiomas. Ela também tem suporte a várias regiões para as quais é possível especificar o armazenamento de dados e o processamento de OCR em nível de continente.

É possível conseguir resultados imediatos para um pequeno número de imagens (até 16 por solicitação) ou processo em lote para um número maior de imagens (até 2.000 por solicitação) de maneira assíncrona para um resultado mais tarde.

Implantar a API Cloud Vision

Outros recursos

Exemplo de preço

Para executar um pipeline de processamento básico que extrai texto de imagens, conforme mostrado à direita, seu custo mensal seria de US$ 27,36.

É possível verificar as suposições de uso feitas para chegar a esse número na calculadora de preços.

As primeiras 1.000 unidades por mês são gratuitas.

Entre em contato conosco para realizar uma configuração mais complexa

Preços

Quanto custa meu caso de uso?	Entenda seu custo mensal para resolver um caso de uso com os produtos de que você precisa e as principais suposições de uso definidas.
Caso de uso	Produtos usados	Hipóteses de uso	Custo mensal estimado (USD)
Inclusão de tag, processamento e pesquisa de imagens	Cloud Vision Cloud Storage Pub/Sub Cloud Run	1. 15.000 chamadas de API de detecção de rótulos do Cloud Vision mensalmente 2. 100 GiB de armazenamento mensal 3. Uma CPU de 1,25 GiB 4. Quatro GiB publicados diariamente pelo Pub/Sub Ver detalhes do cálculo na calculadora	US$ 27,36
Extraia textos e insights de documentos	Document AI Cloud Storage BigQuery Cloud Functions	1. 1.000 chamadas de API do analisador de formulários da Document AI 2. 100 GiB de armazenamento mensal 3. Consultas mensais de 1 TiB 4. RAM: 512 MB, CPU: 800 MHz Ver detalhes do cálculo na calculadora	US$ 71,87
Extrair texto de imagens	Cloud Vision Cloud Storage Pub/Sub Cloud Run	1. 15.000 chamadas da API Cloud Vision OCR por mês 2. 100 GiB de armazenamento mensal 3. Uma CPU de 1,25 GiB 4. Quatro GiB publicados diariamente pelo Pub/Sub Ver detalhes do cálculo na calculadora	US$ 27,36

Confira todos os detalhes de preços unitários para Document AI, API Vision e AutoML.

Quanto custa meu caso de uso?

Entenda seu custo mensal para resolver um caso de uso com os produtos de que você precisa e as principais suposições de uso definidas.

Inclusão de tag, processamento e pesquisa de imagens

Produtos usados

Cloud Vision

Cloud Storage

Pub/Sub

Cloud Run

Hipóteses de uso

1. 15.000 chamadas de API de detecção de rótulos do Cloud Vision mensalmente

2. 100 GiB de armazenamento mensal

3. Uma CPU de 1,25 GiB

4. Quatro GiB publicados diariamente pelo Pub/Sub

Ver detalhes do cálculo na calculadora

Custo mensal estimado (USD)

US$ 27,36

Extraia textos e insights de documentos

Produtos usados

Document AI

Cloud Storage

BigQuery

Cloud Functions

Hipóteses de uso

1. 1.000 chamadas de API do analisador de formulários da Document AI

2. 100 GiB de armazenamento mensal

3. Consultas mensais de 1 TiB

4. RAM: 512 MB, CPU: 800 MHz

Ver detalhes do cálculo na calculadora

Custo mensal estimado (USD)

US$ 71,87

Extrair texto de imagens

Produtos usados

Cloud Vision

Cloud Storage

Pub/Sub

Cloud Run

Hipóteses de uso

1. 15.000 chamadas da API Cloud Vision OCR por mês

2. 100 GiB de armazenamento mensal

3. Uma CPU de 1,25 GiB

4. Quatro GiB publicados diariamente pelo Pub/Sub

Ver detalhes do cálculo na calculadora

Custo mensal estimado (USD)

US$ 27,36

Confira todos os detalhes de preços unitários para Document AI, API Vision e AutoML.

Calculadora de preços

Estime o custo do seu projeto reunindo todas as ferramentas necessárias em um único lugar.

Estime o custo

Cota personalizada

Entre em contato com nossa equipe de vendas e receba uma cotação personalizada para as necessidades da sua organização.

Solicitar um orçamento

Comece sua prova de conceito

Clientes novos ganham até US$ 300 em créditos para testar produtos de IA do Google Cloud

Comece a usar gratuitamente

Saiba como automatizar um pipeline de processamento de documentos com a IA do Google

Assista ao vídeo

OCR (reconhecimento óptico de caracteres)