Introducción a BigQuery DataFrames

BigQuery DataFrames es un conjunto de bibliotecas de Python de código abierto que te permiten aprovechar el procesamiento de datos de BigQuery mediante APIs de Python conocidas. BigQuery DataFrames implementa las APIs de Pandas y scikit-learn mediante el envío del procesamiento a BigQuery a través de la conversión de SQL. Esto te permite usar BigQuery para explorar y procesar terabytes de datos y, también, entrenar modelos de aprendizaje automático (AA), todo con las APIs de Python.

BigQuery DataFrames ofrece los siguientes beneficios:

  • Más de 750 APIs de Pandas y scikit-learn implementadas a través de la conversión de SQL transparente a las APIs de BigQuery y BigQuery ML.
  • Ejecución diferida de consultas para mejorar el rendimiento
  • Extensión de las transformaciones de datos con funciones de Python definidas por el usuario para que puedas procesar datos en la nube. Estas funciones se implementan de forma automática como funciones remotas de BigQuery.
  • Integración en Vertex AI para permitirte usar modelos de Gemini para la generación de texto.

Licencias

BigQuery DataFrames se distribuye con la licencia Apache-2.0. También contiene código derivado de los siguientes paquetes de terceros:

Para obtener más detalles, consulta el directorio third_party/bigframes_vendored en el repositorio de GitHub de DataFrames de BigQuery.

Cuotas y límites

  • Las cuotas de BigQuery se aplican a BigQuery DataFrames, incluidos los componentes de hardware, software y red.
  • Se admite un subconjunto de las APIs de Pandas y scikit-learn. Para obtener más información, consulta APIs de Pandas compatibles.
  • Debes limpiar de manera explícita cualquier función de Cloud Functions creada de forma automática como parte de la limpieza de la sesión. Para obtener más información, consulta APIs de Pandas compatibles.

Precios

  • BigQuery DataFrames es un conjunto de bibliotecas de Python de código abierto disponibles para descargar sin costo adicional.
  • BigQuery DataFrames utiliza BigQuery, Cloud Functions, Vertex AI y otros servicios de Google Cloud, que generan sus propios costos.
  • Durante el uso regular, los BigQuery DataFrames almacenan datos temporales, como resultados intermedios, en tablas de BigQuery. Estas tablas persisten durante siete días de forma predeterminada, y se te cobra por los datos almacenados en ellas. Las tablas se crean en el conjunto de datos _anonymous_ del proyecto que especificas en la opción bf.options.bigquery.project.

¿Qué sigue?