Insight data menawarkan cara otomatis dan intuitif untuk menjelajahi dan memahami data Anda. Gemini menggunakan model bahasa besar Gemini untuk membuat kueri berdasarkan metadata tabel, sehingga Anda dapat menemukan pola, menilai kualitas data, dan melakukan analisis statistik.
Dokumen ini menjelaskan fitur utama dari insight data dan proses untuk mengotomatiskan pembuatan kueri guna eksplorasi data yang mendalam.
Tentang insight data
Analis data menghadapi masalah cold start dalam eksplorasi data, ketika mereka mengeksplorasi set data baru dengan sedikit atau tanpa pengetahuan sebelumnya. Masalahnya sering kali melibatkan ketidakpastian tentang struktur data, pola utama, dan insight yang relevan. Dengan menggunakan pembuatan kueri otomatis berdasarkan metadata, insight data akan mengatasi masalah cold start dalam eksplorasi data. Insight memberikan tanda berharga untuk membantu Anda membuat keputusan yang tepat dan mendapatkan insight yang lebih dalam tentang data. Daripada memulai dari nol, Anda dapat memulai eksplorasi data dengan lebih cepat menggunakan kueri bermakna yang menawarkan insight berharga.
Kueri yang dihasilkan menggunakan insight data didasarkan menggunakan data pemindaian profil yang dipublikasikan. Insight data menggunakan data pemindaian profil yang dipublikasikan untuk membuat kueri yang memberikan hasil, sehingga memungkinkan pengambilan informasi yang efisien dan andal. Hal ini akan mempercepat inisiasi proses analisis data secara signifikan, dan memungkinkan Anda mempelajari data dengan arah dan tujuan yang lebih jelas.
Insight data berfungsi sebagai alat panduan yang menyelesaikan tantangan umum dalam menavigasi set data yang tidak dikenal, sehingga mendukung Anda untuk mengambil keputusan yang tepat dan menemukan pola dengan lebih cepat selama eksplorasi data.
Contoh proses insight
Pertimbangkan tabel bernama telco_churn
dengan metadata teknis berikut:
Nama kolom | Jenis |
---|---|
CustomerID | STRING |
Gender | STRING |
Masa bakti | INT64 |
PhoneService | STRING |
OnlineBackup | STRING |
Ketergantungan | BOOLEAN |
Kontrak | STRING |
TechSupport | STRING |
PaymentMethod | STRING |
MonthlyCharges | FLOAT |
Keluar - Masuk Pelanggan (Churn) | BOOLEAN |
Berikut adalah beberapa contoh kueri yang dihasilkan insight data untuk tabel ini:
Mengidentifikasi pelanggan yang telah berlangganan ke semua layanan premium dan telah menjadi pelanggan selama lebih dari 50 bulan.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineSecurity = 'Yes' AND OnlineBackup = 'Yes' AND DeviceProtection = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND StreamingMovies = 'Yes' AND Tenure > 50;
Mengidentifikasi layanan internet yang memiliki pelanggan yang paling banyak melakukan churn.
SELECT InternetService, COUNT(DISTINCT customerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;
Mengidentifikasi segmen pelanggan dengan rasio churn tinggi di antara pelanggan yang bernilai tinggi.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT customerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT customerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
Tentang insight grounding menggunakan pemindaian profil
Insight data menggunakan data pemindaian profil yang dipublikasikan untuk menghasilkan kueri yang lebih akurat dan relevan. Data pemindaian profil memberikan informasi berharga tentang distribusi data, jenis data, dan ringkasan statistik set data. Karena kueri didasarkan pada data pemindaian profil, insight data memastikan bahwa kueri yang dihasilkan bermakna, dan menampilkan hasil yang membantu dalam analisis lebih lanjut.
Bagian ini menjelaskan cara insight data menggunakan data pemindaian profil yang dipublikasikan untuk mengdasarkan kueri, dan memberikan tips untuk sepenuhnya menggunakan potensi fitur ini.
Tentang data pemindaian profil
Data pemindaian profil adalah metadata yang mendeskripsikan konten set data. Ringkasan ini mencakup informasi berikut:
- Jenis data kolom
- Nilai minimum dan maksimum
- Distribusi nilai
- Nilai {i>null<i} atau tidak ada
- Nilai teratas
- Nilai unik dan frekuensinya
Insight data menggunakan informasi ini untuk menghasilkan kueri yang disesuaikan dengan set data tertentu dan memberikan insight yang bermakna.
Cara insight data menentukan kueri menggunakan data pemindaian profil
Insight data menggunakan data pemindaian profil untuk membuat kueri yang didasarkan pada distribusi dan pola data sebenarnya dalam set data. Proses ini melibatkan langkah-langkah berikut:
- Menganalisis data pemindaian profil untuk mengidentifikasi pola, tren, atau pencilan yang menarik dalam data.
- Menghasilkan kueri yang berfokus pada pola, tren, atau outlier ini untuk menemukan insight.
- Memvalidasi kueri yang dihasilkan terhadap data pemindaian profil untuk memastikan bahwa kueri menampilkan hasil yang bermakna.
Kiat untuk memaksimalkan manfaat wawasan data
Kueri dasar membantu memastikan insight yang Anda peroleh akurat, relevan, dan dapat ditindaklanjuti, sehingga Anda dapat membuat keputusan berbasis data yang lebih baik. Untuk memaksimalkan kueri ground menggunakan data pemindaian profil, ikuti tips berikut:
- Pastikan tabel Anda memiliki data pemindaian profil yang terbaru dan dipublikasikan. Hal ini membantu insight data menghasilkan kueri yang lebih akurat dan relevan.
- Tinjau kueri yang dihasilkan untuk memahami cara kueri tersebut didasarkan pada data pemindaian profil. Hal ini memungkinkan Anda menafsirkan hasil dan mendapatkan wawasan yang lebih dalam tentang data.
- Sesuaikan setelan pemindaian profil pada tabel Anda atau berikan konteks tambahan pada insight data jika kueri yang dihasilkan tidak relevan atau berguna.
Harga
Fitur insight data Dataplex ditawarkan tanpa biaya selama Pratinjau ini.
Batasan
- Analisis data tersedia untuk tabel BigQuery native, tabel BigLake, tabel eksternal, dan tampilan.
- Untuk pelanggan multicloud, data dari cloud lain tidak tersedia.
- Insight data tersedia di semua region Dataplex.
- Analisis data tidak mendukung jenis kolom
Geo
atauJSON
. - Insight yang berjalan tidak menjamin presentasi kueri setiap saat. Untuk meningkatkan kemungkinan dihasilkannya kueri yang lebih menarik, mulai ulang pipeline insight.
- Untuk tabel dengan kontrol akses tingkat kolom (ACL) dan izin pengguna yang dibatasi, Anda dapat membuat insight jika memiliki akses baca ke semua kolom tabel. Untuk menjalankan kueri yang dihasilkan, Anda harus memiliki izin masing-masing.
Sebelum memulai
Peran dan izin yang diperlukan
Untuk mendapatkan izin yang diperlukan dalam menggunakan insight data, minta administrator untuk memberi Anda peran IAM berikut pada project:
Jalankan pipeline insight:
Peran IAM Cloud AI Companion User (
roles/cloudaicompanion.user
) di akun layanan untuk project tempat Anda memicu pemindaian insight.Alamat email akun layanan memiliki format berikut:
service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com
.Izin
dataplex.datascans.create
pada projectIzin
bigquery.tables.getData
di tabel BigQueryAkses baca ke semua kolom tabel
Lihat insight yang dihasilkan:
dataplex.datascans.getData
pada pemindaian data yang dihasilkan
Kueri dasar menggunakan pemindaian profil:
Peran IAM Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer
) di akun layanan (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com
)Izin
dataplex.datascans.getData
pada pemindaian profil data yang dipublikasikan
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke akun layanan.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran standar lainnya.
Mengaktifkan API
Untuk menggunakan insight data, aktifkan API berikut dalam project Anda:
Untuk mengetahui informasi selengkapnya tentang cara mengaktifkan Gemini API, lihat Mengaktifkan Gemini Code Assist di project Google Cloud.
Menghasilkan insight untuk tabel BigQuery
Agar dapat menghasilkan insight untuk tabel BigQuery, Anda harus mengakses entri tabel di Dataplex menggunakan Penelusuran Dataplex.
Di konsol Google Cloud, buka halaman Penelusuran Dataplex.
Telusuri entri tabel di Dataplex.
Klik tab Insight. Jika tab kosong, berarti insight untuk tabel ini belum dibuat.
Untuk memicu pipeline insight, klik Buat insight.
Perlu waktu 5-10 menit untuk melengkapi insight.
Jika pemindaian profil yang dipublikasikan untuk tabel dapat diakses, pemindaian tersebut akan digunakan untuk menghasilkan insight yang komprehensif. Jika tidak, insight akan dirumuskan berdasarkan nama kolom dan deskripsinya masing-masing. Pendekatan ini memastikan bahwa Anda menerima insight, terlepas dari ketersediaan pemindaian profil.
Di tab Insight, jelajahi kueri yang dihasilkan beserta deskripsinya.
Untuk menjalankan kueri, klik Buka di BigQuery. Kueri akan terbuka di BigQuery.
Untuk membuat kumpulan kueri baru, klik Buat insight dan picu pipeline lagi.
Menghasilkan insight untuk tabel eksternal BigQuery
Insight data Dataplex mendukung tabel eksternal BigQuery yang terletak di project Google Cloud yang sama. Jika tabel BigQuery mereferensikan data yang disimpan di Cloud Storage di project Google Cloud lain, pembuatan insight akan gagal.
Guna menghasilkan insight untuk tabel eksternal BigQuery, ikuti petunjuk yang dijelaskan di bagian Membuat insight untuk tabel BigQuery dalam dokumen ini.
Menghasilkan insight untuk tabel BigLake
Guna menghasilkan insight untuk tabel BigLake, ikuti langkah-langkah berikut:
Aktifkan BigQuery Connection API di project Anda.
Membuat koneksi BigQuery. Untuk mengetahui informasi lebih lanjut, lihat Mengelola koneksi.
Berikan peran IAM Storage Object Viewer (
roles/storage.objectViewer
) ke akun layanan yang sesuai dengan koneksi BigQuery yang Anda buat.Anda dapat mengambil ID akun layanan dari halaman informasi koneksi untuk akun layanan.
Untuk menghasilkan insight, ikuti petunjuk yang dijelaskan di bagian Membuat insight untuk tabel BigQuery dalam dokumen ini.
Langkah selanjutnya
- Pelajari pembuatan profil data Dataplex lebih lanjut.
- Pelajari cara menulis kueri dengan bantuan Gemini di BigQuery.