Tips Mengolah Data BigQuery Dengan Python

Subscribe Dengan Account Google Untuk Membaca Artikel Tanpa Iklan
Tips Mengolah Data BigQuery Dengan Python

BigQuery adalah cloud data warehouse (CDW) yang memungkinkan Anda menjalankan kueri yang super cepat terhadap set data besar.

Anda dapat mengekspor data sesi dan hit dari account Google Analytics ke BigQuery, lalu menggunakan sintaks mirip SQL untuk menjalankan kueri terhadap semua data Analytics.

Menariknya BigQuery cukup mudah dipelajari terutama bagi kamu yang sudah familiar dengan bahasa SQL, menggunakan tools BigQuery hanya tinggal penyesuaian saja.

Baca detailnya di sini : Mengenal Bigquery

BigQuery mendukung bahasa python. Ada dua cara utama untuk mengolah data BigQuery dengan Python.

1. Google Cloud Client Libraries for Python:



  • Gunakan library klien Python resmi untuk BigQuery, yang tersedia di https://cloud.google.com/bigquery/docs/reference/libraries.

  • Library ini menyediakan API untuk menjalankan kueri SQL, memuat dan mengunduh data, dan mengelola tabel dan set data.

  • Cocok untuk tugas-tugas kompleks yang membutuhkan kontrol lebih besar atas aliran data.


2. Apache Beam SDK for Python:



  • Gunakan Apache Beam SDK for Python, yang tersedia di https://beam.apache.org/get-started/quickstart-py.

  • Beam adalah framework pemrosesan data terpadu yang dapat digunakan untuk memproses data BigQuery dalam skala besar.

  • Cocok untuk tugas-tugas batch dan streaming yang membutuhkan skalabilitas dan kinerja tinggi.


Berikut beberapa contoh cara mengolah data BigQuery dengan Python:

A) Menjalankan Query SQL

from google.cloud import bigquery

client = bigquery.Client()

query = """
SELECT *
FROM `my_dataset.my_table`
"""

job_config = bigquery.QueryJobConfig()
job_config.query = query

job = client.query(query, job_config=job_config)

results = job.result()

for row in results:
print(row)


B) Memuat Data ke BigQuery

from google.cloud import bigquery

client = bigquery.Client()

dataset_ref = client.dataset("my_dataset")
table_ref = dataset_ref.table("my_table")

data = [
{"name": "John Doe", "age": 30},
{"name": "Jane Doe", "age": 25},
]

client.insert_rows(table_ref, data)


C) Mendownload Data dari BigQuery

from google.cloud import bigquery

client = bigquery.Client()

dataset_ref = client.dataset("my_dataset")
table_ref = dataset_ref.table("my_table")

query = """
SELECT *
FROM `my_dataset.my_table`
"""

job_config = bigquery.QueryJobConfig()
job_config.query = query

job = client.query(query, job_config=job_config)

results = job.result()

with open("output.csv", "w") as f:
for row in results:
f.write(row)


Baca artikel lainya :