Diera VUCA ini kebutuhan tenaga ahli yang mahir dalam pengolahan data kian meningkat, bagi perusahaan yang memiliki trafic data yang besar, pengolahan data menjadi problem tersendiri. Menjawab hal ini Pandas hadir sebagai library pengolahan data yang powerfull. Pada artikel kali ini kita akan membahas basic tutorial pandas.

1) Apa kegunaan pandas ?

Pandas memiliki banyak kegunaan, pandas mampu menyajikan hal-hal pengolahan data yang rumit menjadi sederhana, membantu mempercepat proses penyajian data dan analasis data

2) Bagaimana pandas dijadikan sebagai data science toolkit ?

Pandas dibangun di atas paket NumPy, yang berarti banyak struktur NumPy digunakan atau direplikasi di Pandas. Data dalam pandas sering digunakan sebagai sumber data analisis statistik dalam SciPy, merencanakan fungsi dari Matplotlib, dan algoritma pembelajaran mesin di Scikit-learning.

3) Kapan anda harus mulai menggunakan pandas ?

Jika Anda tidak memiliki pengalaman pengkodean dalam Python, maka Anda harus menjauh dari belajar panda sampai Anda melakukannya. Anda tidak harus berada pada level insinyur perangkat lunak, tetapi Anda harus mahir dalam hal dasar, seperti daftar, tupel, kamus, fungsi, dan iterasi. Selain itu, saya juga merekomendasikan untuk membiasakan diri dengan NumPy karena kesamaan yang disebutkan di atas.

4) Langkah Pertama Mengenal Pandas

install dan import, sebelum menginstall pandas sebaiknya kamu berada dalam mode environment, baca lebih lanjut tentang python environment di link berikut ini : Konfgurasi python virtual environment

setelah berada dalam mode environment, install pandas dengan pip

pip install pandas

kemudian untuk memanggil pandas gunakan perintah import

import pandas as pd

5) Basic komponen pandas : series dan dataframes

series pada dasarnya adalah sebuah kolom dan dataframes adalah table multi dimensi yang terdiri dari kumpulan kolom. perhatikan ilustrasi dibawah ini :

series and dataframe halovina
sumber image : learndatasci.com

6) Membuat Data Frame

Banyak sumber yang bisa kita manfaatkan untuk membuat data frame, pada tutorial kali ini kita akan membuat data frame dari dictionary  python. Perhatikan contoh dibawah ini :

import pandas as pd
 
data = {
    'rumah1': [3, 2, 0, 1], 
    'rumah2': [0, 3, 7, 2]
}
 
purchases = pd.DataFrame(data)
 
print(purchases)

output :

sample data frame

7) Index Dataframe

Selanjutnya kita akan mengganti index data dengan variable name, perhatikan contoh dibawah ini :

import pandas as pd
 
data = {
    'rumah1': [3, 2, 0, 1], 
    'rumah2': [0, 3, 7, 2]
}
 
purchases = pd.DataFrame(data)
 
print(purchases)
print("==================================")
 
property_name = pd.DataFrame(data, index=['June', 'Robert', 'Lily', 'David'])
 
print(property_name)

output :

rename index dataframe

8) Membaca data dari berbagai sumber data

Membaca data dari file .CSV

df = pd.read_csv('purchases.csv')

Membaca data dari file .JSON

df = pd.read_json('purchases.json')

Membaca data dari SQL

df = pd.read_sql_query("SELECT * FROM purchases", con)

Bagi kamu yang mau mempelajari lebih jauh bagaimana pandas mengolah data dari sumber data query SQL, kamu bisa membacanya disini : Data Frame Dengan Pandas dan SQLAlchemy

Baca artikel lainya :

sumber referensi : pandas.pydata.org, learndatasci.com