Diera VUCA ini kebutuhan tenaga ahli yang mahir dalam pengolahan data kian meningkat, bagi perusahaan yang memiliki trafic data yang besar, pengolahan data menjadi problem tersendiri.
Menjawab hal ini Pandas hadir sebagai library pengolahan data yang powerfull. Pada artikel kali ini kita akan membahas basic tutorial pandas.
1) Apa kegunaan pandas ?
Pandas memiliki banyak kegunaan, pandas mampu menyajikan solusi pengolahan data yang rumit menjadi sederhana, membantu mempercepat proses penyajian data dan analasis data.
2) Bagaimana pandas dijadikan sebagai data science toolkit ?
Pandas dibangun di atas paket NumPy, yang berarti banyak struktur NumPy digunakan atau direplikasi di Pandas.
Data dalam pandas sering digunakan sebagai sumber data analisis statistik dalam SciPy, merencanakan fungsi dari Matplotlib, dan algoritma pembelajaran mesin di Scikit-learning.
3) Kapan anda harus mulai menggunakan pandas ?
Jika Anda tidak memiliki pengalaman pengkodean dalam Python, maka Anda harus mempelajari basic python.
Anda tidak harus berada pada level insinyur perangkat lunak, tetapi Anda harus mahir dalam hal dasar, seperti daftar, tupel, librari, fungsi, dan iterasi.
Selain itu, saya juga merekomendasikan untuk membiasakan diri dengan NumPy karena kesamaan yang disebutkan di atas.
4) Langkah Pertama Mengenal Pandas
Install dan import, sebelum menginstall pandas sebaiknya kamu berada dalam mode environment, baca lebih lanjut tentang python environment di link berikut ini :
Konfgurasi python virtual environmentSetelah berada dalam mode environment, install pandas dengan pip
pip install pandas
Kemudian gunakan import untuk memanggil pandas.
import pandas as pd
5) Basic komponen pandas : series dan dataframes
Series pada dasarnya adalah sebuah kolom dan dataframes adalah table multi dimensi yang terdiri dari kumpulan kolom, perhatikan ilustrasi dibawah ini :
sumber image : learndatasci.com
6) Membuat Data Frame
Banyak sumber yang bisa kita manfaatkan untuk membuat data frame, pada tutorial kali ini kita akan membuat data frame dari dictionary python. Perhatikan contoh dibawah ini :
import pandas as pd
data = {
'rumah1': [3, 2, 0, 1],
'rumah2': [0, 3, 7, 2]
}
purchases = pd.DataFrame(data)
print(purchases)
output :

7) Index Dataframe
Selanjutnya kita akan mengganti index data dengan variable name, perhatikan contoh dibawah ini :
import pandas as pd
data = {
'rumah1': [3, 2, 0, 1],
'rumah2': [0, 3, 7, 2]
}
purchases = pd.DataFrame(data)
print(purchases)
print("==================================")
property_name = pd.DataFrame(data, index=['June', 'Robert', 'Lily', 'David'])
print(property_name)
output :

8) Membaca data dari berbagai sumber data
Membaca data dari file .CSV
df = pd.read_csv('purchases.csv')
Membaca data dari file .JSON
df = pd.read_json('purchases.json')
Membaca data dari SQL
df = pd.read_sql_query("SELECT * FROM purchases", con)
Bagi kamu yang mau mempelajari lebih jauh bagaimana pandas mengolah data dari sumber data query SQL, kamu bisa membacanya disini :
Data Frame Dengan Pandas dan SQLAlchemy.Baca artikel lainya :
sumber referensi :
pandas.pydata.org, learndatasci.com