Seorang data scientist sangat perlu menguasai beberapa skil untuk menyelesaikan proses analisah data secara efektif dan efisien. untuk itu kita memerlukan tool dengan fungsi masing-masing. Salah satu tools yang paling sering digunakan oleh data scientist adalah Pandas. Dalam bahasa pemrograman Python, Pandas adalah alat yang sangat berguna sebagai library yang mengatur tata letak sehingga mudah dicari secara intuitif. Pandas adalah paket pada python open source yang paling sering dipakai untuk menganalisis data serta membangun sebuat machine learning. pandas dibuat berdasarkan satu package lain bernama numpy yang mendukung suatu arrays multidimensi. Sebagai salah satu paket kode python, Pandas juga dapat digunakan secara optimal dengan modul data science yang lain dalam python. Awalnya, Pandas dikembangkan oleh Wes McKinney pada 2008 saat ia bekerja di AQR Capital Management. McKinney kemudian meyakinkan AQR untuk memperbolehkan pandas menjadi suatu open source. Library pandas juga berkembang dengan pesat hingga saat ini. Pengguna pandas dalam python sendiri sering kali muncul pada domain akademis hingga komersial, termasuk keuangan. Neurosciences, ekonomi, statistik, periklanan, analisis web dan lain sebagainya. Cara kerja suatu pandas sangat menarik. Data berupa CSV,TSV,atau SQL diubah menjadi obyek python dengan rows dan column yang disebut sebagai data frame.Objek ini terlihat sangat mirip dengan tabel yang terdapat pada software stastistika seperti excel atau SPSS. Data yang sudah diolah akan sangat mudah dianalisis karena berbentuk suatu library. Pandas umumnya memiliki dua struktur data yang berguna untuk memanipulasi data. Struktur tersebut adalah Series dan DataFrame. Pandas series merupakan suatu array satu dimensi yang dapat memegang data dari berbagai tipe, mulai dari integer, string, hingga python objek. Pandas series pada dasarnya sangat mirip dengan kolom pada sheet dalam excel. Untuk membuat pandas series biasanya pengguna akan memuat dataset dari storage yang sudah dibuat sebelumnya baik berupa database SQL,CSV, atau bahkan excel. Pandas DataFrame sedikit berbeda karena merupakan struktur dua dimensi. Oleh karena itu data yang diproses akan disusun dalam bentuk tabel dengan rows dan column, Umumnya DataFrame terdiri atas tiga komponen penting: data, rows, dan column. Untuk membuat data frame biasanya pengguna akan membuat dataset dari storage yang sudah dibuat sebelumnya baik berupa database SQL,CSV, atau bahkan Excel.
Seperti yang sudah dijelaskan sebelumnya, Pandas menjadi salah satu library yang paling sering dipakai oleh data scientist. Hal ini karena pandas dapat digunakan bersama dengan library lain dalam data science. Karena dibuat menggunakan Numpy artinya ada banyak struktur library yang digunakan di pandas. Selainitu data yang diproduksi oleh pandas sering kali digunakan sebagai input plotting functions untuk matplotlib, analisis statistik di Scipy serta algoritma machine learning dalam Sckit-learn. Program library pandas sendiri dapat dijalankan menggunakan berbagai text editor, namun sangat disarankan untuk menggunakan jupyter notebook. hal ini disebabkan karena kemampuan jupyter untuk meng execute kode dari satu cell tertentu tanpa perlu dijalankan file secara keseluruhan, Selain itu jupyter juga menyediakan cara mudah untuk memvisualisasikan data frames dan plot yang dibuat oleh pandas.
Ada banyak kegunaan pandas terutama dalam bidang data analysis yang membuntuhkan task repetitif dan memakan banyak waktu. Fungsi library Pandas antra lain: 1. Data Cleansing 2. Data fill 3. Normalisasi data 4. Visualisasi data 5. Penggabungan dan penyatuan data 6. Analisis statistik 7. Inspeksi data 8. Memuat dan menyimpan data selain fungsi yang disebutkan diatas, Pandas juga memungkinkan penggunanya untuk membuat dataframe sekaligus melakukan analisis serta manipulasi dan penyimpan database. Pandas juga dapat dimanfaatkan untuk membersihkan dataset pada machine learning.
1. Menginstall Pandas Pandas secara default tidak tersedia pada modul standar disaat pertama kali instalasi python dan kita diharuskan untuk melakukan instalasi dahulu sebelum menggunakan. Untuk dapat menginstall pandas,kita bisa menjalankan perintah dengan menggunakan pip ataupun bisa menggunakan Anaconda. Dengan menggunakan pip: pip install pandas Dengan menggunakan library Anaconda,kita bisa menginstallnya dengan perintah berikutnya, conda install pandas jika sudah berhasil melakukan instalasi pandas,kita dapat menggunakannya untuk melakukan manipulasi data dengan cara modul import tersebut pada projek yang akan kita buat. import pandas as pd import numpy as np 2. Import Dataset ke Pandas Dataframe Hal yang pertama perlu kita kuasai tentunta adalah bagaimana mengimport dataset ke dalam pandas dataframe. Seringkali dataset untuk data science project hadir dalam format.csv. cara mengimportnya sebagai berikut. df = pd.read_csv(‘ pokemon_data.csv) df
Jika salah satu struktur data pandas diatas dataframe. akan saya jelaskan struktur data ini didalam section ini sebagai tambahan untuk struktur data pandas lainnya, Series . Ada struktur data lainnya bernama panel. DataFrame adalah struktur data 2D, Series adalah struktur data 1D dan panel adalah struktur data 3D dan lebih tinggi.
DataFrame adalah struktur data tabu yang disusun pada kolom dan baris berurut. Untuk membuat lebih jelas, Contoh pembuatan sebuah dataframe tabel dari kamus sebuah daftar. contoh berikut ini menunjukan sebuah kamus berisi dua kunci name dan age dan daftar nilainnya.
Series adalah struktur data pandas kedua yang akan saya bahas. Series adalah object satu dimensi yang serupa dengan kolom di dalam tabel. Jika kita ingin membuat series untuk daftar nama.
Dalam section ini saya akan menunjukan contoh beberapa function yang dapat kita gunakan dengan dataframe dan series.
Function head() dan tail() menginjinkan kita untuk melihat sebuah sampel data, khususnya ketika kita memiliki sebuah jumlah entri yang besar. jumlah default dari elemen yang ditampilkan adalah 5, namun kamu dapat mengkustom angka sesuka kamu.
Pada function add() dimana kita hanya menambah kan dua data frame.
Pada function pandas yang bagus adalah describe() yang membuat berbagai ringkasan statistik data kita. Sebagai contoh dalam section terakhir.
Memanfaatkan Pandas untuk meningkatkan efektivitas proses data analystis adalah hal yang sangat disarankan untuk para data scientist. Namun, kemungkinan besar anda perlu memperkuat basis pemprograman python sehingga manfaatnya lebih baik. Seperti yang kita liat pada tutorial ini pandas mengijinkan kita untuk menyajikan ulang data dalam bentuk tabular dan melakukan beberapa operasi pada tabel tersebut dalam cara yang sangat sederhana. Dengan mengkombinasikan pandas dengan library python lainnya, ilmuwan bahkan dapat melakukan lebih banyak tugas lanjutan seperti menggambar grafik khusus untuk data mereka. Dengan demikian, Pandas merupakan sebuah library dan titik awal yang berguna untuk sebuah ilmuwan, ahli ekonomi, ahli statistik, dan siapapun yang ingin melakukan tugas analisis data.
Kesempatan lowongan magang terbaru di tahun 2025
Baca Selengkapnya..