Pertemuan 4
DATA BASE MENGGUNAKAN DATA "TRANSKIP NILAI"
- DATA CLEANING
Metode: Pada tahap ini, digunakan metode untuk mengidentifikasi dan menghapus data yang duplikat. Hal ini dilakukan dengan memeriksa keberadaan baris duplikat dalam DataFrame menggunakan metode duplicated(). Jika ditemukan duplikasi, baris-baris duplikat tersebut dihapus dari DataFrame dengan metode drop_duplicates().
Tujuan: Langkah ini bertujuan untuk memastikan bahwa setiap baris dalam DataFrame bersifat unik, sehingga mencegah kesalahan dalam analisis yang dilakukan. Hal ini juga membantu memastikan integritas data.
- DATA TRANSFORMATION
Metode: Pada tahap ini, digunakan metode transformasi nilai-nilai dalam DataFrame. Dalam contoh ini, nilai total dikonversi menjadi kategori nilai berdasarkan rentang tertentu menggunakan fungsi kategori_nilai. Tujuan: Langkah ini bertujuan untuk mengubah atau menambahkan informasi ke dalam DataFrame agar lebih mudah dipahami atau digunakan dalam analisis berikutnya.
- DATA REDUCTION
Metode: Pada tahap ini, digunakan metode agregasi data dengan menghitung jumlah mahasiswa per semester menggunakan metode groupby, kemudian menghitung jumlah baris dalam setiap grup dengan metode size().
Tujuan: Langkah ini bertujuan untuk menyederhanakan data dengan merangkum informasi yang relevan. Dalam contoh ini, kita ingin mengetahui jumlah mahasiswa per semester, sehingga tidak perlu lagi melihat setiap baris individu dalam DataFrame.
Komentar
Posting Komentar