Pertemuan 3 : Pre-Processing

Pre Processing

Pre-processing adalah tahapan untuk menghilangkan beberapa permasalahan yang bisa mengganggu saat pemrosesan data. Hal tersebut karena banyak data yang formatnya tidak konsisten. Data preprocessing merupakan teknik paling awal sebelum melakukan data mining. Namun terdapat beberapa proses juga dalam data preprocessing seperti membersihkan, mengintegrasikan, mentransformasikan dan mereduksi data.

Data Cleaning

Data cleaning atau membersihkan data. Artinya, data mentah yang telah diperoleh perlu diseleksi kembali. Kemudian, hapus atau hilangkan data-data yang tidak lengkap, tidak relevan, dan tidak akurat. Dengan melakukan tahap ini, Anda akan menghindari kesalahpahaman ketika menganalisis data tersebut.

Contoh Implementasi data cleaning :

1. Code untuk implementasi Data Cleaning :


2. Output dari code setelah di run :


3. Penjelasan Kode :
    a. Membuat DataFrame Contoh: DataFrame ini dibuat dengan beberapa nilai yang hilang dan duplikat.

    b. Mengisi Nilai yang Hilang:
        Kolom Nama diisi dengan 'Tidak Diketahui' jika ada nilai yang hilang.
        Kolom Usia diisi dengan rata-rata usia.
        Kolom Gaji diisi dengan nilai modus (nilai yang paling sering muncul).

    c. Menghapus Duplikat: Baris duplikat dihapus dari DataFrame.

    d. Mengonversi Tipe Data: Kolom Gaji dikonversi dari tipe string ke integer. Menampilkan DataFrame: DataFrame yang     sudah dibersihkan ditampilkan untuk melihat hasil akhir.

Data Collection

Data Collection bahasa lain dari Pengumpulan data yang merupakan prosedur pengumpulan, pengukuran, dan analisis wawasan akurat untuk penelitian menggunakan teknik standar yang tervalidasi.

Ada beberapa metode pengumpulan data, Seperti :
- Pengumpulan Data dari API
- Pengumpulan Data dari Web Scraping
- Pengumpulan Data dari File CSV
- Pengumpulan Data dari Database
- Pengumpulan Data melalui Survei

Contoh Implementasi Data Collection menggunakan metode csv :

1. Code untuk implementasi Data Collection :


2. Output dari code setelah di run :


3. Penjelasan Kode :

    1. Fungsi read_csv dari library pandas digunakan untuk membaca file CSV dan mengonversinya menjadi DataFrame         pandas.
    2. Fungsi head() dari DataFrame digunakan untuk menampilkan beberapa baris pertama dari DataFrame.

Data Transform

Transformasi data adalah proses mengubah format, struktur, atau nilai data menjadi bentuk yang diinginkan.

Ada beberapa teknik transformasi data, Seperti :
- Normalisasi Data: Mengubah skala data sehingga berada dalam rentang tertentu, biasanya 0 hingga 1.
- Log Transform: Menggunakan transformasi logaritma untuk mengurangi skewness data.
- One-Hot Encoding: Mengubah data kategorikal menjadi representasi biner.
- Binning: Mengelompokkan data numerik menjadi kategori.

Contoh Implementasi Data Transform :

1. Code untuk implementasi Data Transform :


2. Output dari code setelah di run :


3. Penjelasan Kode : 

    a. Normalisasi Data: Gaji dinormalisasi menggunakan min-max scaling sehingga nilai berada dalam rentang 0hingga1.
    b. Log Transform: Transformasi logaritma diterapkan pada Gaji untuk mengurangi skewness.
    c. One-Hot Encoding: Kolom Kota diubah menjadi beberapa kolom biner (satu untuk setiap kategori).
    d. Binning: Usia dikelompokkan menjadi beberapa kategori menggunakan pd.cut.

Data Reduction

Data reduction adalah proses mengurangi jumlah data sehingga data menjadi lebih mudah diolah dan dianalisis tanpa mengorbankan keakuratannya. Beberapa teknik umum dalam data reduction termasuk agregasi, sampling, selection of attributes, dan principal component analysis (PCA).

Ada beberapa metode pengumpulan data, Seperti :
Agregasi Data: Data penjualan di agregasi per bulan.
- Selection of Attributes: Memilih kolom yang relevan dari dataset yang besar.
- Principal Component Analysis (PCA): Mengurangi dimensi dataset dengan PCA.

Contoh Implementasi Data Reduction :

1. Code untuk implementasi Data Reduction :


2. Output dari code setelah di run :


3. Penjelasan Kode : 

    a. Membuat DataFrame df dengan 4 kolom (A, B, C, D) dan 5 baris data.
    b. Mencetak DataFrame asli sebelum reduksi.
    c. Membuat objek PCA untuk mereduksi data menjadi 2 komponen utama.
    d. Mengaplikasikan PCA pada DataFrame df dan menyimpan hasilnya dalam DataFrame        baru df_reduced dengan dua kolom: PC1 dan PC2.
    e. Mencetak DataFrame yang telah direduksi.





Komentar

Postingan populer dari blog ini

Pertemuan 1 : Proses atau Tahapan Data Mining, CRISP-DM (Cross-Industry Standard Process for Data Mining), SEMMA (Sample, Explore, Modify, Model, dan Assess), CCC (Cognitive Computing, Communication, and Computation),

Pertemuan 2 : Data Preparation dan Data Visualization

Pertemuan 5 : LAPORAN ANALISIS DATA TRANSKRIP NILAI DAN DATA LULUSAN DARI UNIVERSITAS MELALUI API