Model dan Tahapan Data Preprocessing

data preprocessing adalah

Apakah Anda mengetahui apa itu Data Preprocessing dan bagaimana tahapannya?

Saat ini, banyak perusahaan yang menggunakan data dengan jumlah yang besar (big data).  Hal tersebut akhirnya banyak perusahaan yang harus melakukan data mining. Untuk melakukan data mining maka perlu adanya penyaringan data.

Penyaringan data umumnya akan menggunakan data preprocessing. Jadi, untuk Anda yang ingin mencari tahu tentang data preprocessing. Berikut ini adalah informasi selengkapnya.

Pengertian Data Preprocessing 

Data Preprocessing merupakan salah satu tahapan dalam melakukan mining data. Sebelum menuju ke tahap selanjut pemprosesan. Data mentah akan diolah terlebih dahulu.

Data Preprocessing atau praproses data biasanya dilakukan melalui cara eliminasi data yang tidak sesuai. Selain itu dalam proses ini data akan diubah dalam bentuk yang akan lebih dipahami oleh sistem.

Pengertian lain menyebutkan bahwa data preprocessing adalah tahapan untuk menghilangkan beberapa permasalahan yang bisa mengganggu saat pemrosesan data. Hal tersebut karena banyak data yang formatnya tidak konsisten.

Data preprocessing merupakan teknik paling awal sebelum melakukan data mining. Namun terdapat beberapa proses juga dalam data preprocessing seperti membersihkan, mengintegrasikan, mentransformasikan dan mereduksi data.

Perlunya Data Preprocessing

Tahapan data preprocessing sangat penting untuk menghapus redundant, missing value, kesalahan maupun inkonsistensi data, yang dapat menyebabkan akurasi hasil dari proses data akan berkurang.

digital marketing agency

Analisis konten, kalimat dan postingan di media sosial biasanya juga menggunakan proses pra-pemrosesan data. Hal tersebut karena di media sosial biasanya banyak postingan dengan kalimat dan kata-kata yang tidak terstruktur.

Selain itu data preprocessing  akan sangat bermanfaat dalam memperlancar proses mining data.

Karena jika tidak ada pra-pemrosesan data. Biasanya data yang digunakan akan data asli di database, yang biasanya tidak lengkap dan tidak konsisten.

Melalui data preprocessing, memungkinkan proses mining akan berjalan dengan lebih efektif dan efisien. Karena data yang telah melalui Pra-pemrosesan data, merupakan data yang sudah melalui beberapa tahap pembersihan.

Tidak hanya itu, dengan melakukan Pra-pemrosesan data, terdapat manfaat lain. Yaitu mempermudah proses analisis data, mengurangi beban dalam merepresentasikan isi data, efisiensi proses mining dan data akan lebih mudah di baca.

Baca Juga :

Model Data Preprocessing

Berdasarkan A Clark, terdapat tiga model data preprocessing, dalam membersihkan kalimat atau kata-kata yang memiliki noise yang besar. Apa saja? Simak penjelasan berikut ini.

1. Orthographic Model 

Model pertama adalah Orthographic Model. Fungsi dari model ini adalah memperbaiki kalimat atau teks. Terutama ketika kalimat atau teks tersebut ada kesalahan. Kesalahan umum pada model ini adalah jika ada huruf kapital di tengah kalimat.

2. Error Model 

Model kedua adalah Error Model. Fungsi dari model ini adalah untuk memperbaiki kesalahan tulis atau kesalahan ejaan. Data sering mengalami kedua kesalahan tersebut.

Model ini artinya akan memperbaiki kesalahan tulis jika terdapat salah ketik. Sedangkan salah eja adalah apabila terdapat ejaan yang tidak sesuai dengan penggunaan Bahasa yang seharusnya.

3. White Space Model

Model white space model akan membantu kita mengoreksi kesalahan penggunaan tanda baca. Saat membuat sebuah teks atau kalimat. Sering ditemukan kesalahan dalam penggunaan tanda baca.

Contohnya, kesalahan terjadi ketika kalimat tidak menggunakan tanda titik di akhir kalimat. Kemudian model ini akan mengoreksi kesalahan tanda baca tersebut. Database bentuk formal biasa menggunakan model ini.

Tahapan Data Preprocessing

tahapan data preprocessing

Setelah mengetahui pengertian, arti penting dan model dalam data preprocessing, maka agar proses Pra-pemrosesan data menjadi lebih maksimal, Anda perlu mengetahui tahapan-tahapan dalam melakukannya.

Terdapat 4 tahapan dalam data preprocessing. Tahapan-tahapan saling berkaitan satu sama lain dalam memperoleh penyaringan data yang berkualitas. Berikut 4 tahapan dalam data preprocessing.

Baca Juga :

1. Data Cleaning

Tahapan pertama adalah data cleaning atau tahapan membersihkan data. Tahapan yang dilakukan pertama ini adalah :

  • Memperhalus noisy data
  • Mengisi nilai yang hilang
  • Mengkonsistensikan data

Dalam tahapan ini, akan terjadi proses pengklasifikasian data, yaitu dengan membagi data sesuai kualifikasinya sesuai dengan ukurannya, yang kemudian di haluskan. Proses ini dikenal dengan proses binning.

Sebelum data mining, tahapan ini berfungsi agar data dalam keadaan bersih. Apabila data sudah bersih, akan berimbas pada tingkat akurasi mining yang tinggi.

Banyak hal yang bisa menyebabkan kurangnya akurasi data. Berikut adalah penyebab yang paling umum :

  • Kesalahan komputer atau manusia
  • Terjadi kegagalan pada instrumen data
  • Dan kesalahan lainnya

Data yang harus dilakukan pembersihan, seperti :

  • Data yang tidak konsisten
  • Ada data ganda
  • Data noisy
  • Dan data tidak lengkap

Proses pembersihan dapat mengatasi permasalahan-permasalahan tersebut.

2. Data integration

Tahapan kedua adalah data integration atau proses mengintegrasikan data. Data integration akan melakukan penyatuan data. Terutama data yang memiliki representasi berbeda karena berbagai konflik. Kemudian diselesaikan masalahnya.

Jadi, tahapan ini adalah tahap lanjutan dari proses yang pertama. Dalam tahap kedua ini, tyang telah di bersihkan, kemudian di satukan dan data tersebut di buat lebih halus.

3. Data transformation

Tahapan ketiga adalah mentransformasikan data. Dalam tahapan ini, data yang sudah diintegrasikan, kemudian dinormalisasi dan dilakukan proses generalisasi data. Proses ini untuk memastikan agar tidak ada data yang berlebihan.

Jadi, dalam prosesnya, data akan dihimpun dalam sebuah tempat penyimpanan, yang dependensinya harus masuk akal. Data juga akan ditransformasikan dalam bentuk yang sesuai.

Selain itu, pada tahapan ini, data akan di konversikan atau di ubah bentuknya. Contohnya seperti mengubah bentuk data angka menjadi suatu bentuk kategori data yang berbeda.

Tahapan transformasi data ini berguna untuk mengurangi jumlah data. Cara untuk transformasi data adalah :

Aggregate data, smoothing, attribute construction, normalisasi data dan discretization data.

4. Data reduction

Tahapan terakhir adalah data reduction atau mereduksi data. Kita tahu bahwa data mining menggunakan data yang jumlahnya sangat besar.

Karena jumlah data yang besar, maka tingkat akurasinya pun dikhawatirkan akan rendah atau bahkan tidak akurat. Oleh sebab itu, data perlu di reduksi.

Reduksi merupakan suatu proses untuk mengurangi jumlah data namun dengan tidak mempengaruhi proses analisis data. Dengan melakukan pengurangan data, maka akan menjadikan proses penyimpanan menjadi lebih efisien.

Data yang bisa dikurangi dalam proses ini adalah data yang memiliki kapasitas berlebihan. Seperti contohnya data transaksi keuangan yang dalam hitungan menit saja sudah mencapai Terabyte.

Proses terakhir data reduction ini membutuhkan waktu yang cukup lama. Karena waktu untuk mengurangi data dengan jumlah sangat besar. Prosesnya tidak mungkin dikerjakan dalam waktu singkat.

Demikian pembahasan singkat tentang data preprocessing. Artikel ini dapat bermanfaat untuk menambah pengetahuan bagi pembaca yang ingin mengetahui terkait pengolahan data.

Baca Juga :

inMarketing adalah Digital Transformation Consultant dan Digital Marketing Strategy yang fokus pada Leads Conversion, Data-Driven dan Digital Analytics. Kami membantu korporasi untuk tumbuh lebih cepat dengan Marketing Technology Strategy. Konsultasi dengan kami? Contact.