![]() |
Belajar memahami pencilan data, dokpri. |
Baiklah, yang pertama saya akan membuatkan mengenai uji perkiraan klasik yang biasa digunakan dalam analisis regresi linier. Seperti yang telah kita ketahui bersama bahwa uji perkiraan klasik itu yaitu syarat mutlak yang harus dipenuhi dikala kita memakai regresi linier untuk membangun instrumen inferensi. Apabila uji perkiraan klasik tak terpenuhi, maka jelaslah regresi yang kita berdiri tidak berkhasiat sama sekali alasannya sudah tidak bersifat BLUE.
Apa Itu BLUE? Yuk Simak Jawabannya di sini
Berdasarkan email yang saya dapatkan ada pertanyaan apakah dalam pemodelan regresi linier kita perlu mengecek normalitas setiap variabel dependen (variabel terikat) dan independen (variabel bebas) yang digunakan? Jawabannya yaitu tidak perlu. Justru yang perlu diuji normal atau tidaknya yaitu eror dari model regresi yang dihasilkan. Mengapa demikian? Sebab, model regresi yang berhasil kita bangun, elemen eror merupakan variabel acak (stokastik) sekaligus meliputi kombinasi sifat dari seluruh variabel yang berada di dalam model. Ketika eror melanggar perkiraan normal, maka yang perlu kita lakukan yaitu transformasi variabel bebas dan atau variabel terikat. Ini cara yang paling gampang dan sederhana. Namun, apabila semua transformasi variabel digunakan dan eror modelnya masih melanggar uji perkiraan kenormalan, tindakan selanjutnya yaitu dengan mengidentifikasi keberadaan outlier atau pencilan amatan untuk setiap variabel.
Apakah dikala perkiraan kenormalan terlanggar outlier secara pribadi dibuang dari barisan amatan? Di sini ada perbedaan pendapat, ada yang membolehkan dan ada yang dibiarkan di dalam model. Pendapat yang membolehkan membuang pencilan terkait kemudahan, tetapi pendapat yang membiarkan pencilan berada di dalam model lebih pada upaya mempertahankan isu data, fenomena dan kemungkinan untuk menganalisis pencilan tersebut secara terpisah.
Ingat! Outlier itu mengandung isu atau fenomena
Di samping itu, dikala pencilan dibuang begitu saja, maka jumlah amatan dalam model tentunya akan berkurang. Padahal, dalam pemodelan regresi linier, jumlah amatan setidaknya lima hingga sepuluh kali lebih banyak daripada jumlah variabel independen yang digunakan. Jumlah amatan yang makin berkurang menyebabkan kemampuan dari model regresi yang dihasilkan tentu tak sekuat apabila jumlah amatan relatif lebih banyak. Malah, jikalau terlalu sedikit, analisis regresi linier tidak relevan untuk dipakai.
Pertanyaan selanjutnya: Saya memakai data lingkungan semisal data curah hujan dan data numerik lainnya untuk memprediksi insiden menular alasannya faktor lingkungan. Tapi, terjadi pelanggaran data tidak normal pada sig. 0,05 dengan uji Kolmogorov-Smirnov, apa solusinya?
Kita coba ulas bersama-sama, penyakit menular alasannya faktor lingkungan, ini memerlukan pembagian terstruktur mengenai lebih terang mengenai kekerabatan keduanya terlebih dahulu. Secara umum memang sedikit banyak lingkungan merupakan faktor penularan penyakit, tetapi itu secara tidak langsung. Artinya, secara kekerabatan keeratan saja, lingkungan boleh jadi "lemah" berperan dalam penularan suatu penyakit. Tapi, bisa jadi "kuat" juga. Kita perlu menjabarkan lagi konteks medisnya.
Sebelum ke uji perkiraan kenormalan, kita perlu menjelaskan skala data untuk variabel dependennya menyerupai apa. Apakah jenis penyakitnya? Apakah prevalensinya? Atau lainnya. Ini penting untuk memilih jenis model apa yang digunakan. Bila skala data variabel dependennya kategorik, maka regresi logistik yang bisa digunakan, namun kalau skala datanya interval atau rasio, maka regresi linier bisa jadi lebih cocok. Meski perlu diamati lagi teladan atau sikap data dan kekerabatan antar datanya.
Jika uji K-S untuk setiap variabel tidak menyatakan kenormalan, mungkin saja dikala menguji eror model justru memenuhi perkiraan normal. Makara sekali lagi terhadap eror model, bukan variabel. Syarat minimal jumlah amatan untuk pengujian perkiraan normalitas dengan K-S yaitu 5 amatan atau lebih (tentu dengan mempertimbangkan jumlah variabel independen yang digunakan). Maka, salah satu solusinya yaitu dengan menambah jumlah amatan, atau dalam istilah lain menambah ukuran sampelnya. Namun, dalam hal ini dengan catatan bahwa uji K-S yang digunakan merupakan uji K-S parametrik, yaitu K-S dengan koreksi Dallal-Wilkinson-Liliefors.(*)
Sumber http://www.ngobrolstatistik.com/