blognya komarudin bin sayuti

blognya komarudin bin sayuti header image 2

Mengotak-atik statistik quick count pilpres 2014

July 12th, 2014 · 4 Comments

Sebagai warga yang sedang berdomisili di luar NKRI, saya lebih banyak menerima asupan informasi dari media sosial dan portal berita daring (online). Dimulai dari tiga bulan yang lalu, berita tentang pemilihan presiden (pilpres) 2014 makin nyaring terdengar. Nyaringnya berita ini cukup membuat sakit telinga karena disertai dengan pertarungan yang berdarah-darah antar pendukung kedua capres. Satu berita positif di suatu portal berita, menjadi berita negatif di portal berita yang lain, dan begitu juga sebaliknya. Selain itu, fitnah dan berita menyudutkan yang berasal dari penulis anonim tanpa urat malu bermunculan di mana-mana.

Tadinya saya mengira bahwa pertarungan berdarah ini akan berakhir seiring selesainya pencoblosan suara di Indonesia. Akan tetapi, perkiraan saya salah, pertarungan kembali berlanjut dengan pertarungan adu kuat hitung cepat (quick count). Pertarungan berlanjut karena kesimpulan dari beberapa hitung cepat saling bertolak belakang. Pada episode ini, kita masih melihat kritikan berbalas kritikan di media sosial dan portal berita daring.

Tulisan ini ditujukan tidak untuk mengunggulkan atau membantah salah satu hasil hitung cepat, baik yang selaras ataupun yang berbeda dengan pilihan saya pribadi. Tetapi, tulisan ini ditujukan untuk menyelaraskan pemahaman tentang hasil hitung cepat. Selain itu, tulisan ini juga tergerak karena adanya praktek quick count yang bisa jadi kurang tepat.

Cara membaca hasil hitung cepat (quick count)

Di berbagai media, hasil hitung cepat setidaknya melaporkan dua variable, yakni persentase perolehan suara dan timber galat (margin of error). Sering kali, jumlah sampel juga disertakan sebagai alasan penguat kredibelitas hasil quick count.

Jumlah sampel sangat mempengaruhi keakuratan survei. Sehingga, para peneliti mencoba menggunakan jumlah sampel yang cukup agar mendapatkan bukti yang mendukung kesimpulan yang diambil. Sebelum melakukan survei, peneliti quick count menentukan confidence level \(\alpha\) (tingkat keyakinan) dan mengestimasi margin of error \(ME\). Untuk mendapatkan margin of error (terancang) \(ME\), standard error (simpangan baku) \(SE_{\hat{p}}\) dapat dihitung melalui Persamaan (1) [1]:

\(SE_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}\) (1)

dengan \(p\) adalah persentase perolehan suara calon 1 (atau 2, sama saja), \(n\) adalah jumlah TPS yang disampel (disurvei).

Bagi yang memahami teori probabilitas, sebuah suara warga dapat dianggap sebagai sebuah percobaan Bernoulli dengan probabilitas \(p\) memilih calon 1 dan probabilitas \(1-p\) memilih calon 2. Karena sebuah TPS mengumpulkan suara warga, maka sebuah TPS terdistribusi binomial. Sehingga Persamaan (1) adalah standard error dari \(\hat{p}\) (estimator proporsi) dari distribusi Binomial. Kemudian karena populasi TPS sangat besar, yakni sebesar 479.183 TPS, maka gabungan TPS ini bisa dianggap terdistribusi normal sesuai dengan central limit theorem. Tetapi tetap dengan syarat, TPS harus bersifat variabel acak independen dan identik (independent identically distributed). Selain itu, statistik yang dikumpulkan untuk tiap TPS adalah harus rata-rata sampel (sample mean). Untuk memenuhi syarat ini, para lembaga survei biasa menggunakan multi-stage random sampling.

Keuntungan menggunakan pendekatan distribusi normal adalah kita dapat menghitung margin of error tergantung dengan tingkat keyakinan yang digunakan:

  • confidence level \(\alpha = 68.2 \%\), maka \(ME = \pm SE_{\hat{p}}\)
  • confidence level \(\alpha = 95.4 \%\), maka \(ME = \pm 2 SE_{\hat{p}}\)
  • confidence level \(\alpha = 99.8 \%\), maka \(ME = \pm 3 SE_{\hat{p}}\)

Pemahaman ini, tentu saja berasal dari pemahaman confidence interval dari distribusi normal. Ini saya tampilkan bagan distribusi normal [2]:

distribusi_normal

Setelah data quick count terkumpul, peneliti quick count diharuskan menghitung ulang margin of error baik untuk calon 1 dan calon 2. karena dianggap terdistribusi normal, standard error dihitung dengan Persamaan (2)-(3), bukan dengan Persamaan (1).

\(SE_{\hat{p}} = \frac{s}{\sqrt{n}}\) (2)

\(s = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(p_i-\hat{p})^2}\) (3)

dengan \(s\) adalah sample standard deviation, \(p_i\) persentase perolehan suara calon 1 (atau 2) pada TPS \(i\), dan \(\hat{p}\) adalah rata-rata persentase perolehan suara calon 1 (atau 2) untuk semua TPS yang disampel.

Oke, setelah cuap-cuap tentang rumus-rumus nggak jelas, mari kita kita pahami hasil quick count pilpres 2014. Tabel 1 menunjukkan hasil quick count yang dikumpulkan dari berbagai sumber.

Tabel 1. Hasil quick count dari beberapa lembaga survei

No Sumber Calon 1 Calon 2 margin of error \(ME\) terlapor (*) margin of error \(ME\) terancang (#) standard error \(SE_{\hat{p}}\) terancang (^) Jumlah sampel Tingkat keyakinan
1. CSIS [3] 48,90% 52,10% 1,00% 2,21% 1,13% 2.000 95%
2. IRC [4] 51,11% 48,89% 1,00% 1,18% 1.800
3. Kompas [5] 47,66% 52,34%
4. LSI Deny JA [6] 46,63% 53,37% 1,00% 1,12% 2.000
5. Puskaptis [7] 52,05% 47,95% 1,00% 2,77% 1,41% 1.250 95%
6. Pol-tracking [8] 46,63% 53,37% 1,00% 1,12% 2.000
7. Populi center [9][10] 49,05% 50,95% 1,00% 2,88% 1,12% 2.000 99%
8. RRI[11] 47,52% 52,48% 1,12% 2.000
9. SMRC[12] 47,02% 52,98% 0,62% 1,55% 0,79% 3.990 95%

* Margin of error \(ME\) yang dilaporkan lembaga survei (seharusnya dihitung dengan Persamaan (2)-(3))
# Margin of error \(ME\) yang dihitung berdasarkan Persamaan (1)
^ Standar error \(SE_{\hat{p}}\) yang dihitung berdasarkan Persamaan (1)

Patut diduga, lembaga-lembaga survei tidak melaporkan margin of error \(ME\) secara benar (Baca juga update 16 Juli 2014 di bawah). Kalau kita perhatikan pada Tabel 1, margin error yang dilaporkan lebih mirip standard error terancang \(SE_{\hat{p}}\) daripada margin of error terancang. Kalau ini benar, maka tingkat keyakinan yang digunakan seharusnya adalah \(\alpha = 68.2 \%\) ketika \(ME = SE_{\hat{p}}\).

Sekarang kita asumsikan, lembaga-lembaga survei melaporkan margin of error \(ME\) secara benar. Maka cara membaca hasil quick yang benar adalah sebagai berikut. Kita ambil contoh hasil quick count dari SMRC yang menggunakan tingkat keyakinan 95%. Penjabarannya dengan bantuan confidence interval adalah sebagai berikut:

  1. Dengan kemungkinan 95%, maka persentase perolehan suara calon 1 adalah antara 46,40%-47,64%, sedangkan persentase perolehan suara calon 2 adalah antara 52,36%-53,60%.
  2. Masih ada kemungkinan 5% bahwa persentase perolehan suara calon 1 bukan di antara 46,40%-47,64% dan persentase perolehan suara calon 2 bukan di antara 52,36%-53,6%.
  3. Dengan kata lain, ada kemungkinan 2,5% persentase perolehan suara calon 1 ada di bawah 46,40% dan ada kemungkinan 2,5% persentase perolehan suara calon 1 di atas 47,64%.
  4. Begitu juga sebaliknya ada kemungkinan 2,5% persentase perolehan suara calon 2 ada di bawah 52,36% dan ada kemungkinan 2,5% persentase perolehan suara calon 1 di atas 53,60%.
  5. Jika kita berandai-andai secara santai untuk 100 kali pilpres dan menghasilkan angka yang sama, maka 95 kali pilpres akan mengikuti hasil poin (a), sedangkan pada 5 pilpres akan menghasilkan hasil yang berbeda.

Seperti kita lihat di atas, survei tidak memberikan kesimpulan yang pasti. Sehingga, cukup berlebihan jika ada peneliti survei yang ngotot bahwa kesimpulan surveinya pasti benar. Oleh karena itu, hasil quick count tidak dapat digunakan untuk menunjuk siapa pemenang pilpres 2014 sesungguhnya.

Kita tidak bisa memastikan hasil quick count mana yang benar. Hal ini dikarenakan hasilnya yang bertolak belakang. Mari kita bandingkan hasil quick count Puskaptis dan SMRC yang bertolak belakang walaupun sama-sama menggunakan tingkat keyakinan 95%. Menurut hasil Puskaptis, dengan kemungkinan 95%, calon nomor 1 mendapatkan persentase perolehan suara antara 51,05%-53,05%. Sementara itu, menurut hasil SMRC, dengan kemungkinan 95%, calon nomor 1 mendapatkan persentase perolehan suara antara 46,40%-47,64%. Tentu saja, pembaca bisa mengatakan bahwa perbedaan hasil survei ini karena kedua lemabaga survei ini mendukung calon yang berbeda.

Akan tetapi, kesimpulan serupa juga kita dapatkan untuk lembaga-lembaga survei yang mendukung calon yang sama. Mari kita ambil CSIS dan SMRC. Menurut CSIS dengan kemungkinan 95%, calon nomor 1 mendapatkan persentase perolehan suara antara 47,90%-49,90%. Sementara itu, menurut hasil SMRC, dengan kemungkinan 95%, calon nomor 1 mendapatkan persentase perolehan suara antara 46,40%-47,64%. Silahkan pembaca perhatikan, tidak ada irisan antara kedua interval ini. Padahal, kedua lembaga sama-sama mengklaim dengan kemungkinan 95%. Kalau demikian, kita kemanakan jumlah total probabilitas yang tidak mungkin lebih dari 1? Keanehan ini juga masih valid walaupun kita menganggap para lembaga survei melaporkan margin of error dengan data standard of error. Silahkan pembaca hitung dengan tingkat kepercayaan 68.2%.

Kapan hasil hitung cepat meleset

Hasil yang bertolak belakang ini menguatkan bahwa hasil quick count tidak bisa dipakai sebagai sandaran yang pasti. Lalu, mungkin kita bertanya mengapa hasil yang bertolak belakang ini bisa terjadi? Para ahli sudah mengungkapkan alasannya sebagai berikut [13]-[14]:

  1. pelaku tidak memahami metode sampling dengan baik sehingga sampel tidak representasif terhadap populasi
  2. pelaku paham metodologi tapi pelaksanaan teknisnya berantakan.
  3. pelaku tidak memahami metodologi. Lebih parah lagi, pelaku tidak turun ke lapaghan.
  4. pelaku memahami metodologi dan teknis pelaksanaan tapi hasil yang muncul di lapangan diubah.

Katakanlah, bahwa metodologi dan praktek teknis di lapangan sudah benar dan tidak ada kecurangan lembaga survei mengubah hasil di lapangan. Pada keadaan ini, tetap saja keakuratan hasil quick count akan lebih rendah dari yang didapat dengan persamaan (1)-(3). Hal ini dikarenakan syarat variabel acak independen dan identik (independent identically distributed) sulit terpenuhi. Para lembaga survei boleh mengatakan bahwa mereka sudah menggunakan metode multi-stage random sampling. Akan tetapi, tetap syarat ini sulit terpenuhi.

TPS bisa tidak bersifat variabel acak independen. Misalnya hasil suara perolehan (exit poll) TPS luar negeri dapat mempengaruhi TPS dalam negeri. Selain itu, masing-masing TPS memiliki jumlah pemilih yang berbeda-beda dan kecenderungan pemilih di satu TPS bisa berbeda jauh dengan kecenderungan pemilih di TPS lain. Hal ini menyebabkan TPS tidak bersifat variabel acak identik. ketidak-identik-an inilah yang menyebabkan margin of error bertambah besar. Oleh karena itu, hasil quick count yang berbeda adalah lumrah terjadi.

Kejadian menarik, klaim kemenangan diumumkan ketika 81,3% data terkumpul

Ada kejadian yang menarik di perhelatan pilpres 2014. Ada sebuah lembaga yang mengumumkan klaim kemenangan walaupun data quick count baru terkumpul 81,3% [15]. Alasan lembaga ini, persentase perolehan suara sudah stabil dan tidak ada perubahan yang berarti. Mari kita hitung confidence intervalnya dengan tingkat keyakinan 95%, margin error 0,68%, dan jumlah sampel 3252 (81,3%). Maka dengan probabilitas 95%, calon 1 mendapat persentase perolehan suara 46,52%-47,88%, sedangkan calon 2 mendapat persentase perolehan suara 52,12%-53,48%. Dari hasil ini, persentase perolehan suara kedua calon terpaut cukup signifikan. Sehingga, wajar kalau klaim kemenangan dibuat.

Akan tetapi, klaim kemenangan ini berpotensi ditunggangi sebuah kealpaan yang sangat halus. Lebih jelasnya, quick count ini tidak lagi sebuah multi-stage random sampling. Dari 100% TPS yang dipilih secara acak terkluster, baru dipakai 81,3%. Padahal, pemilihan 81,3% data didasarkan bukan atas randomness, akan tetapi didasarkan dengan waktu sampainya data. Bisa jadi, 81,3% ini lebih mewakili data perkotaan yang lebih memiliki fasilitas komunikasi yang lebih bagus dibanding daerah pedesaan yang lebih terbatas.

Dari uraian di atas, kami mengajak pembaca untuk lebih bijak dan kritis terhadap hasil quick count. Selain itu, kami juga telah mengetengahkan satu analisa awal tentang statistik quick count pilpres 2014. Ini bisa jadi bahan awal penelitian yang lebih serius baik di tingkat perguruan tinggi dan lembaga penelitian lainnya.

Update 14 Juli 2014: Kang Yudhie dosen statistik Unpad menjelaskan bahwa persamaan 1 didapat dari distribusi Bernoulli, bukan dari central limit theorem. Jazahullah khairan katsira.

Update 14 Juli 2014: Mas Dedy dosen statistik ITS menambahkan penjelasan tentang Persamaan 1 dan perbaikan notasi. Jazahullah khairan katsira.

Update 16 Juli 2014: SMRC menerbitkan penjelasan tentang metodologi quick count yang mereka lakukan [16]. Menggunakan data MOE tiap provinsi yang disediakan dan metode dari Scheaffer (1996), Perhitungan MOE SMRC sudah benar.  Walaupun demikian, penjelasan tentang keanehan hasil quick yang bertolak belakang di atas masih berlaku. Lembaga survei menggunakan teknik stratified-cluster sampling. Dalam stratified sampling, strata diasumsikan independen satu dengan yang lain. Sehingga covariance antara strata dianggap tidak ada dan nilai MOE akan lebih kecil dari jika dihitung dengan Persamaan 3. Selain itu, dalam satu strata, cluster-cluster diasumsikan homogen. Ini adalah asumsi yg saya sebut diatas dengan identically distributed random variable. Nah, asumsi-asumsi ini belum tentu sepenuhnya terpenuhi, makanya saya sebut seharusnya akurasi quick count yang dilaporkan lebih kecil. Ini juga yang menjelaskan mengapa berbeda hasil quick count antar lembaga survei (dengan asumsi semua metode dan praktek di lapangan sudah benar).

 

Referensi

[1] http://en.wikipedia.org/wiki/Margin_of_error

[2] http://en.wikipedia.org/wiki/Standard_error_%28statistics%29

[3] http://news.atjeh.org/national/Candidates-stronghold-Mutual-Claims-Victory.html

[4] http://us.politik.news.viva.co.id/news/read/520910-ini-metodologi-quick-count-irc-yang-unggulkan-prabowo

[5] http://indonesiasatu.kompas.com/hitungcepat

[6] http://sumsel.tribunnews.com/2014/07/09/quick-count-lsi-jokowi-jk-5337-persen-prabowo-hatta-4663-persen

[7] http://politik.rmol.co/read/2014/07/09/163158/Puskaptis:-Prabowo-Hatta-52,05-Persen,-Jokowi-JK-47,95-Persen-

[8] http://news.detik.com/pemilu2014/read/2014/07/09/204825/2632819/1562/hasil-quick-count-poltracking-jokowi-5337-persen-prabowo-4663-persen

[9] http://www.gatra.com/politik-1/56656-quick-count-populi-center-100-persen-didanai-metro-tv.html

[10] http://populicenter.org/index.php/component/k2/item/59-quick-count-pilpres-2014

[11] http://news.detik.com/pemilu2014/quickcountpilpres

[12] http://www.saifulmujani.com/blog/2014/07/12/data-akhir-quick-count-pilpres-2014

[13] http://news.detik.com/pemilu2014/read/2014/07/12/122554/2635272/1562/ini-faktor-penyebab-perbedaan-hasil-quick-count-menurut-pakar

[14] news.detik.com/pemilu2014/read/2014/07/12/102434/2635233/1562/ini-4-penyebab-yang-bisa-sebabkan-hasil-quick-count-bermasalah

[15] http://news.detik.com/pemilu2014/read/2014/07/09/142726/2632441/1562/smrc-jokowi-jk-menang-pilpres-2014

[16] http://www.saifulmujani.com/blog/2014/07/16/penjelasan-smrc-tentang-metodologi-quick-count-pilpres-2014

[17] Scheaffer, R.L., Mendenhall, W., and Ott, L. 1996.  Elementary Survey Sampling, 5th ed. Belmont, Calif [u.a.]: Duxbury Press.

Print Friendly, PDF & Email

Tags: my life · Others · Statistics

4 responses so far ↓

  • 1 kadir // Jul 13, 2014 at 7:21 am

    setahu saya se untuk penarikan sampel secara srs dihitung dengan formula s/sqrt(n)

  • 2 Komarudin // Jul 13, 2014 at 8:30 am

    Iya Pak Kadir. Saya sudah merevisi Persamaan 2. Semoga Allah membalas anda dengan kebaikan yang banyak.

  • 3 zainul // Jul 15, 2014 at 5:51 pm

    Alasan kenapa persamaan 1) bukan estimasi yang baik (terlalu besar) untuk 2) 3) adalah karena distribusi suara TPS tidak binomial. Persamaan 1) bisa dipakai seandainya setiap kali kita memilih TPS secara random, seluruh pemilih di dalamnya memilih Prabowo dengan probabilitas p atau sebaliknya seluruh pemilih di dalamnya memilih Jokowi dengan probabilitas (1-p). Anggap jumlah pemilih di setiap TPS sama. Kenyataannya tidak seperti itu, di dalam setiap TPS yang kita pilih random, ada yang memilih Prabowo ada yang memilih Jokowi.

    Untuk perkiraan kasar, seumpama distribusinya uniform, artinya peluang dalam suatu TPS punya persentase pemilih Prabowo dari 0% sampai 100% secara seragam maka kira-kira nilai standar deviasi sample pada persamaan 3) adalah 1/sqrt(12)=0.29. Seumpama distribusinya segitiga dengan maksimum di 50% maka nilai standar deviasi samplenya 0.2. Nilai ini lebih cocok untuk menjelaskan margin of error terlapor oleh lembaga survei, misalnya untuk SMRC diperoleh standar error 0.2/sqrt(3990)=0.316%. Artinya untuk tingkat keyakinan 95% (1.96 sigma) diperoleh 1.96*0.316%=0.62%.

    Peluang suara untuk Jokowi tidak di bawah 50% (dan tidak di atas 55.96%) adalah (52.98-50)/0.68*1.92=9.4 sigma, (99.9999dst……….%). Tentu saja jika tidak ada kesalahan sistematis.

  • 4 Tonang Dwi Ardyanto // Jul 15, 2014 at 8:20 pm

    Pak, ada tanggapan dari SMRC di sini, mohon barangkali dapat ditanggapi atau dibahas. Matur nuwun.

    http://www.facebook.com/l.php?u=http%3A%2F%2Fadionggo.pbworks.com%2Fw%2Ffile%2Ffetch%2F83005015%2FMETODOLOGI%2520QC%2520PILPRES%2520JULI%25202014.pdf&h=WAQHhC9gr

Leave a Comment