Jumat, 30 Juli 2021

Visualisasi Data dalam Statistika

VISUALISASI DATA DALAM STATISTIKA


Stem and Leaf Plot [1/2]


Stem and Leaf Plot [2/2]


Dot Plot


Pie Chart


Bar Plot

Scatter Plot


Time Series Chart







Distribusi Frekuensi dalam Statistika

DISTRIBUSI FREKUENSI DALAM STATISTIKA



Distribusi Frekuensi (Frequency Distribution)

Distribusi frekuensi adalah bentuk pengelolaan data di mana data dikelompokkan ke dalam beberapa kelas (classes) berdasarkan interval tertentu. Jumlah kemunculan data untuk tiap kelas akan terhitung dan dikenal sebagai frekuensi dari kelas.

Contoh :

● Terdapat 6 classes
● Antar classes tidak ada overlap
● Setiap class memiliki:
    ○ Lower Class Limit: 1, 6, 11, 16, 21, 26
    ○ Upper Class Limit: 5, 10, 15, 20, 25, 30
    ○ Class Width: 5












Membuat Distribusi Frekuensi

Data harga keyboard :
128, 100, 180, 150, 200, 90, 340, 105, 85, 270, 200, 65, 230, 150, 150, 120, 130, 80, 230, 200, 110, 126, 170, 132, 140, 112, 90, 340, 170, 190

Terdapat 7 kelompok yg biasa disebut "n_class" 
n_class = 7

Mengenal midpoint, relative frequency, dan cummulative frequency





Visualisasi Data: Histogram


Visualisasi Data: Frequency Polygon

Visualisasi Data: Ogive






Minggu, 25 Juli 2021

Pengumpulan Data (Data Collection)

 Pengumpulan Data (Data Collection)


Terdapat 2 (dua) pendekatan yang dapat ditempuh dapa bidang ilmu statistika terkait pengumpulan data yang biasa disebut sebagai "DATA COLLECTION" kedua pendekatan tersebut yakni :
  • Census
Census adalah upaya pengumpulan data dilakukan pada tingkat populasi. Alhasil, akan diperoleh informasi yang sifatnya lengkap. Hanya saja ketika ukuran populasinya sangat besar, maka seringkali census menjadi pilihan yang mahal dan sulit untuk dilakukan

  • Sampling
Sampling merupakan upaya pengumpulan data dilakukan pada sub bagian dari populasi. Alhasil, informasi yang diperoleh sifatnya tidak lengkap. Pendekatan semacam ini cukup umum ditemui dalam studi statistik. Di sini sample yang baik adalah sample yang dapat merepresentasikan populasinya. Dibutuhkan teknik sampling yang tepat untuk mendapatkan sample yang representatif terhadap populasinya.


Karena sample merupakan sub bagian dari populasi, maka selisih atau perbedaan nilai antara data sample dan data populasi akan selalu ada. Perbedaan atau selisih nilai ini dikenal dengan istilah sampling error. Bahkan dengan teknik sampling sebaik apapun, sampling error ini tidak dapat dihindarkan.


  • Sampling with replacement : Memungkinkan satu anggota populasi untuk terpilih lebih dari satu kali sebagai anggota sample.
  • Sampling without replacement : Menjamin satu anggota populasi hanya dapat terpilih satu kali saja sebagai anggota sample.


Teknik Sampling (Sampling Techniques)
Teknik sampling dalam bidang statistika yang umum dijumpai :
● Simple Ramdom Sampling
● Stratified Sampling
● Cluster Sampling
● Systematic Sampling
● Convenience Sampling


Sampling Technique: Simple Random Sampling

Simple random sampling merupakan teknik pengumpulan data yang dilakukan secara acak di mana setiap anggota populasi memiliki peluang yang sama untuk dapat terpilih sebagai anggota sample.

Contoh : Terdapat 400 siswa terdaftar di kelas statistika dan kita diminta untuk melakukan sampling secara acak terhadap 10 orang siswa untuk dilibatkan dalam survey. Salah satu cara yang dapat ditempuh adalah dengan memberikan sebuah nomor pada tiap siswa, mulai dari nomor 1 sampai dengan 400. Lalu gunakan random number generator untuk melakukan pemilihan acak sebanyak 10 kali dengan rentang nilai pengacakan mulai dari 1 sampai dengan 400.


Sampling Technique: Stratified Sampling

  • Stratified sampling merupakan teknik pengumpulan data secara acak yang dilakukan dengan terlebih dahulu membagi anggota populasi ke dalam beberapa kelompok berdasarkan kesamaan karakteristik tertentu (e.g., rentang usia, jenis kelamin, tingkat pendapatan, etc).
  • Kelompok yang terbentuk ini biasa dikenal dengan istilah strata.
  • Selanjutnya anggota dari tiap strata tersebut akan dipilih secara acak untuk dijadikan anggota sample.
  • Perlu diingat agar sampling yang dilakukan di tiap strata haruslah proporsional dengan proporsinya dalam populasi.
Gambar 1 (Ilustrasi Stratified Sampling)

Contoh : Dilakukan survey terhadap 100 orang mahasiswa baru terkait preferensi mereka dalam memilih menu makan siang. Dari populasi mahasiswa baru ini, dihasilkan dua buah strata berdasarkan jenis kelamin (pria dan wanita). Mengacu pada data penerimaan mahasiswa, didapati 3500 mahasiswa baru yang terdaftar dengan persentase jumlah mahasiswa pria dan wanita adalah 55%-45%. Oleh karenanya survey ini akan melibatkan 55 mahasiswa pria dan 45 mahasiswa wanita yang dipilih secara acak.


Sampling Technique: Cluster Sampling
  • Cluster sampling merupakan teknik pengumpulan data secara acak yang dilakukan dengan membagi anggota populasi ke dalam beberapa kelompok berdasarkan pengelompokkan yang sudah terbentuk (e.g., area geografis, kecamatan, kelurahan, etc).
  • Kelompok yang terbentuk ini biasa dikenal dengan istilah cluster.
  • Selanjutnya anggota dari tiap cluster tersebut akan dipilih secara acak untuk dijadikan anggota sample.
  • Perlu diingat agar sampling yang dilakukan di tiap cluster haruslah proporsional dengan proporsinya dalam populasi.
Gambar 2 (Ilustrasi Cluster Sampling)

Contoh : Dilakukan pendataan jenis dan jumlah kendaraan bermotor yang dimiliki oleh tiap keluarga di wilayah Kecamatan Suka Jaya. Karena wilayah kecamatan ini terbagi ke dalam 7 kelurahan; maka pendataan dilakukan secara acak di tiap kelurahan dengan jumlah sample yang proporsional sesuai dengan persentase jumlah warga di tiap kelurahannya.


Sampling Technique: Systematic Sampling

Systematic sampling merupakan teknik pengumpulan data berdasarkan interval tertentu. Teknik sampling ini terbilang cukup mudah untuk diterapkan. Hanya saja teknik ini tidak dapat diterapkan bila ditemui adanya pola yang sifatnya konsisten dan sistematis pada data kita.

Contoh: Survey terkait kepuasan pelanggan mini market yang dilakukan terhadap setiap pengunjung dengan interval kedatangan 10. Dengan kata lain, bila pengunjung yang sedang dilibatkan dalam survey saat ini adalah pengunjung ke 5, maka pengunjung berikutnya yang akan dilibatkan dalam survey adalah pengunjung ke 15.


Sampling Technique: Convenience Sampling

Convenience sampling merupakan teknik pengumpulan data yang bisa dibilang asal atau sembrono dan hanya berorientasi pada kemudahan. Ini merupakan teknik pengumpulan data yang buruk dan sangat rentan terhadap bias.

Contoh: Suatu survey dilakukan untuk mendata opini warga Kecamatan Suka Pintar (yang terbagi dalam 7 kelurahan) terkait layanan masyarakat yang disediakan oleh aparat kecamatan. Dikarenakan alasan kemudahan, maka satu kelurahan ditunjuk sebagai perwakilan dan survey dilakukan terhadap warga kelurahan tersebut yang dipilih secara acak.



Minggu, 18 Juli 2021

Desain Eksperimen dalam Statistika

 Desain Eksperimen dalam Statistika




Studi Statistik (Statistical Study)

Studi Observasi (Observational Study)
Seorang peneliti hanya melakukan pengamatan terhadap subjek (seperti pengukuran karakteristik) tanpa melakukan tindakan apapun yang dapat mempengharuhi hasil pengamatan.

Contoh :   

Sebuah penelitian dilakukan untuk mengamati laju kecepatan kendaraan yang melintas di Jalan Merdeka pada pukul 10 sampai dengan 12 malam. Pengukuran kecepatan kendaraan dilakukan dengan bantuan speed gun selama 90 hari.


Studi Eksperimen (Experimental Study)
Seorang peneliti menerapkan suatu treatment tertentu terhadap subjek sebelum melakukan pengamatan untuk memahami efek dari treatment yang diberikan.

Contoh :

Sebuah penelitian dilakukan untuk mengamati efek dari pemberian suplemen vitamin D3 terhadap 140 pasien dengan tingkat anti-body rendah. Sebanyak 70 pasien menerima 4000 IU vitamin D3 perhari selama 1 tahun dan 70 pasien sisanya menerima placebo. Hasil pengamatan terhadap dua kelompok pasien ini lalu dibandingkan


Desain Eksperimen (Experimental Design) 

Dalam merancang atau mendesain eksperimen setidaknya kita harus memiliki 3 hal yang mesti di perhatikan, yakni :

  • Kendali (Control)
  • Pengacakan (Randomisation)
  • Replikasi (Replication)

Experimental Design : Kendali (Control)

Gambar 1 (Terminologi yang terkait dengan Experimental Design : Control)

Macam - macam implementasi experimental design control :
  • Bliding
    • Subjek eksperimen tidak mengetahui apakah dirinya menerima treatment atau placebo.
  • Double Bliding
    • Baik peneliti maupun subjek eksperimen tidak mengetahui apakah seorang subjek menerima treatment atau placebo.
    • Dibutuhkan pihak ketiga untuk mendistribusikan treatment dan placebo kepada subjek eksperimen.

Experimental Design: Randomisation (pengacakan)
Penentuan subjek eksperimen ke dalam treatment group dan control group dilakukan secara acak (random). 


Gambar 2 (Proses pengelompokkan experimental unit ke dalam treatmen grup & control grup)

Randomised Blocked Design :
  • Keseluruhan subjek eksperimen akan dikelompokkan berdasarkan kesamaan karakteristik tertentu (dikelompokkan misalkan seperti dengan rentang usia, jenis kelamin).
  • Subjek di tiap kelompok lalu dipilih secara acak untuk dimasukkan dalam treatment group dan control group. 
Gambar 3 (Proses pengelompokkan dari Experimenyal Unit ke dalam 3 kelompok)


Experimental Design: Replication (replikasi)
Untuk meningkatkan validitas dari hasil eksperimen, dibutuhkan replikasi atau pengulangan eksperimen dengan kondisi serupa atau mirip. Replikasi melibatkan subjek eksperimen yang berbeda, dengan demikian replikasi juga akan memperbesar ukuran dari subjek eksperimen (sample size) yang juga dapat menunjang validitas dari hasil eksperimen.

Contoh
  1. Sebuah perusahaan mendesain suatu eksperimen untuk menguji efektifitas dari suatu produk permen karet yang dikembangkan untuk membantu seseorang yang ingin berhenti merokok. Sepuluh orang perokok berat dilibatkan sebagai subjek eksperimen. Lima orang di antaranya diberikan permen karet dan lima sisanya diberikan placebo. Setelah dua bulan berjalan, kesepuluh subjek eksperimen ini dievaluasi dan didapati kelima subjek penerima permen karet telah berhenti merokok. Apakah kita bisa menyimpulkan bahwa produk permen karet ini efektif? Permasalahan apa yang terdapat pada desain eksperimen ini?
  2. Sebuah perusahaan mendesain suatu eksperimen untuk menguji efektifitas dari suatu produk permen karet yang dikembangkan untuk membantu seseorang yang ingin berhenti merokok. Seribu orang perokok berat dilibatkan sebagai subjek eksperimen yang dikelompokkan berdasarkan jenis kelamin. Kelompok wanita diberi permen karet dan kelompok pria diberi placebo. Setelah dua bulan berjalan, keseribu subjek eksperimen ini dievaluasi dan didapati adanya jumlah yang cukup signifikan dari kelompok penerima permen karet yang berhenti merokok. Apakah kita bisa menyimpulkan bahwa produk permen karet ini efektif? Permasalahan apa yang terdapat pada desain eksperimen ini?

Tantangan dalam Experimental Study 
  • Confounding/Lurking variable
Faktor eksternal (dan tidak diperhitungkan sebelumnya) yang berpotensi memberikan pengaruh terhadap hasil eksperimen.
  • Placebo effect
Subjek eksperimen memberikan reaksi positif walau subjek tersebut menerima placebo (treatment palsu).
  • Hawthorne effect
Perubahan perilaku dari subjek eksperimen setelah mengetahui bahwa dirinya terlibat dalam eksperimen.






SEKIAN & TRIMAKASIH

Sabtu, 17 Juli 2021

Klasifikasi Data dalam Statistika

 Klasifikasi Data dalam Statistika



Tipe Data

    Dalam ilmu statistika terdapat 2 tipe data yakni :

  • Data Kualitatif (Qualitative)
          Tipe Data Kualitatif berasosiasi dengan data non numerik contohnya :

    • Atribut
    • Label 
  • Data Kuantitatif (Quantitative)
          Tipe Data Kuantitatif berasosiasi dengan data numerik yang hasilnya melalui proses :

    • Perhitungan
    • Pengukuran
Contoh :
Gambar 1 (Contoh kasus data kualitatif dan data kuantitatif)




Skala Pengukuran (Level of Measurements)

    Skala Pengukuran  atau yang biasa disebut dengan (Level of Measurements) Terdapat 4 Skala Pengukuran dalam bidang statistika yakni:


  • Nominal
Skala pengukuran nominal berasosiasi dengan tipe data kualitatif. Data dengan skala pengukuran nominal berfokus pada pengelompokkan atau pengkategorian data berdasarkan nama, label, atau kualitas, dan tidak dapat dikenakan operasi matematika contohnya seperti berikut :

    • merk kendaraan bermotor
    • kota kelahiran
    • nama siswa, nama bulan, nama hari
    • nomor kendaraan bermotor, nomor induk siswa 

  • Ordinal
Skala pengukuran ordinal berasosiasi dengan tipe data kualitatif. Data ini dapat dikelompokkan dan disusun berdasarkan urutan, peringkat maupun ranking. Skala pengukuran ordinal tidak dapat dikenakan operasi matematika. Contoh :
    • tingkat kepuasan pelanggan: sangat puas, puas, cukup, kecewa, sangat kecewa 
    • temperatur udara: panas, sejuk, dingin 
    • peringkat siswa di kelas

  • Interval
Skala pengukuran interval berasosiasi dengan tipe data kuantitatif. Data ini dapat dikelompokkan dan disusun berdasarkan urutan, peringkat maupun ranking. Skala pengukuran interval dapat dikenakan operasi matematika untuk menghitung selisih nilai tetapi tidak dapat dikenakan operasi matematika terkait perkalian, nilai numerik merepesentasikan posisi pada suatu skala ukur tertentu dan tidak memiliki nilai nol yg absolut. Contoh :

    • temperatur udara 32 derajad celsius 
    • tahun 2020

  • Rasio (Ratio)
Skala pengukuran ratio berasosiasi dengan tipe data kuantitatif. Data ini dapat dikelompokkan dan disusun berdasarkan urutan, peringkat maupun ranking. Skala pengukuran interval dapat dikenakan operasi matematika untuk menghitung selisih nilai dan dapat dikenakan operasi matematika terkait perkalian, dan memiliki nilai nol yang absolut. Contoh :

    • usia anak 7 tahun 
    • berat badan 65 Kg 
    • harga nasi goreng Rp 25,000

Tabel ringkasan terkait perbedaan diantara 4 skala pengukuran dalam bidang ilmu statistika :

Gambar 2 (Skala Pengukuran: ringkasan)



Sekian & Trimakasih



Selasa, 13 Juli 2021

Statistika Dasar

Statistika Dasar

(Statistika Deskriptif)



Mengapa Harus Belajar Statistika?

       Diera digital yang sering dikenal dengan era industri 4.0 data digital yang memasuki semakin hari semakin bertambah tentu terdapat istilah-istilah terminologi seperti :

  • Data Warehouse
  • Data Mining
  • Big Data Analytic
  • Machine Learning
  • Data Science

        Semua ini merupakan bidang keilmuan keahlian dalam bidang teknologi informasi (IT) yang muncul dan berkembang karena didorong dengan perkembangan data digital yang masif. Dari sekian bidang keahlian ini terdapat kesamaan dalam bidang ilmu yang dibutuhkan yakni STATISTIKA, dengan kata lain Statistika bisa dibilang sebagai jantung penggerak utama dari bidang-bidang keahlian tersebut dan ini merupakan alasan utama kenapa kita perlu melengkapi diri kita dengan pemahaman ilmu Statistika.

        

Definisi Statistika

        Statistika (Statistics) dapat didefinisikan sebagai bidang ilmu yang mencangkup :

  • Pengumpulan (collecting)
  • Pengelolaan (organising)
  • Analisis (analysing)
  • Interpretasi (interpreting)

        Data dalam bidang statistika sendiri dapat dipahami sebagai kumpulan informasi yang diperoleh melalui :

  • Pengamatan (observation)
  • Penghitungan (counts)
  • Pengukuran (measurements)
  • Reponsi (responses)

Dataset Statistika

        Terkait dataset terdapat 2 dataset yang dikenal dalam bisang Statistika yakni "Populasi" & "Sampel".
  • Populasi (Populationsmerupakan kumpulan dari keseluruhan pengamatan, perhitunganm pengukuran, atau responsi terhadap topik yang ingin dikaji
  • Sampel (Samples) merupakan bagian dari populasi. Sampel yang baik adalah sampel yang representatif terhadap populasi sehingga dapat digunakan untuk menarik simpulan (conclusions) terhadap populasi, oleh karenanya data sampel harus dikumpulkan dengan metode yang tepat salah satunya dengan menggunakan metode random sampling.
(Gambar 1.1) Ilustrasi Populasi & Sampel

Contoh

Sampel      : Suatu survey dilakukan di 35 perguruan tinggi di Indonesia untuk menanyakan apakah                            seorang mahasiswa pernah mengalami bully selama studi di perguruan tinggi. Didapati 237                    dari total 972 reponden mengaku pernah mengalami bully selama menjalani studi di                                perguruan tinggi.

Populasi    : Warga kompleks perumahan Suka Rapi yang terdiri dari total 45 kepala keluarga berencana                    untuk mempercantik kompleks dengan melakukan peremajaan paving jalan. Pendanaan                         akan dilakukan secara kolektif berdasarkan ukuran lebar dari tiap rumah. Oleh karenanya                       dilangsungkan pengukuran dan pendataan lebar muka dari tiap rumah.


Terminologi (Istilah)

  • Parameter adalah deskripsi numerik dari karakter suatu populasi (population) dan didalam suatu populasi hanya terdapat satu parameter.
  • Statistik (Statistic) merupakan deskripsi numerik dari karakter suatu sampel. Karena dalam suatu populasi yang sama kita dapat menarik banyak sampel, maka akan sangat memungkinkan untuk mendapati sejumlah statistik dengan nilai yang beragam untuk satu populasi yang sama. 

Contoh

  • Statistik
"Dari hasil uji emisi yang dilakukan secara acak terhadap kendaraan bermotor yang melintas di Jalan Suka Makmur, didapati 48% kendaraan tidak memenuhi standar kelayakan."

         Disini angka 48% kendaraan tidak memenuhi standar kelayakan adalah "Statistik" karena data ini diperoleh dari uji emisi yang dilakukan secara acak pada kendaraan bermotor yang melintas di jalan Suka Makmur data emisi tidak didapat dari seluruh kendaraan yang melintas di jalan tersebut.

  • Parameter
Dari hasil ujian saringan masuk perguruan tinggi di Universitas Suka Pintar pada tahun ini, ditemui 78% dari calon mahasiswa memiliki kemampuan analisis numerik di atas ambang batas yang disyaratkan"

         Disini angka 78% dari calon mahasiswa memiliki kemampuan analisis numerik di atas ambang batas yang disyaratkan merupakan "Parameter" karena data ini diperoleh dari hasil ujian saringan masuk yang notabennya didapat dari seluruh calon mahasiswa perguruan tinggi di Universitas Suka Pintar di tahun tersebut.


Mengenal Cabang Ilmu Statistika

  • Statistika Deskriptif (Descriptive Statics) merupakan cabang ilmu statistika yang berfokus pada pengelolaan data, peringkasan data, dan visualisais data.
  • Statistika Inferensi (Inferential Statics) merupakan cabang ilmu yang berfokus pada pemanfaatan sampel untuk menarik simpulan terhadap populasi.

Contoh

  • Statistika Inferensi
          Sejumlah pria dewasa berusia 48 tahun dilibatkan dalam suatu program penelitian selama 18 tahun. Berdasarkan data pengamatan, diprediksi bahwa 70% dari pria yang tidak menikah akan bertahan hidup pada usia 65 tahun, dan 90% dari pria yang menikah akan hidup pada usia 65 tahun.

          Ini adalah contoh pemanfaatan statistika inferensi dapat kita lihat bahwa data sampel dimanfaatkan untuk menarik kesimpulan dalam bentuk prediksi.
  • Statistika Deskriptif
          Berdasarkan data sampel yang diperoleh dari Wall Street, didapati kesalahan yang dilakukan oleh analist dalam melakukan prediksi pendapatan perusahaan IT pada tahun ini mencapai angka 44%.

        Ini adalah contoh pemanfaatan statistika deskriptif untuk membuat summary atau ringkasan dari         data sampel yang tersedia dari 2 contoh berikut diharap kita dapat memiliki pemahaman yang lebih     baik terkait perbedaan pada statistika deskriptif dan statistika inferensi yang merupakan 2 cabang            utama dalam bidang ilmu statistika.



Sekian & Terimakasih

Distribusi Probabilitas (Probability Distribution)

  Distribusi Probabilitas (Probability Distribution) RANDOM  VARIABLES Random variable x merepresentasikan suatu nilai numerik yang bera...