Biostatistik Terapan untuk Penelitian Obstetri Ginekologi Sosial

A. Deskripsi Modul

Membaca Bukti dengan Kritis: Studi Kasus Zinc dan p-value

Sebuah jurnal obstetri terkemuka mempublikasikan sebuah studi yang mengklaim:

"Pemberian suplemen zinc selama kehamilan mengurangi risiko kelahiran prematur sebesar 22% (p = 0,03)."

Berita ini menyebar luas di media kesehatan Indonesia. Beberapa RS mulai meresepkan zinc untuk semua ibu hamil.

Tetapi ada yang tidak diceritakan di headline: OR = 0,78 dengan 95% CI: 0,62–0,98. Artinya — efek terkecil yang kompatibel dengan data adalah pengurangan risiko hanya 2%, dan studi ini dilakukan pada populasi dengan defisiensi zinc berat yang mungkin tidak representatif untuk ibu hamil Indonesia secara umum. Jumlah pasien yang perlu diobati (Number Needed to Treat/NNT) untuk mencegah satu kelahiran prematur adalah 47 — dengan biaya yang tidak kecil dan tanpa data tentang efek jangka panjang.

Di saat yang sama, sebuah studi lain melaporkan: "Tidak ada perbedaan signifikan dalam AKI antara kelompok program dan kontrol (p = 0,11)." Apakah ini berarti program tidak efektif? Tidak selalu — p = 0,11 mungkin terjadi karena studi underpowered, bukan karena program tidak bekerja.

Kedua contoh ini menggambarkan masalah yang sama: ketika statistik tidak dipahami dengan benar, ia dapat menyesatkan — baik ke arah over-treatment maupun under-treatment. Kompetensi biostatistik bukan sekadar kemampuan menghitung — ia adalah kemampuan membaca bukti dengan kritis dan menggunakannya untuk pengambilan keputusan klinis dan kebijakan yang tepat.

Modul ini membangun kompetensi biostatistik terapan yang langsung relevan untuk praktik konsultan Obginsos: dari statistik deskriptif dan inferensial dasar, melalui ukuran asosiasi dan dampak, hingga interpretasi hasil penelitian yang dapat dipertanggungjawabkan.

B. Capaian Pembelajaran Modul

Learning Objectives

Setelah menyelesaikan modul ini, peserta didik mampu:

1. Memilih dan menginterpretasikan statistik deskriptif yang tepat untuk berbagai jenis data dalam penelitian obstetri

2. Memilih uji statistik inferensial yang tepat berdasarkan jenis data, jumlah kelompok, dan distribusi data

3. Menghitung dan menginterpretasikan ukuran asosiasi — RR, OR, HR — dan ukuran dampak — ARR, RRR, NNT

4. Menginterpretasikan confidence interval dan p-value secara tepat — termasuk membedakan signifikansi statistik dari makna klinis

5. Mengidentifikasi dan menginterpretasikan hasil analisis regresi yang umum dalam penelitian obstetri

C. Materi Inti

C.1. Statistik Deskriptif: Merangkum Data dengan Tepat

C.1.1. Memilih Ukuran Pemusatan yang Tepat

Kesalahan yang paling umum dalam statistik deskriptif: selalu menggunakan mean (rata-rata) tanpa mempertimbangkan distribusi data.

MEAN (Rata-rata)

Tepat untuk data yang terdistribusi normal (simetris). Sangat sensitif terhadap outlier.

Contoh tepat: Berat lahir bayi aterm (distribusi mendekati normal)

Contoh tidak tepat: Lama rawat inap (sangat right-skewed — beberapa kasus sangat panjang menarik mean ke atas)

MEDIAN

Tepat untuk data yang tidak terdistribusi normal (skewed). Tidak sensitif terhadap outlier.

Contoh tepat: Lama rawat inap, pendapatan keluarga, kadar hormon yang skewed

MODUS

Nilai yang paling sering muncul. Tepat untuk data nominal/kategorik.

Contoh tepat: Jenis persalinan yang paling umum di fasilitas

C.1.2. Ukuran Dispersi

Ukuran pemusatan saja tidak cukup — dispersi data sama pentingnya:

📊 Standar Deviasi (SD)

Pasangan mean — untuk data normal

Interpretasi: ~68% data berada dalam ±1 SD dari mean; ~95% dalam ±2 SD

Contoh: Berat lahir 3.200 ± 420 gram
→ ~95% bayi beratnya antara 2.360–4.040 gram

📊 Interquartile Range (IQR)

Pasangan median — untuk data skewed

IQR = Q3 - Q1 (nilai tengah 50% dari distribusi)

Pelaporan yang tepat:
Median (IQR): 3 hari (2–7)
BUKAN: Median ± IQR

Range: Nilai minimum hingga maksimum. Berguna untuk deskripsi tetapi sangat sensitif terhadap outlier.

C.1.3. Penyajian Data Kategorik

Untuk data nominal dan ordinal:

Frekuensi dan Proporsi

Format standar: n (%)

Contoh: Persalinan SC: 127/380 (33,4%)

Rate vs. Proportion vs. Ratio — Sering Dikacaukan:

Rate: Kejadian per unit waktu per populasi berisiko
Contoh: AKI: 189 per 100.000 kelahiran hidup per tahun
Proportion: Fraksi dari total
Contoh: Proporsi persalinan SC: 33,4%
Ratio: Perbandingan dua kuantitas
Contoh: Rasio bidan:penduduk: 1:2.500

C.2. Distribusi Data dan Uji Normalitas

C.2.1. Mengapa Distribusi Penting

Banyak uji statistik parametrik mengasumsikan data terdistribusi normal (Gaussian).
Menggunakan uji parametrik pada data yang sangat tidak normal dapat menghasilkan kesimpulan yang salah.

Distribusi Normal

Simetris, berbentuk lonceng
Mean = Median = Modus
Ditentukan oleh mean dan SD

Contoh dalam obstetri:
→ Berat lahir aterm
→ Tekanan darah diastolik
→ Kadar hemoglobin populasi umum

Distribusi Skewed

Right Skewed (positive skew):

Ekor panjang ke kanan
Mean > Median
Contoh: Lama rawat, biaya, kadar hormon, ukuran tumor

Left Skewed (negative skew):

Ekor panjang ke kiri
Mean < Median
Contoh: Skor Apgar (kebanyakan tinggi, sedikit yang rendah)

C.2.2. Menilai Normalitas

Pendekatan Visual:

Histogram — apakah bentuknya mendekati lonceng?
Q-Q plot (Quantile-Quantile) — apakah titik-titik mendekati garis diagonal?

Uji Formal:

Shapiro-Wilk: Lebih powerful untuk sampel kecil (n < 50)
Kolmogorov-Smirnov: Untuk sampel lebih besar
Interpretasi: p < 0,05 berarti data tidak normal — tolak asumsi normalitas

Catatan Praktis:
Dengan sampel besar (n > 100), uji normalitas sangat sensitif dan hampir selalu menghasilkan p < 0,05 meskipun penyimpangan dari normalitas kecil. Untuk sampel besar, pertimbangan klinis dan visualisasi lebih bermakna dari uji formal.

C.3. Statistik Inferensial: Memilih Uji yang Tepat

C.3.1. Algoritma Pemilihan Uji Statistik

PERTANYAAN: APA YANG INGIN DIBANDINGKAN/DIUJI? │ ┌───────┴────────┐ │ │ MEMBANDINGKAN MENGUJI KELOMPOK HUBUNGAN/ ASOSIASI │ │ ▼ ▼ Lihat C.3.2 Lihat C.3.3

C.3.2. Membandingkan Kelompok

🔍 Alur Pemilihan Uji

JENIS DATA OUTCOME?

KONTINU

Distribusi normal?

YA → Parametrik

2 kelompok independen: Independent samples t-test
2 kelompok berpasangan: Paired t-test
>2 kelompok: One-way ANOVA
>2 berulang: Repeated measures ANOVA

TIDAK → Non-Parametrik

2 independen: Mann-Whitney U
2 berpasangan: Wilcoxon signed rank
>2 kelompok: Kruskal-Wallis
>2 berulang: Friedman

ORDINAL

Gunakan uji non-parametrik

2 independen: Mann-Whitney U
2 berpasangan: Wilcoxon signed rank
>2 kelompok: Kruskal-Wallis
Korelasi: Spearman

KATEGORIK/BINER

Uji asosiasi proporsi

≥5 per sel: Chi-square test
<5 per sel: Fisher's exact test
Berpasangan: McNemar test

C.3.3. Tabel Ringkas Uji Statistik untuk Obstetri

Pertanyaan Penelitian	Tipe Data	Uji Statistik yang Tepat
Apakah kadar Hb ibu hamil berbeda antara yang ANC < 4× vs ≥ 4×?	Kontinu, 2 kelompok	t-test atau Mann-Whitney
Apakah tekanan darah berbeda antara 3 trimester?	Kontinu, >2 kelompok berpasangan	Repeated measures ANOVA atau Friedman
Apakah proporsi SC berbeda antara 4 kelas RSUD?	Kategorik, >2 kelompok	Chi-square
Apakah skor nyeri sebelum dan sesudah analgesia berbeda?	Ordinal, 2 berpasangan	Wilcoxon signed rank
Apakah ada hubungan antara paritas dan berat lahir?	Kontinu vs. ordinal	Spearman correlation
Apakah ada hubungan antara usia ibu dan tekanan darah?	Kontinu vs. kontinu	Pearson atau Spearman

C.3.4. Kesalahan Tipe I dan Tipe II

REALITAS	KEPUTUSAN STATISTIK
REALITAS	H₀ Ditolak	H₀ Tidak Ditolak
H₀ Benar	KESALAHAN TIPE I (α) False Positive	KEPUTUSAN BENAR True Negative
H₀ Salah	KEPUTUSAN BENAR True Positive	KESALAHAN TIPE II (β) False Negative

📊 POWER = 1 - β

Definisi: Probabilitas mendeteksi efek yang benar-benar ada

Nilai Konvensional:

α (signifikansi) biasanya ditetapkan 0,05
Power biasanya ditetapkan 0,80 atau 0,90

Implikasi Praktis: Studi dengan power rendah (underpowered) berisiko tinggi menghasilkan false negative — menyimpulkan "tidak ada efek" padahal efek benar-benar ada.

C.4. Ukuran Asosiasi dan Dampak

C.4.1. Relative Risk (RR)

📐 Rumus Relative Risk

RR adalah ukuran asosiasi utama dalam studi kohort dan RCT:

          Risiko outcome pada kelompok terekspos
RR =  ─────────────────────────────────────────
          Risiko outcome pada kelompok kontrol

      a/(a+b)
RR =  ───────
      c/(c+d)

           │ Outcome+ │ Outcome- │
───────────┼──────────┼──────────┤
Eksposur+  │    a     │    b     │
Eksposur-  │    c     │    d     │

INTERPRETASI RR:

RR = 1,0 → Tidak ada asosiasi
RR > 1,0 → Eksposur meningkatkan risiko
RR < 1,0 → Eksposur menurunkan risiko (efek protektif)

CONTOH APLIKASI:

Studi kohort: Ibu tanpa ANC vs. ANC lengkap

Kematian pada tanpa ANC: 12/200 = 6%
Kematian pada ANC lengkap: 5/200 = 2,5%
RR = 6%/2,5% = 2,4

INTERPRETASI:
Ibu tanpa ANC memiliki risiko kematian 2,4× lebih tinggi dibanding ibu dengan ANC lengkap.

C.4.2. Odds Ratio (OR)

📐 Rumus Odds Ratio

OR adalah ukuran asosiasi utama dalam studi kasus-kontrol:

      Odds outcome pada kelompok terekspos
OR =  ──────────────────────────────────────
      Odds outcome pada kelompok tidak terekspos

      a/b     a×d
OR =  ─── =   ───
      c/d     b×c

PENTING: OR vs. RR pada Outcome dengan Frekuensi Berbeda

Pada outcome yang JARANG (<10%): OR ≈ RR (pendekatan yang baik)
Pada outcome yang UMUM (>10%):
- OR > RR (jika OR > 1)
- OR < RR (jika OR < 1)
- → OR melebih-lebihkan efek dibanding RR pada outcome umum

C.4.3. Hazard Ratio (HR)

⏱️ Hazard Ratio dalam Analisis Survival

HR adalah ukuran asosiasi dalam analisis survival (time-to-event):

HR adalah RR yang memperhitungkan waktu — tidak hanya apakah event terjadi, tetapi KAPAN
HR = 1,0 → Tidak ada perbedaan dalam waktu ke event
HR = 0,7 → Kelompok intervensi mencapai event 30% lebih lambat (efek protektif terhadap event)

CONTOH:
HR kematian ibu = 0,65 (95% CI: 0,48–0,87)
→ Program mengurangi hazard kematian sebesar 35% dibanding kontrol, dengan mempertimbangkan waktu follow-up yang berbeda.

C.4.4. Ukuran Dampak: ARR, RRR, dan NNT

Ini adalah ukuran yang paling relevan secara klinis — tetapi paling sering tidak dilaporkan.

ABSOLUTE RISK REDUCTION (ARR)

Perbedaan absolut risiko antara kelompok

ARR = Risiko kontrol − Risiko intervensi

CONTOH:
Risiko eklamsia tanpa MgSO4: 8%
Risiko eklamsia dengan MgSO4: 3%
ARR = 8% − 3% = 5%

RELATIVE RISK REDUCTION (RRR)

Proporsi pengurangan risiko relatif terhadap risiko kontrol

RRR = ARR / Risiko kontrol × 100%

DARI CONTOH YANG SAMA:
RRR = 5% / 8% × 100% = 62,5%

PERHATIAN: ARR = 5% (terdengar kecil) vs. RRR = 62,5% (terdengar besar). Keduanya BENAR — tetapi memberikan kesan yang sangat berbeda. Pemasaran farmasi sering menggunakan RRR karena terdengar lebih impresif.

NUMBER NEEDED TO TREAT (NNT)

Berapa pasien yang perlu diobati untuk mencegah satu kejadian?

NNT = 1 / ARR = 1 / 0,05 = 20

INTERPRETASI:
Perlu mengobati 20 ibu dengan MgSO4 untuk mencegah 1 kasus eklamsia.

ATURAN: NNT yang lebih kecil = intervensi lebih efisien.

NUMBER NEEDED TO HARM (NNH)

Berapa pasien yang perlu terekspos untuk menyebabkan satu kejadian merugikan?

NNH = 1 / Absolute Risk Increase

ATURAN: NNH yang lebih besar = intervensi lebih aman.

C.5. Confidence Interval dan p-value: Interpretasi yang Tepat

C.5.1. Apa yang Sebenarnya Dikatakan p-value

p-value adalah salah satu konsep yang paling sering disalahpahami dalam penelitian biomedis.

APA p-value ITU:

Probabilitas mendapatkan hasil yang diamati (atau lebih ekstrem) JIKA H₀ benar

APA p-value BUKAN:

✗ Probabilitas bahwa H₀ benar
✗ Probabilitas bahwa temuan adalah kebetulan
✗ Ukuran besarnya efek
✗ Ukuran kepentingan klinis

AMBANG BATAS p < 0,05:
Konvensi arbitrer — bukan nilai sakral. p = 0,049 dan p = 0,051 secara praktis identik tetapi secara konvensional diperlakukan sangat berbeda.

C.5.2. Confidence Interval: Lebih Informatif dari p-value

📊 95% Confidence Interval

Definisi: Range nilai yang kompatibel dengan data yang diamati dengan tingkat kepercayaan 95%

CI yang sempit → estimasi yang presisi
CI yang lebar → ketidakpastian yang besar (sering karena sampel kecil)

CONTOH INTERPRETASI #1:

RR = 1,35 (95% CI: 1,12–1,62)

→ Efek yang signifikan secara statistik (CI tidak melewati 1,0)
→ CI relatif sempit → presisi cukup baik
→ Efek terkecil yang kompatibel: RR 1,12 (peningkatan risiko 12%)
→ Efek terbesar: RR 1,62 (peningkatan risiko 62%)

CONTOH INTERPRETASI #2:

OR = 0,78 (95% CI: 0,58–1,05)

→ TIDAK signifikan secara statistik (CI melewati 1,0)
→ Tetapi efek protektif sebesar OR 0,42 TIDAK dapat dikesampingkan dari data
→ Perlu sampel lebih besar untuk konklusi yang lebih pasti

C.5.3. Signifikansi Statistik vs. Makna Klinis

EMPAT SKENARIO PENTING:

1. SIGNIFIKAN STATISTIK + BERMAKNA KLINIS ✓

RR = 2,8 (95% CI: 2,1–3,7), p < 0,001 NNT = 8

→ Gunakan bukti ini dengan yakin

2. SIGNIFIKAN STATISTIK + TIDAK BERMAKNA KLINIS ⚠️

RR = 1,04 (95% CI: 1,01–1,07), p = 0,02 NNT = 500

→ Studi sangat besar mendeteksi efek yang terlalu kecil untuk relevan secara klinis

3. TIDAK SIGNIFIKAN + MUNGKIN BERMAKNA KLINIS ❓

RR = 0,72 (95% CI: 0,48–1,08), p = 0,11

→ Studi mungkin underpowered
→ Tidak dapat menyimpulkan "tidak ada efek"
→ Perlu studi yang lebih besar

4. TIDAK SIGNIFIKAN + TIDAK BERMAKNA KLINIS ✗

RR = 0,98 (95% CI: 0,91–1,06), p = 0,63

→ Bukti yang cukup kuat bahwa tidak ada efek yang bermakna klinis
→ CI sempit, melewati 1 dengan nilai yang sangat dekat ke null

C.6. Analisis Regresi: Prinsip dan Interpretasi

C.6.1. Mengapa Regresi

Regresi memungkinkan analisis hubungan antara satu atau lebih variabel independen (prediktor) dengan variabel dependen (outcome), sambil mengendalikan variabel perancu secara simultan.

📐 Regresi Linear Berganda

Untuk outcome kontinu (tekanan darah, berat lahir, kadar Hb)

Y = β₀ + β₁X₁ + β₂X₂ + ... + ε

Koefisien β:
→ Perubahan rata-rata Y untuk setiap
  peningkatan 1 unit X, dengan
  variabel lain dikontrol

CONTOH:
Berat lahir = 2.800 + 15(usia gestasi)
+ 120(gain BB ibu) − 180(merokok) + ε

β untuk usia gestasi = 15:
Setiap tambahan 1 minggu usia gestasi
berhubungan dengan penambahan
berat lahir 15 gram, dengan
gain BB dan merokok dikontrol

C.6.2. Regresi Logistik

📐 Regresi Logistik

Untuk outcome biner (ya/tidak: preeklampsia, kematian, SC)

log(p/1-p) = β₀ + β₁X₁ + β₂X₂ + ...

HASIL UTAMA: Adjusted Odds Ratio (aOR)
= e^β (eksponensial koefisien)

CONTOH OUTPUT - Faktor risiko preeklampsia:

                  aOR    95% CI     p
Usia > 35 th      2,3   1,7–3,1  <0,001
Obesitas (BMI>30) 1,8   1,4–2,4  <0,001
Nulipara          1,4   1,1–1,8   0,008
ANC < 4×          1,9   1,5–2,5  <0,001

INTERPRETASI aOR usia > 35:
Ibu usia > 35 tahun memiliki odds
preeklampsia 2,3× lebih tinggi
dibanding ibu < 35 tahun,
setelah dikontrol untuk obesitas,
paritas, dan kelengkapan ANC

C.6.3. Regresi Cox (Proportional Hazards)

⏱️ Untuk Data Survival/Time-to-Event

COX PROPORTIONAL HAZARDS:

h(t) = h₀(t) × e^(β₁X₁ + β₂X₂ + ...)

HASIL UTAMA: Adjusted Hazard Ratio (aHR)

CONTOH:
aHR kematian ibu = 0,62
(95% CI: 0,45–0,85)
untuk kelompok yang mendapat
program pendampingan bidan

INTERPRETASI:
Program pendampingan bidan
mengurangi hazard kematian ibu
sebesar 38% (1 − 0,62 = 0,38),
setelah mengontrol variabel perancu,
dengan mempertimbangkan
waktu follow-up

C.6.4. Asumsi Regresi yang Sering Diabaikan

Regresi Linear:

Linearitas hubungan
Independensi residual
Homoskedastisitas (varians residual konstan)
Normalitas residual

Regresi Logistik:

Independensi observasi
Tidak ada multikolinearitas berat
Sampel yang cukup (minimal 10 events per variabel prediktor — "rule of ten")

Regresi Cox:

Proportional hazards assumption — hazard ratio konstan sepanjang waktu

C.7. Analisis Tambahan yang Penting

C.7.1. Analisis Subkelompok

Analisis subkelompok menguji apakah efek intervensi berbeda pada subkelompok yang berbeda. Sangat rentan terhadap kesalahan interpretasi.

✓ Analisis Subkelompok yang VALID:

Pre-specified (ditetapkan sebelum pengumpulan data)
Jumlah subkelompok terbatas
Diuji dengan uji interaksi (bukan uji terpisah dalam masing-masing subkelompok)

✗ Analisis Subkelompok yang BERMASALAH:

Post-hoc (dilakukan setelah melihat data keseluruhan)
Banyak subkelompok diuji → inflasi kesalahan tipe I
Tidak menggunakan uji interaksi
Melaporkan hanya subkelompok yang menunjukkan efek positif

C.7.2. Analisis Sensitivitas

Analisis sensitivitas menguji apakah kesimpulan berubah jika asumsi atau keputusan analitis yang dibuat berubah.

🔍 CONTOH ANALISIS SENSITIVITAS:

Analisis utama: Analisis complete case (hanya yang tidak missing)

Analisis sensitivitas:

Multiple imputation (mengimputasi data yang hilang)
Worst-case scenario analysis
Per-protocol analysis (hanya yang patuh penuh) sebagai pelengkap ITT

Interpretasi:

Jika kesimpulan KONSISTEN → Hasil robust
Jika kesimpulan BERUBAH → Temuan harus diinterpretasikan dengan lebih hati-hati

C.7.3. Meta-Analisis: Prinsip Dasar

📊 Forest Plot — Cara Membaca:

Setiap baris = satu studi
Kotak = estimasi efek (ukuran ∝ weight)
Whisker = 95% CI studi tersebut
Berlian = pooled estimate (combined)

I² statistic:

= Persentase variasi antar studi yang disebabkan heterogenitas (bukan sampling error)

I² < 25%: Heterogenitas rendah
I² 25–50%: Heterogenitas sedang
I² > 50%: Heterogenitas tinggi → Pertimbangkan random effects model atau cari sumber heterogenitas

Publication Bias:
Funnel plot — asimetri menunjukkan kemungkinan studi dengan hasil negatif tidak dipublikasikan.

D. Pertanyaan Diskusi

Thread Dosen – Minggu 4

Pertanyaan 1: Analisis Kritis RCT Program Bidan Pendamping

Sebuah RCT cluster-randomized melaporkan hasil berikut tentang efektivitas program "Bidan Pendamping Komunitas" dalam mengurangi kematian ibu:

Kelompok intervensi (25 Puskesmas): 8 kematian dari 1.840 persalinan = 4,35/1.000
Kelompok kontrol (25 Puskesmas): 14 kematian dari 1.760 persalinan = 7,95/1.000
RR = 0,55 (95% CI: 0,24–1,26), p = 0,16

Penulis menyimpulkan: "Program tidak terbukti efektif dalam mengurangi kematian ibu."

Lakukan analisis kritis komprehensif terhadap kesimpulan ini:

(a) Hitung ARR, RRR, dan NNT dari data yang diberikan — dan interpretasikan ketiga ukuran ini secara klinis.
(b) Interpretasikan RR = 0,55 (95% CI: 0,24–1,26) dengan benar — apakah CI ini mendukung kesimpulan penulis bahwa program "tidak efektif"? Apa yang sebenarnya dikatakan CI ini tentang kemungkinan efek program?
(c) Dengan α = 0,05 dan power = 80%, dan mengasumsikan risiko kematian ibu pada kontrol sebesar 7,95/1.000 serta RR yang ingin dideteksi sebesar 0,55 — perkirakan apakah studi ini cukup besar untuk mendeteksi efek tersebut.
(d) Sebagai konsultan Obginsos yang harus memberikan rekomendasi kepada Dinas Kesehatan tentang apakah melanjutkan program ini — apa rekomendasi Anda berdasarkan data yang ada, dan bagaimana Anda mengkomunikasikan ketidakpastian ini kepada pembuat kebijakan?

Pertanyaan 2: Studi Kasus-Kontrol Faktor Risiko Kematian Ibu

Anda melakukan studi kasus-kontrol untuk menginvestigasi faktor risiko kematian ibu di kabupaten Anda.

Kasus: 45 kematian ibu dalam 3 tahun terakhir
Kontrol: 135 ibu yang bersalin dalam periode yang sama dan tidak meninggal (rasio 1:3)

Hasil analisis regresi logistik multivariat:

Faktor Risiko	aOR	95% CI	p-value
Tidak ada ANC	4,2	1,8–9,7	<0,001
Jarak > 10 km ke fasilitas	2,9	1,3–6,5	0,003
BBLR	3,1	1,4–6,9	0,005
Bidan tidak tersertifikasi PONEK	5,8	2,1–16,2	<0,001

Analisis temuan ini:

(a) Interpretasikan setiap aOR secara tepat — termasuk apa yang dikontrol oleh analisis multivariat dan mengapa ini penting dibanding analisis bivariat.
(b) Faktor risiko mana yang paling kuat secara statistik dan mana yang paling bermakna secara kebijakan — apakah keduanya sama? Berikan justifikasi.
(c) Identifikasi dua ancaman validitas internal yang paling signifikan dalam desain kasus-kontrol ini dan bagaimana mereka mungkin mempengaruhi estimasi aOR yang dilaporkan.
(d) Rancang strategi intervensi berbasis bukti yang memprioritaskan faktor risiko yang dapat dimodifikasi — dengan mempertimbangkan besaran efek, kelayakan intervensi, dan ketersediaan sumber daya di kabupaten terpencil.

E. Rangkuman

Poin-Poin Kunci Modul

1

Statistik Deskriptif: Distribusi Menentukan Pilihan

Statistik deskriptif yang tepat dimulai dari memahami distribusi data — mean dan SD untuk data normal, median dan IQR untuk data skewed, frekuensi dan proporsi untuk data kategorik; pelaporan yang salah (misalnya: mean untuk data sangat skewed) menghasilkan gambaran yang menyesatkan tentang data yang sebenarnya ada.

2

Pemilihan Uji Inferensial: Algoritma yang Tepat

Pemilihan uji statistik inferensial harus didasarkan pada jenis data outcome, jumlah kelompok yang dibandingkan, apakah kelompok independen atau berpasangan, dan distribusi data — menggunakan uji parametrik pada data yang sangat tidak normal, atau uji untuk dua kelompok ketika ada tiga kelompok, adalah kesalahan metodologis yang menghasilkan kesimpulan yang salah.

3

Ukuran Asosiasi vs. Dampak: Keduanya Diperlukan

Ukuran asosiasi (RR, OR, HR) dan ukuran dampak (ARR, RRR, NNT) memberikan informasi yang berbeda dan sama-sama diperlukan — RRR sering melebih-lebihkan manfaat dibanding ARR; NNT adalah ukuran yang paling bermakna secara klinis karena langsung menjawab pertanyaan "berapa pasien harus diobati untuk mencegah satu kejadian".

4

p-value dan CI: Interpretasi yang Benar

p-value hanya menjawab pertanyaan apakah efek kompatibel dengan hipotesis null — ia tidak mengukur besarnya efek, tidak menentukan makna klinis, dan tidak membuktikan bahwa temuan adalah kebetulan; confidence interval memberikan informasi yang jauh lebih kaya karena menunjukkan presisi estimasi dan range efek yang kompatibel dengan data.

5

Analisis Regresi: Kekuatan dan Asumsi

Analisis regresi memungkinkan pengendalian konfounding secara simultan dan menghasilkan adjusted OR, HR, atau koefisien yang mencerminkan hubungan "murni" antara satu variabel dengan outcome setelah variabel lain dikontrol — tetapi kualitas analisis regresi sangat bergantung pada pemeriksaan asumsi yang sering diabaikan dalam pelaporan penelitian.

F. Referensi

Daftar Pustaka & Sumber Daya

Kirkwood BR, Sterne JAC. Essential Medical Statistics. 2nd ed. Oxford: Blackwell Science; 2003.
🔗 Wiley
Greenhalgh T. How to Read a Paper: The Basics of Evidence-Based Medicine. 6th ed. Oxford: Wiley-Blackwell; 2019.
🔗 Wiley
Altman DG, Bland JM. Statistics notes: Absence of evidence is not evidence of absence. BMJ. 1995;311(7003):485.
🔗 DOI: 10.1136/bmj.311.7003.485
Wasserstein RL, Lazar NA. The ASA's statement on p-values: context, process, and purpose. The American Statistician. 2016;70(2):129-133.
🔗 DOI: 10.1080/00031305.2016.1154108
Guyatt GH, Oxman AD, Vist GE, et al. GRADE: an emerging consensus on rating quality of evidence. BMJ. 2008;336(7650):924-926.
🔗 DOI: 10.1136/bmj.39489.470347.AD
Rothman KJ, Greenland S, Lash TL. Modern Epidemiology. 3rd ed. Philadelphia: LWW; 2008.
🔗 Lippincott Williams & Wilkins
Bland JM, Altman DG. Statistical methods for assessing agreement between two methods of clinical measurement. Lancet. 1986;327(8476):307-310.
🔗 DOI: 10.1016/S0140-6736(86)90837-8
Higgins JPT, Thomas J, Chandler J, et al. (eds). Cochrane Handbook for Systematic Reviews of Interventions. Version 6.3. Cochrane; 2022.
🔗 URL: training.cochrane.org/handbook
Hosmer DW, Lemeshow S, Sturdivant RX. Applied Logistic Regression. 3rd ed. New York: Wiley; 2013.
🔗 Wiley
Vittinghoff E, Glidden DV, Shiboski SC, McCulloch CE. Regression Methods in Biostatistics. 2nd ed. New York: Springer; 2012.
🔗 Springer

📚 Sumber Daya Tambahan:

Evaluasi

TUGAS KELOMPOK 2 – SESI 1 (MINGGU 4)

Mata Kuliah:	Metodologi Penelitian & Penulisan Ilmiah
Semester:	1 \| Periode 2 \| Sesi 1

📋 Identitas Tugas

Komponen	Deskripsi
Jenis Tugas	Tugas Kelompok Kedua — Sesi 1
Minggu	Minggu ke-4
Materi	Modul 2 (Desain Kuantitatif) + Modul 3 (Kualitatif & Mixed Methods) + Modul 4 (Biostatistik Terapan)
Bobot Nilai	15% dari nilai akhir mata kuliah
Komposisi Kelompok	3–4 orang (komposisi sama dengan tugas kelompok sebelumnya)
Batas Pengumpulan	Akhir Minggu ke-4 (7 hari sejak tugas dibuka)
Format Pengumpulan	Laporan Word/PDF + slide presentasi maksimal 12 slide
Panjang Laporan	2.000–3.000 kata (tidak termasuk tabel, perhitungan, dan referensi)
Referensi	Minimal 6 referensi dalam format Vancouver

PETUNJUK PENGERJAAN:

Tugas ini mengintegrasikan tiga modul — desain penelitian kuantitatif, kualitatif/mixed methods, dan biostatistik — dalam satu konteks kasus yang berkesinambungan
Bagian A menuntut pemahaman desain dan statistik yang kohesif: pilihan desain harus konsisten dengan pilihan analisis statistik
Bagian B menuntut kemampuan membaca dan menginterpretasikan output statistik secara kritis — bukan sekadar mendeskripsikan angka
Bagian C menuntut integrasi kualitatif yang genuinely complementary — bukan sekadar tambahan kosmetik
Cantumkan nama, NIM, dan pembagian peran di halaman pertama
Minimal 6 referensi format Vancouver

📖 SKENARIO

"Program Kelas Ibu Hamil: Investasi atau Pengeluaran?"

Dinas Kesehatan Provinsi Sulawesi Tenggara telah menginvestasikan Rp 4,2 miliar selama dua tahun untuk program Kelas Ibu Hamil (KIH) yang diintensifkan di 48 Puskesmas — mencakup peningkatan frekuensi dari 4 sesi standar menjadi 8 sesi, penambahan modul nutrisi dan tanda bahaya, dan pelatihan fasilitator bidan.

Kepala Dinas meminta evaluasi komprehensif: apakah investasi ini menghasilkan perubahan outcome yang bermakna?

Data rekam medis 24 bulan terakhir (12 bulan sebelum dan 12 bulan sesudah program):

🏥 Puskesmas Intervensi (n=48)

Indikator	Sebelum	Sesudah
Cakupan ANC K4	61%	74%
Rata-rata kenaikan BB ibu	9,8 kg (SD 3,2)	11,4 kg (SD 2,9)
Proporsi anemia trimester III	38%	29%
Proporsi BBLR	12,4%	9,8%
Persalinan di fasilitas	68%	79%
Kematian ibu/1.000 KH	3,1	2,4

🏥 Puskesmas Kontrol (n=44)

Indikator	Periode 1	Periode 2
Cakupan ANC K4	59%	63%
Rata-rata kenaikan BB ibu	9,5 kg (SD 3,4)	9,9 kg (SD 3,1)
Proporsi anemia trimester III	40%	36%
Proporsi BBLR	13,1%	11,2%
Persalinan di fasilitas	66%	70%
Kematian ibu/1.000 KH	3,3	2,9

❓ PERTANYAAN

BAGIAN A — Analisis Statistik Data yang Tersedia (45%)

A1 — Evaluasi Desain yang Digunakan (10%)

(a) Data di atas dikumpulkan dengan desain "before-after with control group" (quasi-experimental). Identifikasi desain spesifiknya — apakah ini interrupted time series, difference-in-differences, atau desain lain? Jelaskan kelebihan desain ini dibanding before-after tanpa kontrol, dan identifikasi dua ancaman validitas internal yang masih ada meskipun dengan kelompok kontrol.
(b) Jika Anda harus mengevaluasi program ini dari awal dengan sumber daya yang tidak terbatas, desain apa yang akan Anda pilih dan mengapa? Apa hambatan praktis dan etis yang mungkin dihadapi?

A2 — Interpretasi Statistik Data (35%)

Untuk setiap pasang analisis berikut, lakukan perhitungan dan interpretasi yang diminta:

(a) Kenaikan BB ibu (data kontinu): Hitung dan interpretasikan perbedaan kenaikan BB antara kelompok intervensi sebelum dan sesudah program. Uji statistik apa yang tepat digunakan? Jelaskan asumsi yang diperlukan dan bagaimana Anda akan memverifikasinya dari data yang ada. Apakah perbedaan 1,6 kg bermakna secara klinis?
(b) Proporsi anemia trimester III (data kategorik): Hitung dan interpretasikan: (i) perubahan proporsi anemia di kelompok intervensi (38% → 29%), (ii) perubahan di kelompok kontrol (40% → 36%), (iii) difference-in-differences — apakah program berkontribusi atas dan di atas perubahan yang terjadi pada kontrol? Uji statistik apa yang tepat untuk membandingkan proporsi?
(c) Proporsi BBLR: Hitung RR, ARR, RRR, dan NNT menggunakan data sesudah program antara kelompok intervensi (9,8%) dan kontrol (11,2%). Interpretasikan keempat ukuran ini — mana yang paling bermakna untuk keputusan kebijakan dan mengapa?
(d) Kematian ibu: Data kematian ibu menunjukkan angka yang sangat kecil (3,1 vs 2,4 per 1.000 KH di intervensi; 3,3 vs 2,9 di kontrol). Mengapa analisis statistik konvensional kemungkinan besar tidak akan menghasilkan p < 0,05 untuk outcome ini — meskipun mungkin ada efek program yang nyata? Apa implikasinya untuk desain evaluasi program KIA di masa depan?

BAGIAN B — Interpretasi Kritis Output Regresi (25%)

Tim biostatistik Dinas Kesehatan melakukan analisis regresi logistik multivariat dengan outcome BBLR. Berikut output (dimodifikasi untuk tujuan pembelajaran):

Variabel	aOR	95% CI	p-value
Program KIH intensif	0,74	0,58–0,95	0,018
Anemia trimester III	2,31	1,87–2,85	<0,001
Usia ibu < 20 tahun	1,68	1,22–2,31	0,001
Usia ibu > 35 tahun	1,43	1,08–1,89	0,012
Paritas ≥ 4	1,55	1,19–2,02	0,001
Jarak ke Puskesmas > 5 km	1,27	0,98–1,65	0,071
Tingkat pendidikan (SMP vs SD)	0,82	0,64–1,06	0,128
Tingkat pendidikan (SMA vs SD)	0,71	0,54–0,94	0,016

(a) Interpretasikan aOR untuk Program KIH intensif secara tepat — apa yang dikontrol, apa yang dapat dan tidak dapat disimpulkan tentang efek kausal program?
(b) Variabel "jarak ke Puskesmas > 5 km" memiliki aOR = 1,27 (95% CI: 0,98–1,65), p = 0,071. Apakah ini berarti jarak tidak berhubungan dengan BBLR? Interpretasikan hasil ini secara lengkap — termasuk implikasinya untuk kebijakan.
(c) Tingkat pendidikan SMP (vs SD) memiliki aOR = 0,82, p = 0,128 sedangkan SMA (vs SD) memiliki aOR = 0,71, p = 0,016. Bagaimana Anda menginterpretasikan pola ini — dan mengapa membandingkan masing-masing kategori terhadap referensi (SD) lebih informatif daripada hanya satu p-value untuk seluruh variabel pendidikan?
(d) Identifikasi satu asumsi kritis regresi logistik yang perlu diverifikasi dari analisis ini — dan bagaimana Anda akan memverifikasinya?

BAGIAN C — Pelengkap Kualitatif yang Integratif (15%)

Data kuantitatif menunjukkan bahwa program KIH intensif berhubungan dengan perbaikan beberapa indikator — tetapi tidak menjelaskan mengapa beberapa Puskesmas menunjukkan perbaikan yang jauh lebih besar dari yang lain, meskipun mendapat intervensi yang sama.

(a) Rumuskan satu pertanyaan penelitian kualitatif yang paling tepat untuk menginvestigasi variasi respons ini — dan pilih tradisi kualitatif yang paling sesuai beserta justifikasinya.
(b) Rancang strategi pengumpulan data kualitatif yang spesifik: siapa yang akan diwawancara (dengan justifikasi sampling purposif), berapa jumlah yang diperlukan dan mengapa, metode pengumpulan data apa yang digunakan, dan isu refleksivitas apa yang perlu dikelola ketika evaluator juga berasal dari Dinas Kesehatan yang mendanai program.
(c) Rancang satu joint display yang mengintegrasikan data kuantitatif (variasi outcome antar Puskesmas) dan data kualitatif (tema yang muncul tentang faktor keberhasilan) — jelaskan bagaimana integrasi ini menghasilkan pemahaman yang tidak dapat dicapai oleh satu pendekatan saja.

BAGIAN D — Rekomendasi untuk Pembuat Kebijakan (15%)

Kepala Dinas meminta satu halaman ringkasan eksekutif yang dapat dibaca dalam 5 menit dan menghasilkan keputusan yang tepat.

Tulis ringkasan eksekutif tersebut yang mencakup:

Temuan utama dalam bahasa yang dapat dipahami non-statistisian
Tingkat keyakinan terhadap setiap temuan (dan mengapa beberapa lebih pasti dari yang lain)
Keterbatasan utama yang perlu diketahui pembuat kebijakan
Rekomendasi yang spesifik dan dapat ditindaklanjuti — bukan generik
Pertanyaan yang masih belum terjawab dan memerlukan penelitian lanjutan

📊 RUBRIK PENILAIAN

Bagian	Komponen Penilaian Utama	Bobot
A1	Identifikasi desain yang tepat; analisis kelebihan vs. ancaman; alternatif desain yang justified	10%
A2a	Ketepatan uji statistik; verifikasi asumsi; interpretasi makna klinis	10%
A2b	Ketepatan perhitungan DiD; interpretasi kontribusi program di atas tren kontrol	10%
A2c	Ketepatan dan kelengkapan perhitungan RR/ARR/RRR/NNT; kualitas interpretasi kebijakan	10%
A2d	Kedalaman analisis keterbatasan statistik untuk outcome jarang; implikasi untuk desain	5%
B	Ketepatan interpretasi aOR; kedalaman analisis non-signifikan; interpretasi pola ordinal; verifikasi asumsi	25%
C	Kualitas pertanyaan kualitatif; spesifisitas strategi pengumpulan data; kualitas joint display	15%
D	Kejelasan untuk non-statistisian; kalibrasi ketidakpastian; spesifisitas rekomendasi	15%

PANDUAN REFERENSI MINIMAL:

Kirkwood BR, Sterne JAC. Essential Medical Statistics. 2nd ed. Oxford: Blackwell Science; 2003.
Greenhalgh T. How to Read a Paper. 6th ed. Oxford: Wiley-Blackwell; 2019.
Wasserstein RL, Lazar NA. The ASA's statement on p-values. The American Statistician. 2016;70(2):129-133.
Creswell JW, Plano Clark VL. Designing and Conducting Mixed Methods Research. 3rd ed. Thousand Oaks: SAGE; 2018.
Rothman KJ, Greenland S, Lash TL. Modern Epidemiology. 3rd ed. Philadelphia: LWW; 2008.
Altman DG, Bland JM. Absence of evidence is not evidence of absence. BMJ. 1995;311(7003):485.