1 Γενικά

Υπάρχουν περιπτώσεις όπου παρατηρούμε κάτι ξεχωριστό να συμβαίνει σ’ ένα τμήμα ενός πληθυσμού. Εδώ, για παράδειγμα, θα μελετήσουμε το τμήμα του πληθυσμού των ΗΠΑ που είναι οι θανατοποινίτες, και θα εξετάσουμε αν σε αυτό το δείγμα το ποσοστό των λευκών είναι διαφορετικό από το ποσοστό των λευκών στις ΗΠΑ. Τι εννοούμε όμως «διαφορετικό»; Από τη σελίδα United States Census Bureau βλέπουμε ότι το ποσοστό των λευκών στις ΗΠΑ είναι 75.5%. Είναι λογικό, αν το ποσοστό των λευκών στους θανατοποινίτες είναι 76% ή 74%, να θεωρήσουμε ότι δεν συμβαίνει κάτι το αξιοπρόσεκτο στις θανατικές ποινές. Επίσης, όμως, είναι λογικό να υποψιαστούμε ότι κάτι ξεχωριστό συμβαίνει με τις θανατικές ποινές, αν το ποσοστό των λευκών βγει 20% στους θανατοποινίτες.

Προς τούτο συγκεντρώσαμε στοιχεία από τη σελίδα Death Penalty Information Center για τις θανατικές ποινές στα έτη 2020-2022 (1 , 2 και 3) στο φύλλο deathPop.xlsx, αφού πρώτα διαγράψαμε ό,τι είχαμε εισάγει μέχρι τώρα στην R:

rm(list = ls())
First Name Middle Name Last Name State Formally Imposed County Race of Defendant Number/Race of Victim(s) Age at Crime Non-Unanimous / Judge Sentencing
Mark NA Sievers FL 2020-01-03 Lee White 1 White Female 47 NA
Byron NA Shepard OK 2020-01-03 Pottawatomie White 1 White Male 36 NA
Edward Littleton McCauley AZ 2020-01-09 Maricopa White 1 White Female 58 NA
Charles NA Merritt CA 2020-01-21 San Bernardino White 3 White Males, 1 White Female 53 NA
Israel Ramirez Guardado CA 2020-01-24 Riverside Latinx 1 Latina Female 37 NA
Michael NA Gordon FL 2020-02-07 Polk Black 2 White Females 34 NA
Willie Cory Godbolt MS 2020-02-27 Lincoln Black 1 White Male, 2 Black Males, 1 Black Female 35 NA
Brandon NA McCall TX 2020-02-27 Collin White 1 White Male 26 NA
Lucky NA Ward TX 2020-03-10 Harris Black 1 Latino Female, 1 Black Female 44 NA
Jesse NA Bell FL 2020-03-13 Lafayette White 1 White Male 45 1-judge sentencing
Barry NA Noetzel FL 2020-03-13 Lafayette White 1 White Male 45 1-judge sentencing
Joel NA Drain OH 2020-05-18 Warren White 1 White Male 37 3-judge sentencing
Hernan NA Rodriguez CA 2020-06-26 Tulare Latinx 2 Latino Males 24 NA
Vincent James Marples CA 2020-06-26 Riverside White 1 White Female 34 NA
Granville NA Ritchie FL 2020-09-11 Hillsborough Black 1 Black Female 35 NA
Marlin NA Joseph FL 2020-11-19 Palm Beach Black 2 Black Females 26 NA
Thomas NA Fletcher FL 2020-11-24 Santa Rosa White 1 White Male 50 NA
Jesse Perez Torres CA 2020-12-04 Riverside Latinx 1 Latina Female 34 NA
Donnie NA Abernathy AL 2021-11-29 Cherokee White 3 White Females 38 Jury waived / 1-judge sentence
Christopher NA Henderson AL 2021-10-13 Madison White 2 White Female; 2 White Males 40 11-1 jury / 1-judge sentence
Michael Anthony Powell AL 2021-05-24 Shelby Black 1 White Female 43 11-1 jury / 1-judge sentence
Michael Dale Iervolino AL 2021-11-30 St. Clair County Latinx 1 White Male 32 10-2 jury / 1-judge sentence
Douglas Jade Harris CA 2021-07-01 Los Angeles Black 1 Latino Male, 2 Latina Females 30 NA
Michael NA Gargiulo CA 2021-07-16 Los Angeles White 1 White Female, 1 Latina Female 25 NA
Adrian NA Ortiz CA 2021-02-26 Tulare Latinx 1 Latino Male 19 NA
Billy NA Wells FL 2021-05-25 Bradford White 1 White Male 43 NA
Reynald NA Figueroa Sanabrina FL 2021-07-02 Pinellas Latinx 1 White Female, 1 White Male 41 NA
Aubrey NA Trail NE 2021-06-09 Saline White 1 White Female 51 3-judge panel
Joseph Fidel Alliniece OK 2021-07-27 Cleveland Black 1 White Female 29 NA
Daniel NA Vasquez OK 2021-11-05 McClain Latinx 1 Black female 33 NA
Derrick NA Laday OK 2021-07-07 Oklahoma Black 1 Black Male 22 NA
William NA Reece OK 2021-08-19 Oklahoma White 1 White Female 38 NA
Steven NA Wiggins TN 2021-08-12 Dickson White 1 White Male 31 NA
Otis NA McKane TX 2021-08-06 Bexar Black 1 White Male 31 NA
Tyrone Jamaal Williams TX 2021-11-19 Hunt Black 2 White Females 30 NA
William George Davis TX 2021-10-27 Smith White 4 White Males 34 NA
Jesse Michael Gomez CA 2022-04-03 San Diego Latinx 1 Asian Male NA NA
Noel NA Herrera CA 2022-03-15 Tulare Latinx 2 Latino Males and 1 Unknown Male 27,31,34 NA
Markeith NA Loyd FL 2022-03-03 Orange Black 1 Black female 41 NA
Brandon NA Sykes AL 2022-04-05 Lamar Black 1 Black female 33 NA
David NA Ware OK 2022-05-13 Tulsa White 1 White Male 32 NA
Everett Glenn Miller FL 2022-05-13 Osceola Black 1 Black Male, 1 Latino Male 45 NA
William NA Roberts FL 2022-07-28 Lake White 1 White Female 56 Jury waived / 1-judge-sentence
Warren NA Hardy AL 2022-08-25 Madison Black 1 White Female ~27 11-1 jury / 1-judge sentence
Davone NA Anderson PA 2022-05-31 Cumberland Black 1 Black female; 1 White female 25 NA
Ricky NA Dubose GA 2022-06-16 Putnam White 1 Black male, 1 white male 24 NA
Joshua NA Burgess NC 2022-06-03 Union White 1 Black female 24 NA
Tillman NA Freeman NC 2022-04-19 Hoke Black 2 Black Female 30 NA
Kevin NA Daigle LA 2022-10-20 Calcasieu White 1 white male 54 NA
Richard Darren Emery MO 2022-11-03 St Charles White 3 White Females, 1 White Male NA NA
Robert NA Solis TX 2022-10-26 Harris County Latinx 1 asian male 47 NA
Taylor NA Parker TX 2022-11-09 Bowie County White 1 white female NA NA
Jimmy O’Neal Spencer AL 2022-11-14 Marshall White 2 white females, 1 white male ~53 NA
Christopher M. Montoya AZ 2022-04-12 Maricopa County White 1 White Female ~32 NA
Abram NA Martez MS 2022-12-02 DeSoto County Black 1 Black Male, 1 White Male 39 NA
Tyrone NA Johnson FL 2022-12-12 Hillsborough Black 1 Black female, 1 Black Male NA NA
μηδενική και εναλλακτική υπόθεση
  • Την άποψη που λέει πως τίποτα το ξεχωριστό δε συμβαίνει την ονομάζουμε μηδενική υπόθεση και την συμβολίζουμε με \(\boldsymbol{\mathcal{H}_0}\).

  • Την άποψη που λέει ότι έχουμε κάτι το ξεχωριστό την ονομάζουμε εναλλακτική υπόθεση και τη συμβολίζουμε με \(\boldsymbol{\mathcal{H}_1}\).

Έτσι, εν προκειμένω η \(\boldsymbol{\mathcal{H}_0}\) είναι η υπόθεση ότι το 75.5% των θανατοποινιτών είναι λευκοί, όσο δηλαδή το ποσοστό τους στον πληθυσμό των ΗΠΑ, ενώ η \(\boldsymbol{\mathcal{H}_1}\) ισχυρίζεται ότι τα δύο ποσοστά διαφέρουν.

2 Τιμή σημαντικότητας – (p-τιμή)

Αρχικά βρίσκουμε πόσοι έχουν καταδικαστεί σε θάνατο τα έτη 2020-2022 γράφοντας:

length(deathPop$`Last Name`)
## [1] 56

Βρίσκουμε ότι καταδικάστηκαν 56 άτομα. Επίσης, γράφοντας:

nrow(deathPop[deathPop$`Race of Defendant`== "White", ])
## [1] 27

βρίσκουμε ότι είχαμε 27 λευκούς καταδικασμένους εις θάνατον. Αυτό σημαίνει ότι η αναλογία:

\[\dfrac{\lambda\varepsilon\upsilon\kappa o\iota \ \ \theta\alpha\nu\alpha\tau o \pi o \iota\nu\iota\tau\varepsilon\varsigma}{\sigma \upsilon\nu o \lambda o \ \ \theta\alpha\nu\alpha\tau o \pi o \iota\nu\iota\tau\omega\nu}=\dfrac{27}{56}\approx 0.4821429.\]

Δηλαδή βρήκαμε ότι το 48.21% των θανατοποινιτών είναι λευκοί. Πόσο πιθανό είναι να τύχουμε κάτι τόσο ακραίο σε έναν πληθυσμό με αναλογία λευκών 75.5%; Πόσο πιθανόν είναι να διαλέξουμε δείγματα ανθρώπων με ποσοστό λευκών τουλάχιστον τόσο απόμακρο από το 75.5% όσο είναι και το 48.21%; Σε αυτό θα μας απαντήσει η συνάρτηση p_timiPos(🍺🍺🍺,🏺🏺🏺,👨👨👨).

  • Στη θέση του 🍺🍺🍺 γράφουμε το ποσοστό του δείγματος που βρήκαμε, δηλαδή εδώ το 0.4821429,

  • στη θέση του 🏺🏺🏺 γράφουμε το ποσοστό που εμφανίζεται στον πληθυσμό, άρα το 0.755 στην παρούσα περίπτωση και

  • στη θέση του 👨👨👨 γράφουμε το μέγεθος του δείγματος, δηλαδή εν προκειμένω το 56.

Έχουμε λοιπόν:

p_timiPos <- function(posYpothesis, posPlithismos, plithos) {
  a <- abs(posPlithismos-posYpothesis)
  s <- sqrt(posPlithismos*(1-posPlithismos)/plithos)
  2-2*pt(a/s,plithos-1)
}

Έτσι, γράφοντας:

p_timiPos(0.4821429, 0.755, 56)
## [1] 1.510691e-05

εξάγεται η τιμή 1.510691e-05. Δηλαδή, η πιθανότητα να τύχουμε τόσο μεγάλη απόκλιση από την πληθυσμιακή αναλογία του 75.5% είναι \(1.510691\cdot 10^{-5}=0.00001510691\). Με άλλα λόγια, η όποια βεβαιότητα που μπορούμε να έχουμε για το ότι θα τύχουμε ένα τόσο σπάνιο δείγμα είναι 0.0015%. Αυτό, φυσικά, απέχει παρασάγγας από το να είναι βεβαιότητα. Το να τύχουμε δείγμα τουλάχιστον τόσο απόμακρο από την πληθυσμιακή αναλογία είναι απίθανο στα όρια του εξωπραγματικού. Επομένως διαπιστώνουμε ότι κάτι ξεχωριστό συμβαίνει εδώ. Δηλαδή η μηδενική υπόθεση δεν μπορεί να υποστηρίξει την ύπαρξη δειγμάτων σαν αυτό που μελετήσαμε ή με ακόμα μικρότερη αναλογία κι έτσι αποδεχόμαστε την εναλλακτική υπόθεση. Η τιμή \(1.510691\cdot 10^{-5}\) που βρήκαμε ονομάζεται p-τιμή του στατιστικού ελέγχου υπόθεσης που κάναμε.

τιμή σημαντικότητας – (p-τιμή)
Έστω ένας έλεγχος υποθέσεων με μηδενική υπόθεση \(\boldsymbol{\mathcal{H}_0}\) κι ένα δείγμα με κάποιο στατιστικό του μέγεθος υπολογισμένο (μέση τιμή, κάποια αναλογία κ.τ.λ.). Διαλέγουμε ένα δείγμα του πληθυσμού στην τύχη και υπολογίζουμε το ίδιο στατιστικό μέγεθος. Η πιθανότητα να προκύψει τιμή τουλάχιστον τόσο ακραία, όσο κι αυτή που βρήκαμε πριν ονομάζεται τιμή σημαντικότητας ή p-τιμή.

Βρήκαμε ότι όντως η αναλογία των λευκών στους θανατοποινίτες είναι διαφορετική από την πληθυσμιακή αναλογία, δηλαδή ότι είναι λιγότερο πιθανό ένας λευκός να καταλήξει θανατοποινήτης. Όμως, προσοχή! Δεν λέμε πόσο πιθανόν είναι κάποιος κατηγορούμενος να καταλήξει θανατοποινήτης, αλλά πόσο πιθανόν είναι κάποιος τυχαίος αμερικάνος πολίτης να καταλήξει θανατοποινήτης. Αυτό σημαίνει ότι κάποιος μπορεί να ερμηνεύσει τα παραπάνω συμπεράσματα ως το ότι οι λευκοί δεν έχουν τόσο μεγάλη τάση προς τα ακραία εγκλήματα που επισείουν την ποινή του θανάτου, παρά στο ότι ότι η αμερικανική δικαιοσύνη είναι μεροληπτική υπέρ των λευκών.

Αυτά είναι ζητήματα που δεν μπορούν να απαντηθούν μόνο από τον στατιστικό έλεγχο που κάναμε. Θα χρειαστούμε ενδεχομένως μια στατιστική έρευνα που να συγκρίνει τα ποσοστά των λευκών και των μαύρων κατηγορουμένων που κατέληξαν σε θάνατο, πόσο συχνά στην κάθε φυλή η εισαγγελεία πρότεινε για το ίδιο έγκλημα την ποινή του θανάτου κ.τ.λ. Και, φυσικά, η Στατιστική είναι μόνο η αρχή. Η Ιστορία και η Κοινωνιολογία θα πρέπει να μας παρέχουν προσανατολισμό και αξιολόγηση των ευρημάτων μας.

3 Επίπεδο σημαντικότητας – (α-τιμή)

Μία άλλη προσέγγιση είναι το να προσδιορίσουμε εκ των προτέρων το τι θεωρούμε σπάνιο δείγμα. Είναι αυτό που εμφανίζεται στο 1% των δειγμάτων ή μήπως στο 1‰; Σε επίπεδο κοινωνιολογικών ερευνών θα λέγαμε ότι αρκεί το 5%. Δηλαδή οτιδήποτε εμφανίζεται λιγότερο από το 5% των περιπτώσεων μπορεί να θεωρηθεί ως σπάνιο και πρακτικά μη ρεαλιστικό. Επομένως ένα ενδεχόμενο με πιθανότητα μικρότερη του 0.05 θα πρέπει να απορριφθεί ως απίθανο.

Κατά συνέπεια, αν, δεχόμενοι την μηδενική υπόθεση, ακραία δείγματα σαν και το δικό μας σπανίζουν, δηλαδή αν το δείγμα που τύχαμε ανήκει στο σπάνιο 5% των ακραίων τιμών, στο ακραίο 5% που η \(\boldsymbol{\mathcal{H}_0}\) θεωρεί σπάνιο, τότε πρέπει ν’ απορρίψουμε την \(\boldsymbol{\mathcal{H}_0}\), αφού αυτή δεν αναγνωρίζει ένα γεγονός καθόλα υπαρκτό.

επίπεδο σημαντικότητας – (α-τιμή)
Η τιμή πιθανότητας την οποία θεωρούμε μικρή, ότι αντιπροσωπεύει κάτι σπάνιο, την ονομάζουμε επίπεδο σημαντικότητας και την συμβολίζουμε με α. Στις κοινωνικές επιστήμες μπορούμε να παίρνουμε α=0.05.

Ποιες είναι λοιπόν οι πιο μικρές τιμές που μπορούν να πάρουν οι δειγματικές αναλογίες και που το μέγεθός τους τις κατατάσσει στο σπανιότερο 5% όλων των δειγμάτων ενός πληθυσμού με πληθυσμιακή αναλογία 75.5%; Από ποιο σημείο και κάτω είναι εξαιρετικά αμφίβολο (με πιθανότητα κάτω του 0.05) να τύχουμε δείγμα από έναν τέτοιο πληθυσμό; Ψάχνουμε λοιπόν την περιοχή του 5% των μικρότερων τιμών.

Αυτή τη φορά η δουλειά θα γίνει με τη βοήθεια της συνάρτησης a_timiPos(🏺🏺🏺,👨👨👨, 👑👑👑).

  • Στη θέση του 🏺🏺🏺 γράφουμε το ποσοστό που εμφανίζεται στον πληθυσμό, άρα το 0.755 στην παρούσα περίπτωση,

  • στη θέση του 👨👨👨 γράφουμε το μέγεθος του δείγματος, δηλαδή εν προκειμένω το 56 και

  • στη θέση του 👑👑👑 θα πάει το ποσοστό που θεωρούμε ότι αντιπροσωπεύει τα σπάνια συμβάντα, το οποίο σε μας είναι το 5%, δηλαδή το 0.05.

Έχουμε λοιπόν:

a_timiPos<- function(posPlithismos, plithos, spaniotita) {
  s <- sqrt(posPlithismos*(1-posPlithismos)/plithos)
  a <- spaniotita/2
  t <- qt(a, plithos-1, lower.tail=F)
  m1 <- posPlithismos-t*s
  m2 <- posPlithismos+t*s
  c(m1, m2)
}

Ακολούθως εκτελούμε την εντολή:

a_timiPos(0.755, 56, 0.05)
## [1] 0.6398219 0.8701781

Οπότε βρίσκουμε πως οποιοδήποτε ποσοστό κάτω από 0.6398219 (63.98%) και οποιοδήποτε ποσοστό πάνω από 0.8701781 (87.02%) θεωρείται εξαιρετικά σπάνιο ενδεχόμενο κι ως εκ τούτου δηλώνει ότι κάτι το ξεχωριστό συμβαίνει.

Παρατηρούμε ότι η δικιά μας περίπτωση, το 48.21% ξεφεύγει ήδη πολύ, από τα επιτρεπτά πλαίσια που οριοθετούν το σύνηθες από το σπάνιο. Ως εκ τούτου διαπιστώνουμε και πάλι (βλ. προηγούμενη ενότητα Τιμή σημαντικότητας – (p-τιμή)) ότι κάτι το ξεχωριστό συμβαίνει στην περίπτωση των θανατοποινιτών, όσον αφορά τους λευκούς. Αυτό που μάς εκπλήσσει είναι ότι δεν θεωρούνται ύποπτες οι αναλογίες των λευκών της τάξης του 65%. Είναι αυτό δυνατόν; Αυτό το μεγάλο εύρος «φυσιολογικών» ποσοστών οφείλεται στο μικρό μέγεθος που πήραμε. Ενδεικτικά, αν το δείγμα μας αποτελούνταν από 500 άτομα κι όχι από 56, τότε ο υπολογισμός:

a_timiPos(0.755, 500, 0.05)
## [1] 0.7172102 0.7927898

θα μας έδινε ότι οι συνήθεις αναλογίες λευκών είναι ανάμεσα στα ποσοστά 71.72% και 79.28%,άρα ότι θα πρέπει να «μας χτυπάει το καμπανάκι» ότι κάτι περίεργο συμβαίνει, όταν είμαστε έξω από αυτά τα πλαίσια. Παρατηρούμε ότι τα όρια του «φυσιολογικού» και αναμενόμενου έχουν στενέψει αρκετά από πριν λόγω αυτής της αύξησης του μεγέθους του δείγματος.

Συνολικά ο κώδικάς μας ήταν ο κάτωθι:

rm(list = ls())
length(deathPop$`Last Name`)
nrow(deathPop[deathPop$`Race of Defendant`== "White", ])
p_timiPos <- function(posYpothesis, posPlithismos, plithos) {
  a <- abs(posPlithismos-posYpothesis)
  s <- sqrt(posPlithismos*(1-posPlithismos)/plithos)
  2-2*pt(a/s,plithos-1)
}
p_timiPos(0.4821429, 0.755, 56)
a_timiPos<- function(posPlithismos, plithos, spaniotita) {
  s <- sqrt(posPlithismos*(1-posPlithismos)/plithos)
  a <- spaniotita/2
  t <- qt(a, plithos-1, lower.tail=F)
  m1 <- posPlithismos-t*s
  m2 <- posPlithismos+t*s
  c(m1, m2)
}
a_timiPos(0.755, 56, 0.05)
a_timiPos(0.755, 500, 0.05)