Υπάρχουν περιπτώσεις όπου παρατηρούμε κάτι ξεχωριστό να συμβαίνει σ’ ένα τμήμα ενός πληθυσμού. Εδώ, για παράδειγμα, θα μελετήσουμε το τμήμα του πληθυσμού των ΗΠΑ που είναι οι θανατοποινίτες, και θα εξετάσουμε αν σε αυτό το δείγμα το ποσοστό των λευκών είναι διαφορετικό από το ποσοστό των λευκών στις ΗΠΑ. Τι εννοούμε όμως «διαφορετικό»; Από τη σελίδα United States Census Bureau βλέπουμε ότι το ποσοστό των λευκών στις ΗΠΑ είναι 75.5%. Είναι λογικό, αν το ποσοστό των λευκών στους θανατοποινίτες είναι 76% ή 74%, να θεωρήσουμε ότι δεν συμβαίνει κάτι το αξιοπρόσεκτο στις θανατικές ποινές. Επίσης, όμως, είναι λογικό να υποψιαστούμε ότι κάτι ξεχωριστό συμβαίνει με τις θανατικές ποινές, αν το ποσοστό των λευκών βγει 20% στους θανατοποινίτες.
Προς τούτο συγκεντρώσαμε στοιχεία από τη σελίδα Death Penalty Information Center για τις θανατικές ποινές στα έτη 2020-2022 (1 , 2 και 3) στο φύλλο deathPop.xlsx, αφού πρώτα διαγράψαμε ό,τι είχαμε εισάγει μέχρι τώρα στην R:
| First Name | Middle Name | Last Name | State | Formally Imposed | County | Race of Defendant | Number/Race of Victim(s) | Age at Crime | Non-Unanimous / Judge Sentencing |
|---|---|---|---|---|---|---|---|---|---|
| Mark | NA | Sievers | FL | 2020-01-03 | Lee | White | 1 White Female | 47 | NA |
| Byron | NA | Shepard | OK | 2020-01-03 | Pottawatomie | White | 1 White Male | 36 | NA |
| Edward | Littleton | McCauley | AZ | 2020-01-09 | Maricopa | White | 1 White Female | 58 | NA |
| Charles | NA | Merritt | CA | 2020-01-21 | San Bernardino | White | 3 White Males, 1 White Female | 53 | NA |
| Israel | Ramirez | Guardado | CA | 2020-01-24 | Riverside | Latinx | 1 Latina Female | 37 | NA |
| Michael | NA | Gordon | FL | 2020-02-07 | Polk | Black | 2 White Females | 34 | NA |
| Willie | Cory | Godbolt | MS | 2020-02-27 | Lincoln | Black | 1 White Male, 2 Black Males, 1 Black Female | 35 | NA |
| Brandon | NA | McCall | TX | 2020-02-27 | Collin | White | 1 White Male | 26 | NA |
| Lucky | NA | Ward | TX | 2020-03-10 | Harris | Black | 1 Latino Female, 1 Black Female | 44 | NA |
| Jesse | NA | Bell | FL | 2020-03-13 | Lafayette | White | 1 White Male | 45 | 1-judge sentencing |
| Barry | NA | Noetzel | FL | 2020-03-13 | Lafayette | White | 1 White Male | 45 | 1-judge sentencing |
| Joel | NA | Drain | OH | 2020-05-18 | Warren | White | 1 White Male | 37 | 3-judge sentencing |
| Hernan | NA | Rodriguez | CA | 2020-06-26 | Tulare | Latinx | 2 Latino Males | 24 | NA |
| Vincent | James | Marples | CA | 2020-06-26 | Riverside | White | 1 White Female | 34 | NA |
| Granville | NA | Ritchie | FL | 2020-09-11 | Hillsborough | Black | 1 Black Female | 35 | NA |
| Marlin | NA | Joseph | FL | 2020-11-19 | Palm Beach | Black | 2 Black Females | 26 | NA |
| Thomas | NA | Fletcher | FL | 2020-11-24 | Santa Rosa | White | 1 White Male | 50 | NA |
| Jesse | Perez | Torres | CA | 2020-12-04 | Riverside | Latinx | 1 Latina Female | 34 | NA |
| Donnie | NA | Abernathy | AL | 2021-11-29 | Cherokee | White | 3 White Females | 38 | Jury waived / 1-judge sentence |
| Christopher | NA | Henderson | AL | 2021-10-13 | Madison | White | 2 White Female; 2 White Males | 40 | 11-1 jury / 1-judge sentence |
| Michael | Anthony | Powell | AL | 2021-05-24 | Shelby | Black | 1 White Female | 43 | 11-1 jury / 1-judge sentence |
| Michael | Dale | Iervolino | AL | 2021-11-30 | St. Clair County | Latinx | 1 White Male | 32 | 10-2 jury / 1-judge sentence |
| Douglas | Jade | Harris | CA | 2021-07-01 | Los Angeles | Black | 1 Latino Male, 2 Latina Females | 30 | NA |
| Michael | NA | Gargiulo | CA | 2021-07-16 | Los Angeles | White | 1 White Female, 1 Latina Female | 25 | NA |
| Adrian | NA | Ortiz | CA | 2021-02-26 | Tulare | Latinx | 1 Latino Male | 19 | NA |
| Billy | NA | Wells | FL | 2021-05-25 | Bradford | White | 1 White Male | 43 | NA |
| Reynald | NA | Figueroa Sanabrina | FL | 2021-07-02 | Pinellas | Latinx | 1 White Female, 1 White Male | 41 | NA |
| Aubrey | NA | Trail | NE | 2021-06-09 | Saline | White | 1 White Female | 51 | 3-judge panel |
| Joseph | Fidel | Alliniece | OK | 2021-07-27 | Cleveland | Black | 1 White Female | 29 | NA |
| Daniel | NA | Vasquez | OK | 2021-11-05 | McClain | Latinx | 1 Black female | 33 | NA |
| Derrick | NA | Laday | OK | 2021-07-07 | Oklahoma | Black | 1 Black Male | 22 | NA |
| William | NA | Reece | OK | 2021-08-19 | Oklahoma | White | 1 White Female | 38 | NA |
| Steven | NA | Wiggins | TN | 2021-08-12 | Dickson | White | 1 White Male | 31 | NA |
| Otis | NA | McKane | TX | 2021-08-06 | Bexar | Black | 1 White Male | 31 | NA |
| Tyrone | Jamaal | Williams | TX | 2021-11-19 | Hunt | Black | 2 White Females | 30 | NA |
| William | George | Davis | TX | 2021-10-27 | Smith | White | 4 White Males | 34 | NA |
| Jesse | Michael | Gomez | CA | 2022-04-03 | San Diego | Latinx | 1 Asian Male | NA | NA |
| Noel | NA | Herrera | CA | 2022-03-15 | Tulare | Latinx | 2 Latino Males and 1 Unknown Male | 27,31,34 | NA |
| Markeith | NA | Loyd | FL | 2022-03-03 | Orange | Black | 1 Black female | 41 | NA |
| Brandon | NA | Sykes | AL | 2022-04-05 | Lamar | Black | 1 Black female | 33 | NA |
| David | NA | Ware | OK | 2022-05-13 | Tulsa | White | 1 White Male | 32 | NA |
| Everett | Glenn | Miller | FL | 2022-05-13 | Osceola | Black | 1 Black Male, 1 Latino Male | 45 | NA |
| William | NA | Roberts | FL | 2022-07-28 | Lake | White | 1 White Female | 56 | Jury waived / 1-judge-sentence |
| Warren | NA | Hardy | AL | 2022-08-25 | Madison | Black | 1 White Female | ~27 | 11-1 jury / 1-judge sentence |
| Davone | NA | Anderson | PA | 2022-05-31 | Cumberland | Black | 1 Black female; 1 White female | 25 | NA |
| Ricky | NA | Dubose | GA | 2022-06-16 | Putnam | White | 1 Black male, 1 white male | 24 | NA |
| Joshua | NA | Burgess | NC | 2022-06-03 | Union | White | 1 Black female | 24 | NA |
| Tillman | NA | Freeman | NC | 2022-04-19 | Hoke | Black | 2 Black Female | 30 | NA |
| Kevin | NA | Daigle | LA | 2022-10-20 | Calcasieu | White | 1 white male | 54 | NA |
| Richard | Darren | Emery | MO | 2022-11-03 | St Charles | White | 3 White Females, 1 White Male | NA | NA |
| Robert | NA | Solis | TX | 2022-10-26 | Harris County | Latinx | 1 asian male | 47 | NA |
| Taylor | NA | Parker | TX | 2022-11-09 | Bowie County | White | 1 white female | NA | NA |
| Jimmy | O’Neal | Spencer | AL | 2022-11-14 | Marshall | White | 2 white females, 1 white male | ~53 | NA |
| Christopher | M. | Montoya | AZ | 2022-04-12 | Maricopa County | White | 1 White Female | ~32 | NA |
| Abram | NA | Martez | MS | 2022-12-02 | DeSoto County | Black | 1 Black Male, 1 White Male | 39 | NA |
| Tyrone | NA | Johnson | FL | 2022-12-12 | Hillsborough | Black | 1 Black female, 1 Black Male | NA | NA |
| μηδενική και εναλλακτική υπόθεση |
|---|
|
Έτσι, εν προκειμένω η \(\boldsymbol{\mathcal{H}_0}\) είναι η υπόθεση ότι το 75.5% των θανατοποινιτών είναι λευκοί, όσο δηλαδή το ποσοστό τους στον πληθυσμό των ΗΠΑ, ενώ η \(\boldsymbol{\mathcal{H}_1}\) ισχυρίζεται ότι τα δύο ποσοστά διαφέρουν.
Αρχικά βρίσκουμε πόσοι έχουν καταδικαστεί σε θάνατο τα έτη 2020-2022 γράφοντας:
## [1] 56
Βρίσκουμε ότι καταδικάστηκαν 56 άτομα. Επίσης, γράφοντας:
## [1] 27
βρίσκουμε ότι είχαμε 27 λευκούς καταδικασμένους εις θάνατον. Αυτό σημαίνει ότι η αναλογία:
\[\dfrac{\lambda\varepsilon\upsilon\kappa o\iota \ \ \theta\alpha\nu\alpha\tau o \pi o \iota\nu\iota\tau\varepsilon\varsigma}{\sigma \upsilon\nu o \lambda o \ \ \theta\alpha\nu\alpha\tau o \pi o \iota\nu\iota\tau\omega\nu}=\dfrac{27}{56}\approx 0.4821429.\]
Δηλαδή βρήκαμε ότι το 48.21% των θανατοποινιτών είναι λευκοί. Πόσο
πιθανό είναι να τύχουμε κάτι τόσο ακραίο σε έναν πληθυσμό με αναλογία
λευκών 75.5%; Πόσο πιθανόν είναι να διαλέξουμε δείγματα ανθρώπων με
ποσοστό λευκών τουλάχιστον τόσο απόμακρο από το 75.5% όσο είναι και το
48.21%; Σε αυτό θα μας απαντήσει η συνάρτηση
p_timiPos(🍺🍺🍺,🏺🏺🏺,👨👨👨).
Στη θέση του 🍺🍺🍺 γράφουμε το ποσοστό του
δείγματος που βρήκαμε, δηλαδή εδώ το 0.4821429,
στη θέση του 🏺🏺🏺 γράφουμε το ποσοστό που
εμφανίζεται στον πληθυσμό, άρα το 0.755 στην παρούσα περίπτωση
και
στη θέση του 👨👨👨 γράφουμε το μέγεθος του
δείγματος, δηλαδή εν προκειμένω το 56.
Έχουμε λοιπόν:
p_timiPos <- function(posYpothesis, posPlithismos, plithos) {
a <- abs(posPlithismos-posYpothesis)
s <- sqrt(posPlithismos*(1-posPlithismos)/plithos)
2-2*pt(a/s,plithos-1)
}Έτσι, γράφοντας:
## [1] 1.510691e-05
εξάγεται η τιμή 1.510691e-05. Δηλαδή, η πιθανότητα να τύχουμε τόσο μεγάλη απόκλιση από την πληθυσμιακή αναλογία του 75.5% είναι \(1.510691\cdot 10^{-5}=0.00001510691\). Με άλλα λόγια, η όποια βεβαιότητα που μπορούμε να έχουμε για το ότι θα τύχουμε ένα τόσο σπάνιο δείγμα είναι 0.0015%. Αυτό, φυσικά, απέχει παρασάγγας από το να είναι βεβαιότητα. Το να τύχουμε δείγμα τουλάχιστον τόσο απόμακρο από την πληθυσμιακή αναλογία είναι απίθανο στα όρια του εξωπραγματικού. Επομένως διαπιστώνουμε ότι κάτι ξεχωριστό συμβαίνει εδώ. Δηλαδή η μηδενική υπόθεση δεν μπορεί να υποστηρίξει την ύπαρξη δειγμάτων σαν αυτό που μελετήσαμε ή με ακόμα μικρότερη αναλογία κι έτσι αποδεχόμαστε την εναλλακτική υπόθεση. Η τιμή \(1.510691\cdot 10^{-5}\) που βρήκαμε ονομάζεται p-τιμή του στατιστικού ελέγχου υπόθεσης που κάναμε.
| τιμή σημαντικότητας – (p-τιμή) |
|---|
| Έστω ένας έλεγχος υποθέσεων με μηδενική υπόθεση \(\boldsymbol{\mathcal{H}_0}\) κι ένα δείγμα με κάποιο στατιστικό του μέγεθος υπολογισμένο (μέση τιμή, κάποια αναλογία κ.τ.λ.). Διαλέγουμε ένα δείγμα του πληθυσμού στην τύχη και υπολογίζουμε το ίδιο στατιστικό μέγεθος. Η πιθανότητα να προκύψει τιμή τουλάχιστον τόσο ακραία, όσο κι αυτή που βρήκαμε πριν ονομάζεται τιμή σημαντικότητας ή p-τιμή. |
Βρήκαμε ότι όντως η αναλογία των λευκών στους θανατοποινίτες είναι διαφορετική από την πληθυσμιακή αναλογία, δηλαδή ότι είναι λιγότερο πιθανό ένας λευκός να καταλήξει θανατοποινήτης. Όμως, προσοχή! Δεν λέμε πόσο πιθανόν είναι κάποιος κατηγορούμενος να καταλήξει θανατοποινήτης, αλλά πόσο πιθανόν είναι κάποιος τυχαίος αμερικάνος πολίτης να καταλήξει θανατοποινήτης. Αυτό σημαίνει ότι κάποιος μπορεί να ερμηνεύσει τα παραπάνω συμπεράσματα ως το ότι οι λευκοί δεν έχουν τόσο μεγάλη τάση προς τα ακραία εγκλήματα που επισείουν την ποινή του θανάτου, παρά στο ότι ότι η αμερικανική δικαιοσύνη είναι μεροληπτική υπέρ των λευκών.
Αυτά είναι ζητήματα που δεν μπορούν να απαντηθούν μόνο από τον στατιστικό έλεγχο που κάναμε. Θα χρειαστούμε ενδεχομένως μια στατιστική έρευνα που να συγκρίνει τα ποσοστά των λευκών και των μαύρων κατηγορουμένων που κατέληξαν σε θάνατο, πόσο συχνά στην κάθε φυλή η εισαγγελεία πρότεινε για το ίδιο έγκλημα την ποινή του θανάτου κ.τ.λ. Και, φυσικά, η Στατιστική είναι μόνο η αρχή. Η Ιστορία και η Κοινωνιολογία θα πρέπει να μας παρέχουν προσανατολισμό και αξιολόγηση των ευρημάτων μας.
Μία άλλη προσέγγιση είναι το να προσδιορίσουμε εκ των προτέρων το τι θεωρούμε σπάνιο δείγμα. Είναι αυτό που εμφανίζεται στο 1% των δειγμάτων ή μήπως στο 1‰; Σε επίπεδο κοινωνιολογικών ερευνών θα λέγαμε ότι αρκεί το 5%. Δηλαδή οτιδήποτε εμφανίζεται λιγότερο από το 5% των περιπτώσεων μπορεί να θεωρηθεί ως σπάνιο και πρακτικά μη ρεαλιστικό. Επομένως ένα ενδεχόμενο με πιθανότητα μικρότερη του 0.05 θα πρέπει να απορριφθεί ως απίθανο.
Κατά συνέπεια, αν, δεχόμενοι την μηδενική υπόθεση, ακραία δείγματα σαν και το δικό μας σπανίζουν, δηλαδή αν το δείγμα που τύχαμε ανήκει στο σπάνιο 5% των ακραίων τιμών, στο ακραίο 5% που η \(\boldsymbol{\mathcal{H}_0}\) θεωρεί σπάνιο, τότε πρέπει ν’ απορρίψουμε την \(\boldsymbol{\mathcal{H}_0}\), αφού αυτή δεν αναγνωρίζει ένα γεγονός καθόλα υπαρκτό.
| επίπεδο σημαντικότητας – (α-τιμή) |
|---|
| Η τιμή πιθανότητας την οποία θεωρούμε μικρή, ότι αντιπροσωπεύει κάτι σπάνιο, την ονομάζουμε επίπεδο σημαντικότητας και την συμβολίζουμε με α. Στις κοινωνικές επιστήμες μπορούμε να παίρνουμε α=0.05. |
Ποιες είναι λοιπόν οι πιο μικρές τιμές που μπορούν να πάρουν οι δειγματικές αναλογίες και που το μέγεθός τους τις κατατάσσει στο σπανιότερο 5% όλων των δειγμάτων ενός πληθυσμού με πληθυσμιακή αναλογία 75.5%; Από ποιο σημείο και κάτω είναι εξαιρετικά αμφίβολο (με πιθανότητα κάτω του 0.05) να τύχουμε δείγμα από έναν τέτοιο πληθυσμό; Ψάχνουμε λοιπόν την περιοχή του 5% των μικρότερων τιμών.
Αυτή τη φορά η δουλειά θα γίνει με τη βοήθεια της συνάρτησης
a_timiPos(🏺🏺🏺,👨👨👨, 👑👑👑).
Στη θέση του 🏺🏺🏺 γράφουμε το ποσοστό που
εμφανίζεται στον πληθυσμό, άρα το 0.755 στην παρούσα περίπτωση,
στη θέση του 👨👨👨 γράφουμε το μέγεθος του
δείγματος, δηλαδή εν προκειμένω το 56 και
στη θέση του 👑👑👑 θα πάει το ποσοστό που θεωρούμε
ότι αντιπροσωπεύει τα σπάνια συμβάντα, το οποίο σε μας είναι το 5%,
δηλαδή το 0.05.
Έχουμε λοιπόν:
a_timiPos<- function(posPlithismos, plithos, spaniotita) {
s <- sqrt(posPlithismos*(1-posPlithismos)/plithos)
a <- spaniotita/2
t <- qt(a, plithos-1, lower.tail=F)
m1 <- posPlithismos-t*s
m2 <- posPlithismos+t*s
c(m1, m2)
}Ακολούθως εκτελούμε την εντολή:
## [1] 0.6398219 0.8701781
Οπότε βρίσκουμε πως οποιοδήποτε ποσοστό κάτω από 0.6398219 (63.98%) και οποιοδήποτε ποσοστό πάνω από 0.8701781 (87.02%) θεωρείται εξαιρετικά σπάνιο ενδεχόμενο κι ως εκ τούτου δηλώνει ότι κάτι το ξεχωριστό συμβαίνει.
Παρατηρούμε ότι η δικιά μας περίπτωση, το 48.21% ξεφεύγει ήδη πολύ, από τα επιτρεπτά πλαίσια που οριοθετούν το σύνηθες από το σπάνιο. Ως εκ τούτου διαπιστώνουμε και πάλι (βλ. προηγούμενη ενότητα Τιμή σημαντικότητας – (p-τιμή)) ότι κάτι το ξεχωριστό συμβαίνει στην περίπτωση των θανατοποινιτών, όσον αφορά τους λευκούς. Αυτό που μάς εκπλήσσει είναι ότι δεν θεωρούνται ύποπτες οι αναλογίες των λευκών της τάξης του 65%. Είναι αυτό δυνατόν; Αυτό το μεγάλο εύρος «φυσιολογικών» ποσοστών οφείλεται στο μικρό μέγεθος που πήραμε. Ενδεικτικά, αν το δείγμα μας αποτελούνταν από 500 άτομα κι όχι από 56, τότε ο υπολογισμός:
## [1] 0.7172102 0.7927898
θα μας έδινε ότι οι συνήθεις αναλογίες λευκών είναι ανάμεσα στα ποσοστά 71.72% και 79.28%,άρα ότι θα πρέπει να «μας χτυπάει το καμπανάκι» ότι κάτι περίεργο συμβαίνει, όταν είμαστε έξω από αυτά τα πλαίσια. Παρατηρούμε ότι τα όρια του «φυσιολογικού» και αναμενόμενου έχουν στενέψει αρκετά από πριν λόγω αυτής της αύξησης του μεγέθους του δείγματος.
Συνολικά ο κώδικάς μας ήταν ο κάτωθι:
rm(list = ls())
length(deathPop$`Last Name`)
nrow(deathPop[deathPop$`Race of Defendant`== "White", ])
p_timiPos <- function(posYpothesis, posPlithismos, plithos) {
a <- abs(posPlithismos-posYpothesis)
s <- sqrt(posPlithismos*(1-posPlithismos)/plithos)
2-2*pt(a/s,plithos-1)
}
p_timiPos(0.4821429, 0.755, 56)
a_timiPos<- function(posPlithismos, plithos, spaniotita) {
s <- sqrt(posPlithismos*(1-posPlithismos)/plithos)
a <- spaniotita/2
t <- qt(a, plithos-1, lower.tail=F)
m1 <- posPlithismos-t*s
m2 <- posPlithismos+t*s
c(m1, m2)
}
a_timiPos(0.755, 56, 0.05)
a_timiPos(0.755, 500, 0.05)