1 Από πίνακα συχνοτήτων

Στην παρούσα ενότητα θα εξετάσουμε αν δύο μεταβλητές είναι ανεξάρτητες. Συγκεκριμένα, αντλήσαμε στοιχεία από τη σελίδα του FBI που αφορούν τη σχέση του θύματος στο εκάστοτε έγκλημα με τον θύτη του. Για παράδειγμα βλέπουμε εκεί ότι 25105 σεξουαλικές επιθέσεις γίνονται από μέλη της οικογένειας, ενώ μόνο 6796 γίνονται από αγνώστους.

Τα στοιχεία αυτά αποθηκεύτηκαν σε ένα αρχείο ονόματι egklUSA2018.xlsx.

…1 Family Member Family Member and Other Known to Victim and Other Stranger All Other
Assault Offenses 318101 43614 731611 131014 168924
Homicide Offenses 783 67 1756 558 1847
Human Trafficking Offenses 26 4 294 69 127
Kidnapping/Abduction 4301 227 11586 1883 2246
Sex Offenses 25105 788 52893 6796 13327
Robbery 943 236 15193 30135 28872

Θέλουμε να δούμε αν σε ένα έγκλημα η σχέση του θύματος με τον θύτη και το είδος του εγκλήματος είναι ανεξάρτητα πράγματα.

  • Θέλουμε να δούμε, δηλαδή, αν η γνώση του είδους του εγκλήματος προσφέρει κάτι στην γνώση της σχέσης θύματος-θύτη. Π.χ. αν έχει γίνει μια σεξουαλική επίθεση, κάνει πιο πιθανό να είναι ο δράστης της οικογενείας, σε σχέση με το να γινόταν κάποιο άλλο έγκλημα, όπως π.χ. η ληστεία; Ή μήπως το είδος του εγκλήματος αφήνει ανεπηρέαστη την πιθανότητα ο δράστης να είναι της οικογενείας;

  • Και αντίστροφα: Θέλουμε να δούμε αν η γνώση της σχέσης θύματος-θύτη προσφέρει κάτι στη γνώση του εγκλήματος. Αν π.χ. τελέσει ένα έγκλημα ένας άγνωστος στο θύμα θύτης, κάνει πιο πιθανό αυτό το έγκλημα να είναι μια ληστεία, σε σχέση με το να ήταν ο θύτης μέλος της οικογενείας; Ή μήπως η σχέση θύματος-θύτη αφήνει ανεπηρέαστη την πιθανότητα να είναι το έγκλημα ληστεία; Ορίζουμε ως μηδενική υπόθεση το ότι οι μεταβλητές «σχέση με το θύμα» και «είδος εγκλήματος» είναι ανεξάρτητες και θα δούμε κατά πόσον αυτή θα απορριφθεί, οπότε τελικά θα αποδειχθεί ότι δεν ήταν ανεξάρτητες.

Ο πίνακάς μας είναι σχεδόν σε βολική μορφή, διότι:

  • η κάθε στήλη αποτελείται από τις συχνότητες των εγκλημάτων με βάση τη σχέση με το θύμα,

  • η κάθε γραμμή αποτελείται τις συχνότητες των εγκλημάτων με βάση το είδος του εγκλήματος.

Είναι σχεδόν σε βολική μορφή, διότι περιέχει και στήλη με μη-αριθμητικά δεδομένα, κι αυτή είναι η 1η. Συνεπώς, για να έχουμε στήλες μόνο με αριθμητικά δεδομένα, γράφουμε:

egklUSA <- egklUSA2018[ , c("Family Member", "Family Member and Other", "Known to Victim and Other", "Stranger")]

Οπότε έτσι έχει πεταχτεί εκτός η πρώτη στήλη.

Family Member Family Member and Other Known to Victim and Other Stranger
318101 43614 731611 131014
783 67 1756 558
26 4 294 69
4301 227 11586 1883
25105 788 52893 6796
943 236 15193 30135

Τέλος γράφουμε:

chisq.test(egklUSA)
## 
##  Pearson's Chi-squared test
## 
## data:  egklUSA
## X-squared = 127270, df = 15, p-value < 2.2e-16

Η p-τιμή είναι πάρα πολύ μικρή. Αυτό σημαίνει ότι η μηδενική υπόθεση απορρίπτεται, διότι διαφορετικά η πιθανότητα να τύχουμε κάτι τέτοιο θα είναι λιγότερο από 1 στα 1000000000000000. Άρα οι μεταβλητές «σχέση με το θύμα» και «είδος εγκλήματος» δεν είναι ανεξάρτητες.

Δηλαδή:

  • Αν π.χ. έχει γίνει μια σεξουαλική επίθεση επηρεάζεται η πιθανότητα ο θύτης να είναι άγνωστος, σε σχέση με το αν ξέραμε ότι έχει γίνει ληστεία. Με άλλα λόγια, κάποια εγκλήματα κάνουν πιο πιθανό να είναι ο θύτης άγνωστος, σε σχέση με κάποια άλλα.

  • Ή, αν π.χ. τελέσει ένα έγκλημα ένας άγνωστος στο θύμα θύτης, επηρεάζεται η πιθανότητα το έγκλημα αυτό να ήταν ληστεία, σε σχέση με το αν ξέραμε ότι ήταν σεξουαλική παρενόχληση. Με άλλα λόγια, κάποιοι θύτες κάνουν πιο πιθανό ένα έγκλημα, σε σχέση με κάποιους άλλους θύτες.

Συνολικά, ο λιγοστός κώδικας που γράψαμε ήταν ο κάτωθι:

egklUSA <- egklUSA2018[ , c("Family Member", "Family Member and Other", "Known to Victim and Other", "Stranger")]
chisq.test(egklUSA)

2 Από πίνακα δεδομένων

Εδώ θα χρησιμοποιήσουμε έναν πίνακα άλλης μορφής. Θα χρησιμοποιήσουμε τα στατιστικά στοιχεία του Freie Universität που τα αποθηκεύσαμε σε ένα αρχείο ονόματι students.xlsx. Παραθέτουμε τις πρώτες 100 καταχωρήσεις του πίνακα, για λόγους ταχύτητας εκτέλεσης του κώδικα.

stud.id name gender age height weight religion nc.score semester major minor score1 score2 online.tutorial graduated salary
833917 Gonzales, Christina Female 19 160 64.8 Muslim 1.91 1st Political Science Social Sciences NA NA 0 0 NA
898539 Lozano, T’Hani Female 19 172 73.0 Other 1.56 2nd Social Sciences Mathematics and Statistics NA NA 0 0 NA
379678 Williams, Hanh Female 22 168 70.6 Protestant 1.24 3rd Social Sciences Mathematics and Statistics 45 46 0 0 NA
807564 Nem, Denzel Male 19 183 79.7 Other 1.37 2nd Environmental Sciences Mathematics and Statistics NA NA 0 0 NA
383291 Powell, Heather Female 21 175 71.4 Catholic 1.46 1st Environmental Sciences Mathematics and Statistics NA NA 0 0 NA
256074 Perez, Jadrian Male 19 189 85.8 Catholic 1.34 2nd Political Science Mathematics and Statistics NA NA 0 0 NA
754591 Clardy, Anita Female 21 156 65.9 Protestant 1.11 2nd Political Science Social Sciences NA NA 0 0 NA
146494 Allen, Rebecca Marie Female 21 167 65.7 Other 2.03 3rd Political Science Economics and Finance 58 62 0 0 NA
723584 Tracy, Robert Male 18 195 94.4 Other 1.29 3rd Economics and Finance Environmental Sciences 57 67 0 0 NA
314281 Nimmons, Laura Female 18 165 66.0 Orthodox 1.19 2nd Environmental Sciences Mathematics and Statistics NA NA 0 0 NA
200803 Lang, Mackenzie Female 22 162 66.8 Other 1.04 4th Economics and Finance Environmental Sciences 62 61 1 1 45254.108020687003
444907 Rodriguez, Brianna Female 18 172 66.8 Other 3.81 3rd Environmental Sciences Economics and Finance 76 82 0 0 NA
354271 Covar Orendain, Christopher Male 23 185 84.6 Orthodox 1.00 4th Environmental Sciences Mathematics and Statistics 71 76 1 1 40552.790242531002
317812 Lopez, Monique Female 20 158 64.4 Catholic 2.50 6th Environmental Sciences Social Sciences 66 70 1 1 27007.030294282002
604115 Davis, Shagun Female 19 157 66.3 Orthodox 1.92 2nd Economics and Finance Political Science NA NA 0 0 NA
889551 Adams, Jose Male 20 172 73.9 Other 3.61 4th Mathematics and Statistics Political Science 87 91 1 0 NA
350040 Hines, Haileigh Female 22 156 61.7 Other 2.27 6th Political Science Biology 57 54 0 1 33969.159268048999
240279 Daugherty, Jesus Male 22 182 82.1 Catholic 1.42 1st Economics and Finance Environmental Sciences NA NA 0 0 NA
865835 Roybal, Ebony Female 21 162 69.2 Catholic 1.32 3rd Political Science Environmental Sciences 69 46 1 0 NA
137196 Baysinger, Tanisha Female 22 168 70.9 Protestant 2.33 2nd Environmental Sciences Political Science NA NA 0 0 NA
708242 Phillips, Laiba Female 20 167 68.5 Other 1.79 4th Biology Economics and Finance 77 80 1 0 NA
499002 Culbertson, Deshawn Male 37 175 70.4 Protestant 1.97 2nd Political Science Environmental Sciences NA NA 0 0 NA
873149 O Reilly, Joshua Male 19 164 70.3 Protestant 1.68 2nd Political Science Environmental Sciences NA NA 0 0 NA
807361 Johnson, Stephanie Female 38 155 67.0 Catholic 2.30 2nd Environmental Sciences Biology NA NA 0 0 NA
531029 Mix, Aziel Male 23 183 81.8 Catholic 2.11 4th Economics and Finance Environmental Sciences 69 65 0 0 NA
970589 Gonzalez, Dixie Female 26 145 54.0 Other 1.14 1st Biology Environmental Sciences NA NA 0 0 NA
250298 Clark, Janelle Female 25 161 66.8 Other 1.45 3rd Social Sciences Economics and Finance 45 37 1 0 NA
763393 Woolsey, Bronson Male 24 182 80.1 Protestant 1.09 5th Economics and Finance Social Sciences 61 73 1 1 50617.641869938998
544433 Diawara, Erica Female 54 169 71.4 Protestant 1.75 2nd Political Science Environmental Sciences NA NA 0 0 NA
252935 Lord, Benjamin Male 22 172 69.6 Protestant 3.94 3rd Mathematics and Statistics Social Sciences 89 90 1 0 NA
453762 Cordova, Justin Male 23 172 73.0 Protestant 1.26 1st Economics and Finance Mathematics and Statistics NA NA 0 0 NA
759365 Hayes, Vamshi Male 19 192 88.9 Other 1.19 3rd Social Sciences Mathematics and Statistics 44 36 0 0 NA
662678 French, Sidney Male 22 175 72.6 Protestant 3.03 4th Economics and Finance Biology 65 70 1 0 NA
188703 Torres, Andrew Male 18 173 75.7 Other 1.19 4th Environmental Sciences Mathematics and Statistics 74 74 0 0 NA
806369 Medina, Diamond Female 20 170 71.6 Protestant 2.27 2nd Environmental Sciences Political Science NA NA 0 0 NA
679521 Pascua, Burphy Male 21 176 74.1 Other 4.00 3rd Biology Economics and Finance 72 75 1 0 NA
371307 Glenn-Bracey, Mia Female 20 180 75.6 Protestant 1.09 1st Political Science Economics and Finance NA NA 0 0 NA
411253 Yang, Manuel Male 23 185 80.7 Orthodox 3.15 5th Political Science Mathematics and Statistics 54 46 0 1 37391.872365386
835757 Lujan, Malia Female 22 172 68.3 Protestant 2.12 4th Mathematics and Statistics Environmental Sciences 86 92 1 1 35598.881686346998
232384 Formby, Christina Female 21 171 74.5 Protestant 1.43 1st Environmental Sciences Mathematics and Statistics NA NA 0 0 NA
871735 Nelson, Anddi Female 19 153 64.9 Catholic 1.15 2nd Economics and Finance Mathematics and Statistics NA NA 0 0 NA
503879 Lucas, Asashia Female 20 157 64.4 Other 1.66 3rd Social Sciences Mathematics and Statistics 52 33 0 0 NA
186259 Holguin, Lance Male 23 190 89.3 Protestant 3.46 2nd Mathematics and Statistics Political Science NA NA 0 0 NA
890074 Ontiveros, Aleena Female 20 173 78.3 Orthodox 2.67 1st Political Science Social Sciences NA NA 0 0 NA
493398 Clark, Marlana Female 19 170 68.0 Other 2.45 1st Social Sciences Environmental Sciences NA NA 0 0 NA
902697 Phan, Edeer Male 19 160 62.2 Catholic 2.92 5th Environmental Sciences Economics and Finance 78 75 1 1 39703.744884975997
679949 Robles Escamilla, Rosario Female 23 170 69.6 Orthodox 3.23 2nd Biology Economics and Finance NA NA 0 0 NA
509606 Longwolf, Addam Male 20 171 72.1 Protestant 2.03 1st Environmental Sciences Political Science NA NA 0 0 NA
773757 Romero, Keyanna Female 22 160 66.2 Other 1.37 3rd Biology Environmental Sciences 83 73 1 0 NA
889115 Carter, Robert Male 23 181 76.2 Orthodox 1.32 2nd Economics and Finance Social Sciences NA NA 0 0 NA
280980 Jumbo, Isiah Male 21 161 66.7 Catholic 1.41 3rd Social Sciences Political Science 55 42 0 0 NA
879108 Dillenberg, Soraya Female 25 164 65.9 Other 1.43 2nd Social Sciences Economics and Finance NA NA 0 0 NA
756828 Nguyen, Juancarlos Male 24 170 68.0 Protestant 1.83 5th Economics and Finance Environmental Sciences 71 69 1 0 NA
873225 Shanahan, Carlos Male 20 174 72.8 Protestant 1.89 1st Economics and Finance Biology NA NA 0 0 NA
267025 Brown, Nhan Male 21 171 65.7 Catholic 2.77 >6th Political Science Mathematics and Statistics 57 58 1 1 30086.764812451998
865072 Tak, Ruben Male 22 184 83.3 Catholic 2.87 3rd Economics and Finance Biology 63 67 1 0 NA
180057 Hussainy, Luis Male 19 173 73.2 Other 2.80 1st Biology Mathematics and Statistics NA NA 0 0 NA
350628 Maven, Yee Joo Female 20 167 73.3 Other 1.13 2nd Political Science Biology NA NA 0 0 NA
809000 Payte, Alexander Male 21 182 83.5 Protestant 2.23 1st Biology Economics and Finance NA NA 0 0 NA
286216 Tate, Shelby Female 23 159 63.0 Catholic 2.01 1st Biology Economics and Finance NA NA 0 0 NA
373120 Livingston, Sarah Female 44 167 69.0 Catholic 2.51 4th Political Science Environmental Sciences 56 52 0 1 31494.320815455001
797140 Vang, Austin Male 18 183 81.8 Other 3.14 2nd Economics and Finance Social Sciences NA NA 0 0 NA
201130 Cebrun, Linda Female 21 157 62.9 Catholic 2.59 >6th Environmental Sciences Social Sciences 64 75 0 1 32519.224081044998
655450 Meza Ramirez, Maricela Female 20 173 78.1 Protestant 2.08 2nd Political Science Mathematics and Statistics NA NA 0 0 NA
401840 Nicholson, Willow Female 32 171 67.6 Orthodox 1.53 3rd Mathematics and Statistics Economics and Finance 88 93 1 0 NA
358005 Eydi Shahroodi, Erik Male 20 182 77.4 Other 3.82 4th Economics and Finance Political Science 65 63 1 1 42593.260382113003
680483 Truong, Patrick Male 20 169 71.6 Other 3.80 4th Economics and Finance Environmental Sciences 73 73 0 1 60407.317266003003
275470 Vasquez, Timothy Male 22 167 65.9 Other 3.96 3rd Mathematics and Statistics Economics and Finance 89 93 1 0 NA
258961 Warren, Justin Male 23 174 70.7 Orthodox 1.46 1st Economics and Finance Social Sciences NA NA 0 0 NA
495076 Frost, Yuvorn Male 41 194 94.9 Other 1.78 2nd Environmental Sciences Political Science NA NA 0 0 NA
156460 Minor, Alex Male 23 182 82.7 Other 1.22 4th Social Sciences Political Science 38 49 1 0 NA
249571 Arkadie, Houa Female 24 152 64.9 Other 2.73 4th Biology Political Science 75 83 1 0 NA
962284 Iverson, Sierra Female 20 154 63.0 Other 2.30 1st Biology Environmental Sciences NA NA 0 0 NA
870282 Bustamante-Harrison, Sierra Female 24 159 60.6 Catholic 1.88 4th Social Sciences Mathematics and Statistics 42 42 0 0 NA
308092 Treto, Teonna Female 23 153 63.2 Other 3.18 3rd Biology Economics and Finance 76 75 1 0 NA
694127 Gonzales, Brianna Female 20 150 63.3 Other 2.62 2nd Political Science Biology NA NA 0 0 NA
841076 Pacheco, Cydney Female 19 167 72.8 Other 2.73 >6th Biology Political Science 74 81 0 1 49111.427488433997
794058 Castaneda-Amaya, Tyandra Female 25 149 56.2 Catholic 1.02 3rd Economics and Finance Environmental Sciences 76 61 1 0 NA
518947 Garcia, Yamel Female 21 155 62.1 Catholic 1.36 2nd Biology Mathematics and Statistics NA NA 0 0 NA
216224 Ho, Javier Male 22 177 77.5 Protestant 2.17 2nd Economics and Finance Political Science NA NA 0 0 NA
980136 Munoz, Derrick Male 24 180 77.1 Orthodox 1.63 5th Environmental Sciences Political Science 69 68 1 1 33068.848645060003
253731 Castillo, Anastasia Female 24 159 62.2 Other 2.27 6th Environmental Sciences Biology 63 75 1 1 37803.513208607001
416538 Serrano, Shanae Female 19 174 71.1 Catholic 1.42 3rd Biology Environmental Sciences 83 79 1 0 NA
888830 Park, Damien Male 23 174 74.9 Other 2.49 3rd Economics and Finance Social Sciences 71 74 0 0 NA
306032 Lesley, Tiffany Female 21 159 62.4 Protestant 1.76 1st Environmental Sciences Political Science NA NA 0 0 NA
536813 Turner, Savannah Female 19 160 65.3 Orthodox 1.38 4th Biology Environmental Sciences 78 76 0 0 NA
732709 Begay-Watson, Anthony Male 22 169 68.0 Orthodox 3.06 4th Political Science Economics and Finance 53 46 1 0 NA
514389 Picard, Brittney Female 21 166 67.9 Muslim 2.26 5th Environmental Sciences Mathematics and Statistics 72 77 1 1 35191.662764719003
367719 Wilson, Navya Female 21 155 67.5 Other 2.03 3rd Economics and Finance Biology 71 74 1 0 NA
362637 Dinh, Fidel Male 26 178 76.7 Other 2.45 3rd Biology Social Sciences 76 79 0 0 NA
409917 Huddleston, Tina Female 23 162 61.8 Orthodox 1.21 2nd Mathematics and Statistics Economics and Finance NA NA 0 0 NA
977593 Gonzalez, Merissa Female 21 181 79.0 Protestant 1.53 3rd Economics and Finance Biology 65 65 1 0 NA
884302 Norris, Lauren Female 20 168 69.4 Orthodox 2.45 1st Mathematics and Statistics Social Sciences NA NA 0 0 NA
689045 Kim, Eaba Male 20 181 80.0 Other 2.83 2nd Mathematics and Statistics Environmental Sciences NA NA 0 0 NA
706060 Miranda Quintero, Olivia Female 20 158 60.6 Orthodox 1.46 4th Social Sciences Biology 43 52 1 0 NA
168184 Briseno, Davie Male 23 177 79.4 Muslim 2.02 4th Mathematics and Statistics Social Sciences 93 87 1 1 39342.522668919002
890431 Garcia, Kush Male 18 169 73.8 Catholic 1.41 5th Mathematics and Statistics Social Sciences 78 90 1 0 NA
345772 Chandramouli, Nelson Male 19 176 76.4 Orthodox 2.56 2nd Environmental Sciences Political Science NA NA 0 0 NA
167649 Edwards, Linh Female 21 166 64.3 Protestant 1.99 1st Biology Economics and Finance NA NA 0 0 NA
372924 Cook, Macallyson Female 23 173 71.6 Protestant 1.41 3rd Biology Political Science 80 79 1 0 NA

Εδώ, όπως βλέπει κι ο αναγνώστης, δεν μας δίνονται οι συχνότητες πχ των αγοριών ή των κοριτσιών. Έχουμε μια λίστα με φοιτητές κι από δίπλα τα προσωπικά, βιολογία και ακαδημαϊκά χαρακτηριστικά του καθενός.

Ας υποθέσουμε, λοιπόν, ότι θέλουμε να εξετάσουμε αν το φύλο και η θρησκεία είναι ανεξάρτητες μεταβλητές. Δηλαδή η γνώση του θρησκεύματος ενός φοιτητή δίνει κάποιες πληροφορίες για το αν αυτός είναι αγόρι ή μήπως όχι; Ή η γνώση του φύλου του φοιτητή κάνει πιο πιθανό είναι αυτός π.χ. μουσουλμάνος;

Γράφουμε:

chisq.test(students$gender, students$religion)
## 
##  Pearson's Chi-squared test
## 
## data:  students$gender and students$religion
## X-squared = 6.3987, df = 4, p-value = 0.1713

Βρίσκουμε ότι η p-τιμή είναι 0.1713, δηλαδή μεγαλύτερη από το 0.05 που διαλέγουμε συνήθως ως επίπεδο σημαντικότητας. Επομένως δεν μπορούμε να απορρίψουμε τη μηδενική υπόθεση.

Βλέπουμε δηλαδή ότι η ανεξαρτησία των μεταβλητών «φύλο» και «θρησκεία» δεν μπορεί να απορριφθεί, αν θέλουμε να είμαστε αρκετά αυστηροί. Η p-τιμή που βρήκαμε δείχνει ότι τέτοια δείγματα σαν αυτό που διαχειριζόμαστε τώρα είναι κα΄τα 17.13% πιθανό να επιλεγούν στην περίπτωση που το φύλο και η θρησκεία ήταν ανεξάρτητα. Δηλαδή δεν μιλάμε για κάτι τόσο απίθανο να συμβεί, που να μας κάνει να παραδεχτούμε ότι κάτι άλλο πέραν της τύχης συμβαίνει.

Συνολικά χρησιμοποιήσαμε τον παρακάτω κώδικα:

chisq.test(students$gender, students$religion)