Κανονική κατανομή σύμφωνα με τη δοκιμή Pearson. Έλεγχος απλών υποθέσεων χρησιμοποιώντας το Pearson chi-square test στο MS EXCEL

Πρόγραμμα Kerish Doctor. 15.04.2019
Επισκόπηση προγράμματος Η έκδοση υπολογιστή του Microsoft Excel Viewer θα επιτρέψει...

Chercher Οικιακές συσκευές

Η εργαστηριακή εργασία εκτελείται στο Excel 2007.

Σκοπός της εργασίας είναι η παροχή δεξιοτήτων στην πρωτογενή επεξεργασία δεδομένων, την κατασκευή ιστογραμμάτων, την επιλογή κατάλληλου νόμου κατανομής και τον υπολογισμό των παραμέτρων του, τον έλεγχο της συμφωνίας μεταξύ του εμπειρικού και του υποθετικού νόμου κατανομής χρησιμοποιώντας το Pearson chi-square test χρησιμοποιώντας Excel.

1. Σχηματισμός δείγματος κανονικής κατανομής τυχαίους αριθμούςμε δεδομένες τιμές μαθηματική προσδοκίακαι τυπική απόκλιση.

Δεδομένα → Ανάλυση δεδομένων → Δημιουργία τυχαίων αριθμών → ΟΚ.

Ρύζι. 1. Πλαίσιο διαλόγου Ανάλυση Δεδομένων

Στο παράθυρο που εμφανίζεται Δημιουργία τυχαίων αριθμώνεισάγω:

Αριθμός μεταβλητών: 1 ;

Αριθμός τυχαίων αριθμών: 100 ;

Διανομή: Κανονικός.

Παράμετροι:

Μέσος όρος = 15 (μαθηματική προσδοκία).

Τυπική Απόκλιση = 2 (τυπική απόκλιση)

Τυχαία διασπορά: μη συμπληρώσετεσυμπληρώστε σύμφωνα με τις οδηγίες του δασκάλου);

Διάστημα εξόδου: διεύθυνση του πρώτου κελιού της στήλης του πίνακα τυχαίων αριθμών - $ ΕΝΑ$1 . ΕΝΤΑΞΕΙ.

Ρύζι. 2. Πλαίσιο διαλόγου Δημιουργία τυχαίων αριθμώνμε συμπληρωμένα πεδία εισαγωγής

Ως αποτέλεσμα της επέμβασης Δημιουργία τυχαίων αριθμώνθα εμφανιστεί μια στήλη $ ΕΝΑ$1: $A $100που περιέχει 100 τυχαίους αριθμούς.

Ρύζι. 3. Τμήμα ενός φύλλου Excel με τους πρώτους τυχαίους αριθμούς $A$1: $A$100.

2. Προσδιορισμός παραμέτρων δειγματοληψίας, περιγραφική στατιστική

Από το κύριο μενού του Excel, επιλέξτε: Δεδομένα → Ανάλυση Δεδομένων → Περιγραφικά Στατιστικά → ΟΚ.

Στο παράθυρο που εμφανίζεται Περιγραφική Στατιστικήεισάγω:

Διάστημα εισαγωγής– 100 τυχαίοι αριθμοί σε κελιά $ ΕΝΑ$1: $ ΕΝΑ$100 ;

Ομαδοποίηση- κατά στήλες.

Διάστημα εξόδου– διεύθυνση του κελιού από το οποίο ξεκινά ο πίνακας Περιγραφική Στατιστική - $ντο$1 ;

Συνοπτικά στατιστικά στοιχεία– επιλέξτε το πλαίσιο. ΕΝΤΑΞΕΙ.

Ρύζι. 4. Πλαίσιο διαλόγου Περιγραφική Στατιστικήμε συμπληρωμένα πεδία εισαγωγής.

Θα εμφανιστεί ένας πίνακας στο φύλλο Excel - Στήλη 1

Ρύζι. 5. Πίνακας Στήλη 1με δεδομένα διαδικασίας Περιγραφική Στατιστική.

Ο πίνακας περιέχει περιγραφικά στατιστικά στοιχεία, ιδίως:

Μέσος– εκτίμηση της μαθηματικής προσδοκίας.

Τυπική απόκλιση– εκτίμηση της τυπικής απόκλισης.

ΥπέρβασηΚαι Ασυμμετρία– εκτιμήσεις κύρτωσης και ασυμμετρίας.

Η κατά προσέγγιση ισότητα της κύρτωσης και της λοξότητας εκτιμάται στο μηδέν και η κατά προσέγγιση ισότητα της μέσης εκτίμησης με τη διάμεση εκτίμηση δίνει προκαταρκτικούς λόγους επιλογήςH 0 Η κατανομή των στοιχείων του γενικού πληθυσμού είναι ένας κανονικός νόμος.

Διάστημα– εύρος δειγμάτων·

Ελάχιστο– την ελάχιστη τιμή της τυχαίας μεταβλητής στο δείγμα·

Ανώτατο όριομέγιστη αξίατυχαία μεταβλητή στο δείγμα.

Σε ένα κελί φά15 - μήκος μερικού διαστήματος η, υπολογίζεται ως εξής:

Αριθμός διαστημάτων ομαδοποίησης κ στο Excel υπολογίζεται αυτόματα χρησιμοποιώντας τον τύπο

όπου οι παρενθέσεις σημαίνουν στρογγυλοποίηση προς τα κάτω στο ακέραιο μέρος του αριθμού.

Στην υπό εξέταση παραλλαγή n = 100 , ως εκ τούτου, κ = 11 . Πραγματικά:

Αυτός ο τύπος εισάγεται στο κελί φά15: =($D$13-$D$12)/10

Αποτελέσματα της διαδικασίας Περιγραφική Στατιστικήθα απαιτηθεί αργότερα κατά την κατασκευή ενός θεωρητικού νόμου κατανομής.

Η συνάρτηση PEARSON (πληκτρολογήστε PEARSON στα αγγλικά) έχει σχεδιαστεί για τον υπολογισμό του συντελεστή συσχέτισης Pearson r. Αυτή η συνάρτηση χρησιμοποιείται στην εργασία όταν είναι απαραίτητο να αντικατοπτρίζεται ο βαθμός γραμμική εξάρτησημεταξύ δύο συνόλων δεδομένων. Υπάρχουν πολλές συναρτήσεις στο Excel που μπορούν να χρησιμοποιηθούν για να ληφθεί το ίδιο αποτέλεσμα, αλλά η ευελιξία και η απλότητα της συνάρτησης Pearson την καθιστούν επιλογή.

Πώς λειτουργεί η συνάρτηση PEARSON στο Excel;

Ας δούμε ένα παράδειγμα υπολογισμού της συσχέτισης Pearson μεταξύ δύο συνόλων δεδομένων χρησιμοποιώντας τη συνάρτηση PEARSON στο MS EXCEL. Η πρώτη συστοιχία αντιπροσωπεύει τις τιμές θερμοκρασίας, η δεύτερη είναι η πίεση σε μια ορισμένη καλοκαιρινή περίοδο. Ένα παράδειγμα συμπληρωμένου πίνακα φαίνεται στο σχήμα:

Η εργασία έχει ως εξής: είναι απαραίτητο να προσδιοριστεί η σχέση μεταξύ θερμοκρασίας και πίεσης για τον μήνα Ιούνιο.

Ένα παράδειγμα λύσης με τη συνάρτηση PEARSON όταν αναλύεται στο Excel


Αυτός ο δείκτης -0,14 σύμφωνα με τον Pearson, ο οποίος επιστράφηκε από τη συνάρτηση, δείχνει μια δυσμενή σχέση μεταξύ θερμοκρασίας και πίεσης τις πρώτες πρωινές ώρες της ημέρας.



Οδηγίες λειτουργίας PEARSON βήμα προς βήμα

Ο συντελεστής συσχέτισης είναι ο πιο βολικός δείκτης για την ενδεχόμενη ύπαρξη ποσοτικών χαρακτηριστικών.

Εργασία: Προσδιορίστε τον γραμμικό συντελεστή συσχέτισης Pearson.

Παράδειγμα λύσης:

Έτσι, σύμφωνα με το αποτέλεσμα του υπολογισμού, το στατιστικό συμπέρασμα του πειράματος αποκάλυψε αρνητική σχέση μεταξύ της ηλικίας και του αριθμού των τσιγάρων που καπνίζονται την ημέρα.

Ανάλυση συσχέτισης Pearson στο Excel

Εργασία: Δόθηκαν στους μαθητές τεστ οπτικής και λεκτικής σκέψης. Ο μέσος χρόνος για την επίλυση δοκιμαστικών εργασιών μετρήθηκε σε δευτερόλεπτα. Ο ψυχολόγος ενδιαφέρεται για το ερώτημα: υπάρχει σχέση μεταξύ του χρόνου που απαιτείται για την επίλυση αυτών των προβλημάτων;

Παράδειγμα λύσης: ας παρουσιάσουμε τα αρχικά δεδομένα σε μορφή πίνακα:


Ερμηνεία του αποτελέσματος του υπολογισμού Pearson

Η τιμή του συντελεστή γραμμικής συσχέτισης Pearson δεν μπορεί να υπερβαίνει το +1 και να είναι μικρότερη από -1. Αυτοί οι δύο αριθμοί +1 και -1 είναι τα όρια του συντελεστή συσχέτισης. Όταν ο υπολογισμός καταλήγει σε τιμή μεγαλύτερη από +1 ή μικρότερη από -1, επομένως, έχει προκύψει σφάλμα στους υπολογισμούς.

Εάν ο συντελεστής συσχέτισης στο μέτρο αποδειχθεί ότι είναι κοντά στο 1, τότε αυτό αντιστοιχεί υψηλό επίπεδοσυνδέσεις μεταξύ μεταβλητών.

Εάν ληφθεί το σύμβολο μείον, τότε μεγαλύτερη αξίαΈνα χαρακτηριστικό αντιστοιχεί σε μικρότερη τιμή ενός άλλου. Με άλλα λόγια, εάν υπάρχει πρόσημο μείον, μια αύξηση σε μια μεταβλητή (πρόσημο, τιμή) αντιστοιχεί σε μείωση σε μια άλλη μεταβλητή. Αυτή η εξάρτηση ονομάζεται αντιστρόφως ανάλογη εξάρτηση. Είναι πολύ σημαντικό να κατανοήσουμε με σαφήνεια αυτές τις διατάξεις για τη σωστή ερμηνεία της προκύπτουσας εξάρτησης συσχέτισης.

Το πλάτος του διαστήματος θα είναι:

Xmax είναι η μέγιστη τιμή του χαρακτηριστικού ομαδοποίησης στο σύνολο.
Xmin είναι η ελάχιστη τιμή του χαρακτηριστικού ομαδοποίησης.
Ας ορίσουμε τα όρια της ομάδας.

Αριθμός ομάδαςΚατώτερο όριοΑνώτατο όριο
1 43 45.83
2 45.83 48.66
3 48.66 51.49
4 51.49 54.32
5 54.32 57.15
6 57.15 60

Η ίδια τιμή χαρακτηριστικού χρησιμεύει ως τα άνω και κάτω όρια δύο γειτονικών (προηγούμενων και επόμενων) ομάδων.
Για κάθε τιμή της σειράς, μετράμε πόσες φορές εμπίπτει σε ένα συγκεκριμένο διάστημα. Για να γίνει αυτό, ταξινομούμε τη σειρά σε αύξουσα σειρά.
43 43 - 45.83 1
48.5 45.83 - 48.66 1
49 48.66 - 51.49 1
49 48.66 - 51.49 2
49.5 48.66 - 51.49 3
50 48.66 - 51.49 4
50 48.66 - 51.49 5
50.5 48.66 - 51.49 6
51.5 51.49 - 54.32 1
51.5 51.49 - 54.32 2
52 51.49 - 54.32 3
52 51.49 - 54.32 4
52 51.49 - 54.32 5
52 51.49 - 54.32 6
52 51.49 - 54.32 7
52 51.49 - 54.32 8
52 51.49 - 54.32 9
52.5 51.49 - 54.32 10
52.5 51.49 - 54.32 11
53 51.49 - 54.32 12
53 51.49 - 54.32 13
53 51.49 - 54.32 14
53.5 51.49 - 54.32 15
54 51.49 - 54.32 16
54 51.49 - 54.32 17
54 51.49 - 54.32 18
54.5 54.32 - 57.15 1
54.5 54.32 - 57.15 2
55.5 54.32 - 57.15 3
57 54.32 - 57.15 4
57.5 57.15 - 59.98 1
57.5 57.15 - 59.98 2
58 57.15 - 59.98 3
58 57.15 - 59.98 4
58.5 57.15 - 59.98 5
60 57.15 - 59.98 6

Θα παρουσιάσουμε τα αποτελέσματα της ομαδοποίησης με τη μορφή πίνακα:
ΟμάδεςΣυλλογή αρ.Συχνότητα f εγώ
43 - 45.83 1 1
45.83 - 48.66 2 1
48.66 - 51.49 3,4,5,6,7,8 6
51.49 - 54.32 9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26 18
54.32 - 57.15 27,28,29,30 4
57.15 - 59.98 31,32,33,34,35,36 6

Πίνακας υπολογισμού δεικτών.
Ομάδεςx iΠοσότητα, f ix i * f iΣυσσωρευμένη συχνότητα, S|x - x av |*f(x - x μέσος όρος) 2 *στΣυχνότητα, f i /n
43 - 45.83 44.42 1 44.42 1 8.88 78.91 0.0278
45.83 - 48.66 47.25 1 47.25 2 6.05 36.64 0.0278
48.66 - 51.49 50.08 6 300.45 8 19.34 62.33 0.17
51.49 - 54.32 52.91 18 952.29 26 7.07 2.78 0.5
54.32 - 57.15 55.74 4 222.94 30 9.75 23.75 0.11
57.15 - 59.98 58.57 6 351.39 36 31.6 166.44 0.17
36 1918.73 82.7 370.86 1

Για να αξιολογήσουμε τη σειρά διανομής, βρίσκουμε τους ακόλουθους δείκτες:
Ενδείξεις κέντρου διανομής.
Ζυγισμένος μέσος όρος


Μόδα
Η λειτουργία είναι η πιο κοινή τιμή ενός χαρακτηριστικού μεταξύ των μονάδων ενός δεδομένου πληθυσμού.

όπου x 0 είναι η αρχή του τροπικού διαστήματος. h – τιμή διαστήματος. f 2 – συχνότητα που αντιστοιχεί στο τροπικό διάστημα. f 1 – προτροπική συχνότητα. f 3 – μετατροπική συχνότητα.
Επιλέγουμε το 51,49 ως αρχή του διαστήματος, καθώς αυτό το διάστημα είναι που αντιστοιχεί στον μεγαλύτερο αριθμό.

Η πιο κοινή τιμή της σειράς είναι 52,8
Διάμεσος
Η διάμεσος χωρίζει το δείγμα σε δύο μέρη: το μισό είναι μικρότερο από το διάμεσο, το μισό είναι περισσότερο.
Σε μια σειρά διανομής διαστήματος, μπορείτε να καθορίσετε αμέσως μόνο το διάστημα στο οποίο θα βρίσκεται ο τρόπος λειτουργίας ή η διάμεσος. Η διάμεσος αντιστοιχεί στην επιλογή στη μέση της σειράς κατάταξης. Η διάμεσος είναι το διάστημα 51,49 - 54,32, επειδή σε αυτό το διάστημα, η συσσωρευμένη συχνότητα S είναι μεγαλύτερη από τον διάμεσο αριθμό (η διάμεσος είναι το πρώτο διάστημα, η συσσωρευμένη συχνότητα S του οποίου υπερβαίνει το μισό συνολικό ποσόσυχνότητες).


Έτσι, το 50% των μονάδων στον πληθυσμό θα είναι μικρότερο σε μέγεθος από 53,06
Δείκτες διακύμανσης.
Απόλυτες παραλλαγές.
Το εύρος διακύμανσης είναι η διαφορά μεταξύ του μέγιστου και ελάχιστες τιμέςσημάδι της κύριας σειράς.
R = X max - X min
R = 60 - 43 = 17
Μέση γραμμική απόκλιση- υπολογίζεται προκειμένου να ληφθούν υπόψη οι διαφορές όλων των μονάδων του υπό μελέτη πληθυσμού.


Κάθε τιμή της σειράς διαφέρει από την άλλη κατά όχι περισσότερο από 2,3
Διασπορά- χαρακτηρίζει το μέτρο της διασποράς γύρω από τη μέση τιμή του (ένα μέτρο διασποράς, δηλ. απόκλιση από το μέσο όρο).


Αμερόληπτος εκτιμητής διασποράς- συνεπής εκτίμηση της διακύμανσης.


Τυπική απόκλιση.

Κάθε τιμή της σειράς διαφέρει από τη μέση τιμή των 53,3 κατά όχι περισσότερο από 3,21
Εκτίμηση τυπικής απόκλισης.

Σχετικά Μέτρα Μεταβολής.
Οι σχετικοί δείκτες διακύμανσης περιλαμβάνουν: συντελεστή ταλάντωσης, γραμμικό συντελεστή διακύμανσης, σχετική γραμμική απόκλιση.
Συντελεστής διακύμανσης- ένα μέτρο της σχετικής διασποράς των τιμών του πληθυσμού: δείχνει ποια αναλογία της μέσης τιμής αυτής της τιμής είναι η μέση διασπορά της.

Εφόσον v ≤ 30%, ο πληθυσμός είναι ομοιογενής και η διακύμανση είναι ασθενής. Τα αποτελέσματα που λαμβάνονται μπορούν να είναι αξιόπιστα.
Γραμμικός συντελεστής διακύμανσηςή Σχετική γραμμική απόκλιση- χαρακτηρίζει την αναλογία της μέσης τιμής του πρόσημου των απόλυτων αποκλίσεων από τη μέση τιμή.

Έλεγχος υποθέσεων σχετικά με το είδος της κατανομής.
1. Ας ελέγξουμε την υπόθεση ότι το Χ είναι κατανεμημένο κανονικός νόμοςχρησιμοποιώντας το τεστ καλής προσαρμογής Pearson.

όπου p i είναι η πιθανότητα να χτυπήσει i-ο διάστηματυχαία μεταβλητή που κατανέμεται σύμφωνα με έναν υποθετικό νόμο
Για να υπολογίσουμε τις πιθανότητες p i, εφαρμόζουμε τον τύπο και τον πίνακα της συνάρτησης Laplace

Οπου
s = 3,21, xav = 53,3
Η θεωρητική (αναμενόμενη) συχνότητα είναι n i = np i , όπου n = 36
Διαστήματα ομαδοποίησηςΠαρατηρούμενη συχνότητα n ix 1 = (x i - x μέσος όρος)/sx 2 = (x i+1 - x av)/sF(x 1)F(x 2)Πιθανότητα εισόδου στο διάστημα i-ο, p i = Ф(x 2) - Ф(x 1)Αναμενόμενη συχνότητα, 36p iΌροι στατιστικών Pearson, K i
43 - 45.83 1 -3.16 -2.29 -0.5 -0.49 0.01 0.36 1.14
45.83 - 48.66 1 -2.29 -1.42 -0.49 -0.42 0.0657 2.37 0.79
48.66 - 51.49 6 -1.42 -0.56 -0.42 -0.21 0.21 7.61 0.34
51.49 - 54.32 18 -0.56 0.31 -0.21 0.13 0.34 12.16 2.8
54.32 - 57.15 4 0.31 1.18 0.13 0.38 0.26 9.27 3
57.15 - 59.98 6 1.18 2.06 0.38 0.48 0.0973 3.5 1.78
36 9.84

Ας προσδιορίσουμε το όριο της κρίσιμης περιοχής. Εφόσον η στατιστική Pearson μετρά τη διαφορά μεταξύ της εμπειρικής και της θεωρητικής κατανομής, όσο μεγαλύτερη είναι η παρατηρούμενη τιμή K obs, τόσο ισχυρότερο είναι το επιχείρημα κατά της κύριας υπόθεσης.
Επομένως, η κρίσιμη περιοχή για αυτά τα στατιστικά στοιχεία είναι πάντα δεξιόχειρας :)

Συνιστούμε να διαβάσετε

Κορυφή