Οπτικοποίηση δεδομένων R. Μεθοδολογικό εγχειρίδιο "Στατιστική ανάλυση και οπτικοποίηση δεδομένων με χρήση R"

Αυτο 19.06.2020
Επισκόπηση προγράμματος Η έκδοση υπολογιστή του Microsoft Excel Viewer θα επιτρέψει...

Τελευταία φορά (τον Νοέμβριο του 2014, ντρέπομαι πολύ που άργησα τόσο πολύ με τη συνέχεια!) Μίλησα για τις βασικές δυνατότητες της γλώσσας R Παρά την παρουσία όλων των συνηθισμένων δομών ελέγχου, όπως βρόχους και μπλοκ υπό όρους. η κλασική προσέγγιση για την επεξεργασία δεδομένων που βασίζεται σε επανάληψη απέχει πολύ από την καλύτερη λύση, καθώς υπάρχουν βρόχοι στο R ασυνήθιστααργός. Τώρα λοιπόν θα σας πω πώς πραγματικά πρέπει να εργαστείτε με δεδομένα, ώστε η διαδικασία υπολογισμού να μην σας αναγκάσει να πιείτε πάρα πολλά φλιτζάνια καφέ περιμένοντας το αποτέλεσμα. Επιπλέον, θα αφιερώσω λίγο χρόνο για να μιλήσω για τον τρόπο χρήσης σύγχρονων εργαλείων οπτικοποίησης δεδομένων στο R. Επειδή η ευκολία παρουσίασης των αποτελεσμάτων επεξεργασίας δεδομένων στην πράξη δεν είναι λιγότερο σημαντική από τα ίδια τα αποτελέσματα. Ας ξεκινήσουμε με κάτι απλό.

Διανυσματικές πράξεις

Όπως θυμόμαστε, ο βασικός τύπος στο R δεν είναι καθόλου αριθμός, αλλά διάνυσμα και οι βασικές αριθμητικές πράξεις λειτουργούν σε διανύσματα στοιχείο προς στοιχείο:

> x<- 1:6; y <- 11:17 >x + y 12 14 16 18 20 22 18 > x > 2 FALSE FALSE TRUE TRUE TRUE > x * y 11 24 39 56 75 96 17 > x / y 0,09090909 0,1729 0,1706 0,3 3333333 0,37500000 0,05882353

Όλα εδώ είναι αρκετά απλά, αλλά είναι πολύ λογικό να τεθεί το ερώτημα: τι θα συμβεί εάν τα μήκη των διανυσμάτων δεν ταιριάζουν; Αν, ας πούμε, γράψουμε κ<- 2, то будет ли x * k соответствовать умножению вектора на число в математическом смысле? Короткий ответ - да. В более общем случае, когда длина векторов не совпадает, меньший вектор просто продолжается повторением:

>ζ<- c(1, 0.5) >x * z 1 1 3 2 5 3

Η κατάσταση είναι περίπου η ίδια με τους πίνακες.

>χ<- matrix(1:4, 2, 2); y <- matrix(rep(2,4), 2, 2) >x * y [,1] [,2] 2 6 4 8 > x / y [,1] [,2] 0,5 1,5 1,0 2,0

Σε αυτήν την περίπτωση, ο "κανονικός" και όχι ο πολλαπλασιασμός μήτρας θα μοιάζει με αυτό:

> x %*% y [,1] [,2] 8 8 12 12

Όλα αυτά, φυσικά, είναι πολύ καλά, αλλά τι κάνουμε όταν πρέπει να εφαρμόσουμε τις δικές μας συναρτήσεις στα στοιχεία των διανυσμάτων ή των πινάκων, δηλαδή πώς μπορεί να γίνει αυτό χωρίς βρόχο; Η προσέγγιση που χρησιμοποιεί η R για να λύσει αυτό το πρόβλημα είναι πολύ παρόμοια με αυτή που έχουμε συνηθίσει στις λειτουργικές γλώσσες - θυμίζει τη συνάρτηση χάρτη σε Python ή Haskell.

Χρήσιμη λειτουργία lapply και οι φίλοι της

Η πρώτη λειτουργία σε αυτή την οικογένεια είναι το lapply. Σας επιτρέπει να εφαρμόσετε μια δεδομένη συνάρτηση σε κάθε στοιχείο μιας λίστας ή ενός διανύσματος. Επιπλέον, το αποτέλεσμα θα είναι ακριβώς η λίστα, ανεξάρτητα από το είδος του επιχειρήματος. Το απλούστερο παράδειγμα χρήσης συναρτήσεων λάμδα:

>ρ<- lapply(c(1,2,4), function(x) x^2) >q 1 4 16

Εάν η συνάρτηση που θέλετε να εφαρμόσετε σε μια λίστα ή διάνυσμα απαιτεί περισσότερα από ένα ορίσματα, τότε αυτά τα ορίσματα μπορούν να περάσουν μέσω του lapply.

>ρ<- lapply(c(1,2,4), function(x, y) x^2 + y, 3)

Η συνάρτηση λειτουργεί με παρόμοιο τρόπο με μια λίστα:

>χ<- list(a=rnorm(10), b=1:10) >lapply(x, μέσος όρος)

Εδώ, η συνάρτηση rnorm καθορίζει την κανονική κατανομή (σε αυτήν την περίπτωση, δέκα κανονικά κατανεμημένοι αριθμοί που κυμαίνονται από το 0 έως το 1), και ο μέσος όρος υπολογίζει τη μέση τιμή. Η συνάρτηση ρύπανσης είναι ακριβώς η ίδια με τη συνάρτηση lapply εκτός από το ότι επιχειρεί να απλοποιήσει το αποτέλεσμα. Για παράδειγμα, εάν κάθε στοιχείο μιας λίστας έχει μήκος 1, τότε θα επιστραφεί ένα διάνυσμα αντί για μια λίστα:

> sapply(c(1,2,4), function(x) x^2) 1 4 16

Εάν το αποτέλεσμα είναι μια λίστα διανυσμάτων του ίδιου μήκους, τότε η συνάρτηση θα επιστρέψει έναν πίνακα, αλλά αν τίποτα δεν είναι σαφές, τότε απλώς μια λίστα, όπως το lapply.

>χ<- list(1:4, 5:8) >sapply(x, συνάρτηση(x) x^2) [,1] [,2] 1 25 4 36 9 49 16 64

Για να εργαστείτε με πίνακες, είναι βολικό να χρησιμοποιήσετε τη συνάρτηση εφαρμογής:

>χ<- matrix(rnorm(50), 5, 10) >εφαρμογή (x, 2, μέσος όρος) > εφαρμογή (x, 1, άθροισμα)

Εδώ, για αρχή, δημιουργούμε έναν πίνακα πέντε σειρών και δέκα στηλών, στη συνέχεια υπολογίζουμε πρώτα τον μέσο όρο στις στήλες και μετά το άθροισμα στις σειρές. Για να ολοκληρωθεί η εικόνα, πρέπει να σημειωθεί ότι η εργασία υπολογισμού του μέσου όρου και του αθροίσματος των σειρών είναι τόσο συνηθισμένη που το R παρέχει ειδικές συναρτήσεις για το σκοπό αυτό rowSums, rowMeans, colSums και colMeans.
Η συνάρτηση εφαρμογής μπορεί επίσης να χρησιμοποιηθεί για πολυδιάστατους πίνακες:

> αρρ<- array(rnorm(2 * 2 * 10), c(2, 2, 10)) >εφαρμογή (arr, c(1,2), μέσος όρος)

Η τελευταία κλήση μπορεί να αντικατασταθεί με μια πιο ευανάγνωστη επιλογή:

> rowMeans(arr, dim = 2)

Ας προχωρήσουμε στη συνάρτηση mapply, η οποία είναι ένα πολυδιάστατο ανάλογο του lapply. Ας ξεκινήσουμε με ένα απλό παράδειγμα, το οποίο μπορεί να βρεθεί απευθείας στην τυπική τεκμηρίωση R:

> mapply(rep, 1:4, 4:1) 1 1 1 1 2 2 2 3 3 4

Όπως μπορείτε να δείτε, αυτό που συμβαίνει εδώ είναι ότι η συνάρτηση rep εφαρμόζεται σε ένα σύνολο παραμέτρων που δημιουργούνται από δύο ακολουθίες. Η ίδια η συνάρτηση rep απλώς επαναλαμβάνει το πρώτο όρισμα όσες φορές έχει καθοριστεί ως δεύτερο όρισμα. Άρα ο προηγούμενος κώδικας είναι απλώς ισοδύναμος με τον ακόλουθο:

> list(rep(1,4), rep(2,3), rep(3,2), rep(4,1))

Μερικές φορές είναι απαραίτητο να εφαρμοστεί μια συνάρτηση σε κάποιο μέρος ενός πίνακα. Αυτό μπορεί να γίνει χρησιμοποιώντας τη λειτουργία tapply. Ας δούμε το παρακάτω παράδειγμα:

>χ<- c(rnorm(10, 1), runif(10), rnorm(10,2)) >φά<- gl(3,10) >tapply(x,f,mean)

Πρώτα, δημιουργούμε ένα διάνυσμα, τα μέρη του οποίου σχηματίζονται από τυχαίες μεταβλητές με διαφορετικές κατανομές, μετά δημιουργούμε ένα διάνυσμα παραγόντων, που δεν είναι τίποτα περισσότερο από δέκα μονάδες, μετά δέκα δύο και τον ίδιο αριθμό τριών. Στη συνέχεια υπολογίζουμε τον μέσο όρο για τις αντίστοιχες ομάδες. Η λειτουργία tapply από προεπιλογή προσπαθεί να απλοποιήσει το αποτέλεσμα. Αυτή η επιλογή μπορεί να απενεργοποιηθεί ορίζοντας simplify=FALSE ως παράμετρο.

> tapply(x, f, range, simplify=FALSE)

Όταν οι άνθρωποι μιλούν για τις συναρτήσεις εφαρμογής, συνήθως μιλούν επίσης για τη συνάρτηση διαχωρισμού, η οποία χωρίζει ένα διάνυσμα σε κομμάτια, παρόμοια με το tapply . Έτσι, αν καλέσουμε split(x, f) θα πάρουμε μια λίστα με τρία διανύσματα. Έτσι, το ζεύγος lapply/split λειτουργεί το ίδιο με το tapply με την τιμή απλοποίησης που έχει οριστεί σε FALSE:

> lapply(split(x, f), mean)

Η συνάρτηση διαχωρισμού είναι χρήσιμη πέρα ​​από την εργασία με διανύσματα: μπορεί επίσης να χρησιμοποιηθεί για εργασία με πλαίσια δεδομένων. Εξετάστε το ακόλουθο παράδειγμα (το δανείστηκα από το μάθημα R Programming στο Coursera):

> βιβλιοθήκη(σύνολα δεδομένων) > κεφάλι(αεροπορική ποιότητα) Ozone Solar.R Θερμοκρασία ανέμου Μήνας Ημέρα 1 41 190 7,4 67 5 1 2 36 118 8,0 72 5 2 3 12 149 12,6 74 5 3 4 6 18 4 NA. 56 5 5 6 28 NA 14,9 66 5 6 > s<- split(airquality, airquality$Month) >lapply(s, function(x) colMeans(x[, c("Ozone", "Solar.R", "Wind")]))

Εδώ εργαζόμαστε με ένα σύνολο δεδομένων που περιέχει πληροφορίες για τις συνθήκες του αέρα (όζον, ηλιακή ακτινοβολία, άνεμος, θερμοκρασία σε Φαρενάιτ, μήνας και ημέρα). Μπορούμε εύκολα να αναφέρουμε τους μηνιαίους μέσους όρους χρησιμοποιώντας split and lapply όπως φαίνεται στον κώδικα. Η χρήση του sapply, ωστόσο, θα μας δώσει το αποτέλεσμα σε μια πιο βολική μορφή:

> sapply(s, function(x) colMeans(x[, c("Ozone", "Solar.R", "Wind")])) 5 6 7 8 9 Ozone NA NA NA NA NA Solar.R NA 190.16667 216.483871 NA 167.4333 Wind 11.62258 10.26667 8.941935 8.793548 10.1800

Όπως μπορείτε να δείτε, ορισμένες τιμές τιμών δεν ορίζονται (και η δεσμευμένη τιμή NA χρησιμοποιείται για αυτό). Αυτό σημαίνει ότι ορισμένες (τουλάχιστον μία) τιμές στις στήλες Ozone και Solar.R ήταν επίσης απροσδιόριστες. Υπό αυτή την έννοια, η συνάρτηση colMeans συμπεριφέρεται εντελώς σωστά: εάν υπάρχουν απροσδιόριστες τιμές, τότε ο μέσος όρος είναι απροσδιόριστος. Το πρόβλημα μπορεί να λυθεί αναγκάζοντας τη συνάρτηση να αγνοήσει τις τιμές NA χρησιμοποιώντας την παράμετρο na.rm=TRUE:

> sapply(s, function(x) colMeans(x[, c("Ozone", "Solar.R", "Wind")], na.rm=TRUE)) 5 6 7 8 9 Ozone 23.61538 29.44444 59.115385 538.9315. Solar.R 181.29630 190.16667 216.483871 171.857143 167.43333 Wind 11.62258 10.26667 8.941935 8.7935148 010

Γιατί χρειάζεστε τόσες πολλές λειτουργίες για να λύσετε παρόμοια προβλήματα; Νομίζω ότι αυτή την ερώτηση θα την κάνει κάθε δεύτερος που τα έχει διαβάσει όλα αυτά. Όλες αυτές οι συναρτήσεις στην πραγματικότητα προσπαθούν να λύσουν το πρόβλημα της επεξεργασίας διανυσματικών δεδομένων χωρίς τη χρήση βρόχων. Αλλά είναι άλλο πράγμα να επιτυγχάνεις υψηλή ταχύτητα επεξεργασίας δεδομένων και άλλο να αποκτάς τουλάχιστον λίγη από την ευελιξία και τον έλεγχο που παρέχουν οι δομές ελέγχου, όπως οι βρόχοι και οι δηλώσεις υπό όρους.

Οπτικοποίηση δεδομένων

Το σύστημα R είναι απίστευτα πλούσιο σε εργαλεία οπτικοποίησης δεδομένων. Και εδώ βρίσκομαι μπροστά σε μια δύσκολη επιλογή - για τι να μιλήσω αν η περιοχή είναι τόσο μεγάλη. Εάν στην περίπτωση του προγραμματισμού υπάρχει κάποιο βασικό σύνολο λειτουργιών, χωρίς τις οποίες δεν μπορεί να γίνει τίποτα, τότε στην οπτικοποίηση υπάρχει ένας τεράστιος αριθμός διαφορετικών εργασιών και καθεμία από αυτές (κατά κανόνα) μπορεί να λυθεί με διάφορους τρόπους, καθένας από τους που έχει τα δικά του θετικά και αρνητικά. Επιπλέον, υπάρχουν πάντα πολλές επιλογές και πακέτα που σας επιτρέπουν να λύσετε αυτά τα προβλήματα με διαφορετικούς τρόπους.
Πολλά έχουν γραφτεί για τα τυπικά εργαλεία οπτικοποίησης στο R, οπότε εδώ θα ήθελα να μιλήσω για κάτι πιο ενδιαφέρον. Τα τελευταία χρόνια, το πακέτο έχει γίνει όλο και πιο δημοφιλές ggplot2, οπότε ας μιλήσουμε για αυτόν.

Για να ξεκινήσετε να εργάζεστε με το ggplot2, πρέπει να εγκαταστήσετε τη βιβλιοθήκη χρησιμοποιώντας την εντολή install.package("ggplot2"). Στη συνέχεια, το συνδέουμε για χρήση:

> βιβλιοθήκη("ggplot2") > κεφαλή (διαμάντια) διαφάνεια χρώματος σε καράτια πίνακας βάθους τιμή x y z 1 0,23 Ideal E SI2 61,5 55 326 3,95 3,98 2,43 2 0,21 Premium E SI1 53290 .231 Καλό E VS1 56. 9 65 327 4,05 4,07 2,31 4 0,29 Premium I VS2 62,4 58 334 4,20 4,23 2,63 5 0,31 Καλό J SI2 63,3 58 335 4,34 22S 4,34 Καλό 57 336 3,9 4 3,96 2,48 > head(mtcars) mpg cyl disp hp drat wt qsec vs am gear carb Mazda RX4 21,0 6 160 110 3,90 2,620 16,46 0 1 4 4 Mazda RX4 Wag 21,0 6 160 110 3,90 2,825 201 08 93 3,85 2. 320 18,61 1 1 4 1 Hornet 4 Drive 21,4 6 258 110 3,08 3,215 19,44 1 0 3 1 Hornet Sportabout 18,7 8 360 175 3,15 3,440 17,02 0 0 3 2 Valiant 18,1 2206 0 3 1

Τα δεδομένα των διαμαντιών και του mtcars αποτελούν μέρος του πακέτου ggplot2 και με αυτά θα εργαστούμε τώρα. Με το πρώτο, όλα είναι ξεκάθαρα - αυτά είναι δεδομένα για τα διαμάντια (διαύγεια, χρώμα, κόστος κ.λπ.), και το δεύτερο σύνολο είναι δεδομένα από δοκιμές στο δρόμο (αριθμός μιλίων ανά γαλόνι, αριθμός κυλίνδρων...) των παραγόμενων αυτοκινήτων το 1973–1974 από το αμερικανικό περιοδικό Motor Trends. Περισσότερες λεπτομερείς πληροφορίες σχετικά με τα δεδομένα (για παράδειγμα, διαστάσεις) μπορούν να ληφθούν πληκτρολογώντας ?diamonds ή ?mtcars .

Για οπτικοποίηση, το πακέτο παρέχει πολλές λειτουργίες, από τις οποίες το qplot θα είναι η πιο σημαντική για εμάς τώρα. Η συνάρτηση ggplot σάς δίνει πολύ περισσότερο έλεγχο στη διαδικασία. Οτιδήποτε μπορεί να γίνει με το qplot μπορεί να γίνει και με το ggplot. Ας το δούμε αυτό με ένα απλό παράδειγμα:

> qplot(διαύγεια, δεδομένα=διαμάντια, fill=cut, geom="bar")

Το ίδιο αποτέλεσμα μπορεί να επιτευχθεί με τη συνάρτηση ggplot:

> ggplot(diamonds, aes(clarity, fill=cut)) + geom_bar()

Ωστόσο, η κλήση του qplot φαίνεται πιο απλή. Στο Σχ. 1 μπορείτε να δείτε πώς σχεδιάζεται η εξάρτηση του αριθμού των διαμαντιών με διαφορετικές ιδιότητες κοπής από τη διαύγεια.

Τώρα ας σχεδιάσουμε την εξάρτηση των χιλιομέτρων ανά μονάδα καυσίμου των αυτοκινήτων από τη μάζα τους. Το προκύπτον διάγραμμα διασποράς (ή διάγραμμα διασποράς διασκορπίζω οικόπεδο) παρουσιάζονται
στο Σχ. 2.

> qplot(wt, mpg, data=mtcars)

Μπορείτε επίσης να προσθέσετε έγχρωμη εμφάνιση του χρόνου επιτάχυνσης του τέταρτου μιλίου (qsec):

> qplot(wt, mpg, data=mtcars, color=qsec)

Κατά την οπτικοποίηση, μπορείτε επίσης να μετατρέψετε δεδομένα:

> qplot(log(wt), mpg - 10, data=mtcars)

Σε ορισμένες περιπτώσεις, οι διακριτές χρωματικές διαιρέσεις εμφανίζονται πιο αντιπροσωπευτικές από τις συνεχείς. Για παράδειγμα, εάν θέλουμε να εμφανίσουμε έγχρωμες πληροφορίες σχετικά με τον αριθμό των κυλίνδρων αντί για τον χρόνο επιτάχυνσης, τότε πρέπει να υποδείξουμε ότι η τιμή είναι διακριτή στη φύση (Εικ. 3):

> qplot(wt, mpg, data=mtcars, color=factor(cyl))

Μπορείτε επίσης να αλλάξετε το μέγεθος των σημείων χρησιμοποιώντας, για παράδειγμα, size=3 . Εάν πρόκειται να εκτυπώσετε γραφήματα σε έναν ασπρόμαυρο εκτυπωτή, τότε είναι προτιμότερο να μην χρησιμοποιείτε χρώματα, αλλά να αλλάζετε το σχήμα του δείκτη ανάλογα με τον παράγοντα. Αυτό μπορεί να γίνει αντικαθιστώντας color=factor(cyl) με shape=factor(cyl) .
Ο τύπος γραφήματος καθορίζεται χρησιμοποιώντας την παράμετρο geom και στην περίπτωση διαγραμμάτων διασποράς, η τιμή αυτής της παραμέτρου είναι "σημεία" .

Τώρα ας υποθέσουμε ότι θέλουμε απλώς να δημιουργήσουμε ένα ιστόγραμμα του αριθμού των αυτοκινήτων με την αντίστοιχη τιμή κυλίνδρου:

> qplot(factor(cyl), data=mtcars, geom="bar") > qplot(factor(cyl), data=mtcars, geom="bar", color=factor(cyl)) > qplot(factor(cyl) , data=mtcars, geom="bar", fill=factor(cyl))

Η πρώτη κλήση σχεδιάζει απλώς τρία ιστογράμματα για διαφορετικές τιμές κυλίνδρων. Πρέπει να ειπωθεί ότι η πρώτη προσπάθεια προσθήκης χρώματος στο ιστόγραμμα δεν θα οδηγήσει στο αναμενόμενο αποτέλεσμα - οι μαύρες γραμμές θα εξακολουθούν να είναι μαύρες, αλλά θα έχουν μόνο ένα έγχρωμο περίγραμμα. Αλλά η τελευταία κλήση στο qplot θα δημιουργήσει ένα όμορφο ιστόγραμμα, όπως φαίνεται στην Εικ. 4.

Εδώ θα πρέπει να είμαστε ξεκάθαροι. Γεγονός είναι ότι το τρέχον αντικείμενο που κατασκευάσαμε δεν είναι ιστόγραμμα με την αυστηρή έννοια της λέξης. Συνήθως, ένα ιστόγραμμα είναι μια παρόμοια εμφάνιση για συνεχή δεδομένα. Στα αγγλικά ραβδόγραμμα(αυτό μόλις κάναμε) και ιστόγραμμα- πρόκειται για δύο διαφορετικές έννοιες (δείτε τα αντίστοιχα άρθρα στη Wikipedia). Εδώ θα χρησιμοποιήσω, με λίγη βαρύτητα, τη λέξη «ιστόγραμμα» και για τις δύο έννοιες, πιστεύοντας ότι η ίδια η φύση των δεδομένων μιλάει από μόνη της.

Αν επιστρέψουμε στο Σχ. 1, στη συνέχεια το ggplot2 παρέχει πολλές χρήσιμες επιλογές για την τοποθέτηση γραφικών παραστάσεων (η προεπιλογή είναι position="stack"):

> qplot(clarity, data=diamonds, geom="bar", fill=cut, position="dodge") > qplot(clarity, data=diamonds, geom="bar", fill=cut, position="fill") > qplot(διαύγεια, δεδομένα=διαμάντια, geom="bar", fill=cut, position="ταυτότητα")

Η πρώτη από τις προτεινόμενες επιλογές δημιουργεί διαγράμματα δίπλα-δίπλα, όπως φαίνεται στο Σχ. 5, το δεύτερο δείχνει τα μερίδια διαμαντιών διαφορετικών ποιοτήτων κοπής στον συνολικό αριθμό διαμαντιών δεδομένης καθαρότητας (Εικ. 6).

Τώρα ας δούμε ένα παράδειγμα πραγματικού ιστογράμματος:

> qplot(carat, data=diamonds, geom="histogram", bandwidth=0.1) > qplot(carat, data=diamonds, geom="histogram", bandwidth=0.05)

Εδώ η παράμετρος εύρος ζώνης δείχνει ακριβώς πόσο ευρεία είναι η ζώνη στο ιστόγραμμα. Ένα ιστόγραμμα δείχνει πόσα δεδομένα βρίσκονται σε ποιο εύρος. Τα αποτελέσματα παρουσιάζονται στο Σχ. 7 και 8.

Μερικές φορές όταν χρειάζεται να σχεδιάσουμε ένα μοντέλο (γραμμικό ή ας πούμε πολυώνυμο), μπορούμε να το κάνουμε απευθείας σε qplot και να δούμε το αποτέλεσμα. Για παράδειγμα, μπορούμε να σχεδιάσουμε τα mpg έναντι της μάζας wt απευθείας πάνω από το διάγραμμα διασποράς:

> qplot(wt, mpg, data=mtcars, geom=c("point", "smooth"))

Από προεπιλογή, η τοπική πολυωνυμική παλινδρόμηση (method="loess") θα χρησιμοποιηθεί ως μοντέλο. Το αποτέλεσμα της εργασίας θα φαίνεται όπως φαίνεται στο Σχ. 9, όπου η σκούρα γκρι γραμμή είναι το τυπικό σφάλμα. Εμφανίζεται από προεπιλογή, μπορείτε να το απενεργοποιήσετε γράφοντας se=FALSE .

Εάν θέλουμε να προσπαθήσουμε να προσαρμόσουμε ένα γραμμικό μοντέλο σε αυτά τα δεδομένα, τότε αυτό μπορεί να γίνει προσδιορίζοντας απλώς τη μέθοδο=lm (Εικ. 10).

Και τέλος, φυσικά, πρέπει να δείξουμε πώς να δημιουργήσουμε γραφήματα πίτας:

>t<- ggplot(mtcars, aes(x=factor(1), fill=factor(cyl))) + geom_bar(width=1) >t + coord_polar(theta="y")

Εδώ θα χρησιμοποιήσουμε την πιο ευέλικτη συνάρτηση ggplot. Λειτουργεί ως εξής: πρώτα κατασκευάζουμε ένα γράφημα που δείχνει τα μερίδια των αυτοκινήτων με διαφορετικούς αριθμούς κυλίνδρων στη συνολική μάζα (Εικ. 11), μετά μετατρέπουμε το γράφημα σε πολικές συντεταγμένες (Εικ. 12).

Αντί για συμπέρασμα

Τώρα νιώθουμε άνετα χρησιμοποιώντας το R. Τι ακολουθεί; Είναι σαφές ότι εδώ δίνονται οι πιο βασικές δυνατότητες του ggplot2 και συζητούνται θέματα που σχετίζονται με τη διανυσματοποίηση. Υπάρχουν πολλά καλά βιβλία για το R που αξίζει να αναφερθούν, και σίγουρα αξίζει να τα συμβουλεύεστε συχνότερα από τις υπηρεσίες μιας εταιρείας πολύ παρεμβατικής καλοσύνης. Πρώτον, αυτό είναι το βιβλίο του Norman Matloff (Norman Matloff) The Art of R Programming. Εάν έχετε ήδη εμπειρία στον προγραμματισμό στο R, τότε το The R Inferno, γραμμένο από τον P. Burns, θα σας φανεί χρήσιμο. Το κλασικό βιβλίο Software for Data Analysis του John Chambers είναι επίσης αρκετά κατάλληλο.

Αν μιλάμε για οπτικοποίηση στο R, τότε υπάρχει ένα καλό βιβλίο R Graphics Cookbook από τον W. Chang (Winston Chang). Τα παραδείγματα για το ggplot2 σε αυτό το άρθρο ελήφθησαν από το Εκμάθηση: ggplot2. Τα λέμε στο επόμενο άρθρο: Ανάλυση δεδομένων και μηχανική μάθηση στο R!

Το blog "R: Data Analysis and Visualization" υπάρχει για περισσότερα από τρεισήμισι χρόνια. Πριν από λίγους μήνες, γεννήθηκε η ιδέα να συνοψίσουμε τα μεθοδολογικά μηνύματα που δημοσιεύτηκαν εδώ όλο αυτό το διάστημα με τη μορφή ενός ηλεκτρονικού βιβλίου. Ο συγγραφέας της ιδέας, και στη συνέχεια ο συν-συγγραφέας του βιβλίου, ήταν ο Διδάκτωρ Βιολογικών Επιστημών Vladimir Kirillovich Shitikov (). Είμαστε στην ευχάριστη θέση να σας παρουσιάσουμε το αποτέλεσμα ως πρωτοχρονιάτικο δώρο μας.


Μεθοδικό εγχειρίδιο " Στατιστική ανάλυση και οπτικοποίηση δεδομένων με χρήση του R«απευθύνεται κυρίως σε φοιτητές, μεταπτυχιακούς φοιτητές, νέους και καταξιωμένους επιστήμονες, καθώς και επαγγελματίες αναλυτές που δεν είχαν προηγουμένως εμπειρία συνεργασίας με τον R. Ακολουθώντας τις παραδόσεις του ιστολογίου, προσπαθήσαμε, ει δυνατόν, να αποφύγουμε την κατάχρηση του «τελετουργικού φράσεις χαρακτηριστικές πολλών εγχειριδίων σχετικά με την εφαρμοσμένη στατιστική, παραθέτοντας γνωστά θεωρήματα και παρουσιάζοντας τύπους υπολογισμού πολλαπλών επιπέδων, η έμφαση δόθηκε, πρώτα απ 'όλα, στην πρακτική εφαρμογή - στο γεγονός ότι ο αναγνώστης, καθοδηγούμενος από αυτό που διάβασε, μπορούσε αναλύει τα δεδομένα του και παρουσιάζει τα αποτελέσματα στους συναδέλφους.

  • Κεφάλαιο 1: Βασικές συνιστώσες του R Στατιστικού Περιβάλλοντος
  • Κεφάλαιο 2: Περιγραφή της γλώσσας R
  • Κεφάλαιο 3: Βασικές δυνατότητες γραφικών R
  • Κεφάλαιο 4: Περιγραφική στατιστική και κατανομές προσαρμογής
  • Κεφάλαιο 5: Κλασικές μέθοδοι και κριτήρια στατιστικής
  • Κεφάλαιο 6: Γραμμικά μοντέλα στην ανάλυση της διακύμανσης
  • Κεφάλαιο 7: Μοντέλα παλινδρόμησης σχέσεων μεταξύ ποσοτικών μεταβλητών
  • Κεφάλαιο 8: Γενικευμένα, δομικά και άλλα μοντέλα παλινδρόμησης
  • Κεφάλαιο 9: Χωρική Ανάλυση και Δημιουργία Χαρτογράμματος
Υπάρχει επίσης μια εκτενής βιβλιογραφία και μια λίστα με χρήσιμες διαδικτυακές πηγές στο R.

Η επίσημη τρέχουσα έκδοση του βιβλίου σε μορφή PDF (~11 MB) είναι διαθέσιμη για δωρεάν λήψη από δύο ιστότοπους:

  • Αποθετήριο GitHub: https://github.com/ranalytics/r-tutorials
  • Ιστοσελίδα του Ινστιτούτου Οικολογίας της Λεκάνης του Βόλγα RAS: http://www.ievbras.ru/ecostat/Kiril/R/

Στους ίδιους δύο πόρους μπορείτε να βρείτε τα σενάρια κώδικα R και τα σύνολα δεδομένων που απαιτούνται για την αναπαραγωγή των παραδειγμάτων που αναφέρονται στο βιβλίο.

Θα είμαστε ευγνώμονες για οποιαδήποτε από τα σχόλια και τις προτάσεις σας σχετικά με αυτήν την εργασία - στείλτε τα μέσω email rtutorialsbook["dog"]gmail.com

Όπως αναφέρθηκε παραπάνω, το βιβλίο διανέμεται εντελώς δωρεάν. Ωστόσο, εάν το θεωρείτε χρήσιμο και θεωρείτε σκόπιμο να ευχαριστήσετε τους συγγραφείς για το έργο τους, μπορείτε να μεταφέρετε οποιοδήποτε ποσό χρησιμοποιώντας το παρακάτω κουμπί (όλες οι συναλλαγές πραγματοποιούνται με ασφάλεια μέσω του συστήματος ηλεκτρονικών πληρωμών

«ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΟΠΤΙΚΟΠΟΙΗΣΗ ΔΕΔΟΜΕΝΩΝ ΧΡΗΣΙΜΟΠΟΙΩΝΤΑΣ Φύλλωμα φρούτων από φυτικές ρίζες Χαϊδελβέργη – Λονδίνο – Tolyatti 2014, ...»

-- [ Σελίδα 1 ] --

Σ.Ε. Mastitsky, V.K. Σιτίκοφ

ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ

ΟΠΤΙΚΟΠΟΙΗΣΗ ΔΕΔΟΜΕΝΩΝ ΜΕ R

ρίζες χόρτου φρούτα φύλλωμα

Χαϊδελβέργη – Λονδίνο – Tolyatti

2014, Sergey Eduardovich Mastitsky, Vladimir Kirillovich Shitikov

Ιστοσελίδα: http://r-analytics.blogspot.com

Αυτό το έργο διανέμεται με την άδεια

Αναφορά Creative Commons - Μη Εμπορική

χρήση – Υπό τις ίδιες συνθήκες 4.0 σε όλο τον κόσμο.” Σύμφωνα με αυτήν την άδεια, μπορείτε ελεύθερα να αντιγράψετε, να διανείμετε και να τροποποιήσετε αυτό το έργο, υπό την προϋπόθεση ότι πιστώνετε με ακρίβεια τους δημιουργούς και την πηγή του. Εάν τροποποιήσετε αυτό το έργο ή το χρησιμοποιήσετε στα δικά σας έργα, μπορείτε να διανείμετε το αποτέλεσμα μόνο με την ίδια ή παρόμοια άδεια. Απαγορεύεται η χρήση αυτού του έργου για εμπορικούς σκοπούς χωρίς την άδεια των συγγραφέων. Για περισσότερες πληροφορίες σχετικά με την άδεια, επισκεφθείτε τη διεύθυνση www.creativecommons.com

Αναφέρετε αυτό το βιβλίο ως εξής:

Mastitsky S.E., Shitikov V.K. (2014) Στατιστική ανάλυση και οπτικοποίηση δεδομένων με χρήση του R.

– Ηλεκτρονικό βιβλίο, διεύθυνση πρόσβασης:

http://r-analytics.blogspot.com

ΠΡΟΛΟΓΟΣ 5

1. ΚΥΡΙΑ ΣΥΣΤΑΤΙΚΑ ΤΟΥ R 8 ΣΤΑΤΙΣΤΙΚΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ


1.1. Ιστορία προέλευσης και βασικές αρχές οργάνωσης 8 του περιβάλλοντος R

1.2. Εργασία με την κονσόλα εντολών διασύνδεσης R 11

1.3. Εργασία με μενού R Commander 13

1.4. Αντικείμενα, πακέτα, λειτουργίες, συσκευές 17

2. ΠΕΡΙΓΡΑΦΗ ΓΛΩΣΣΑΣ R 23

2.1. R 23 τύποι δεδομένων

2.2. Διανύσματα και πίνακες 24

2.3. Παράγοντες 29

2.4. Λίστες και πίνακες 31

2.5. Εισαγωγή δεδομένων στο R 37

2.6. Αναπαράσταση ημερομηνίας και ώρας. χρονοσειρά 40

2.7. Οργάνωση υπολογισμών: συναρτήσεις, κλάδοι, βρόχοι 46

2.8. Διανυσματοποιημένοι υπολογισμοί σε R με χρήση συναρτήσεων application-50

3. ΒΑΣΙΚΕΣ ΔΥΝΑΤΟΤΗΤΕΣ ΓΡΑΦΙΚΩΝ R 58

3.1. Scatterplots plot() και επιλογές γραφικών 58 συναρτήσεων

3.2. Ιστογράμματα, συναρτήσεις πυκνότητας πυρήνα και συνάρτηση cdplot() 66

3.3. Διαγράμματα εύρους 74

3.4. Διαγράμματα πίτας και ράβδου 77

3.5. Διαγράμματα Cleveland και μονοδιάστατα διαγράμματα διασποράς 84

4. ΠΕΡΙΓΡΑΦΙΚΑ ΣΤΑΤΙΣΤΙΚΑ ΚΑΙ ΚΑΤΑΡΤΙΣΗ 97

ΔΙΑΝΟΜΗ

–  –  –

ΠΡΟΛΟΓΟΣ

Ένα από τα κύρια εργαλεία για την κατανόηση του κόσμου είναι η επεξεργασία δεδομένων που λαμβάνει ένα άτομο από διάφορες πηγές. Η ουσία της σύγχρονης στατιστικής ανάλυσης είναι μια διαδραστική διαδικασία που αποτελείται από εξερεύνηση, οπτικοποίηση και ερμηνεία των εισερχόμενων ροών πληροφοριών.

Η ιστορία των τελευταίων 50 ετών είναι επίσης η ιστορία της ανάπτυξης της τεχνολογίας ανάλυσης δεδομένων.

Ένας από τους συγγραφείς θυμάται με αγάπη το τέλος της δεκαετίας του '60 και το πρώτο του πρόγραμμα για τον υπολογισμό της συσχέτισης ζεύγους, το οποίο πληκτρολογήθηκε με μεταλλικές ακίδες στο "πεδίο λειτουργίας" 150 κυψελών του προσωπικού υπολογιστή "Promin-2" βάρους άνω των 200 κιλών.

Σήμερα, οι υπολογιστές υψηλής απόδοσης και το προσιτό λογισμικό καθιστούν δυνατή την υλοποίηση του πλήρους κύκλου της διαδικασίας της πληροφορικής, ο οποίος, γενικά, αποτελείται από τα ακόλουθα βήματα:

° πρόσβαση σε επεξεργασμένα δεδομένα (κατέβασμα τους από διαφορετικές πηγές και σύνταξη ενός συνόλου αλληλένδετων πινάκων πηγών)·

° επεξεργασία φορτωμένων δεικτών (αντικατάσταση ή αφαίρεση τιμών που λείπουν, μετατροπή χαρακτηριστικών σε πιο βολική μορφή).

° σχολιασμός δεδομένων (για να θυμάστε τι αντιπροσωπεύει κάθε τμήμα δεδομένων).

° λήψη γενικών πληροφοριών σχετικά με τη δομή των δεδομένων (υπολογισμός περιγραφικών στατιστικών για τον χαρακτηρισμό των αναλυόμενων δεικτών).

° η γραφική παρουσίαση των δεδομένων και τα αποτελέσματα των υπολογισμών σε σαφή, ενημερωτική μορφή (μία εικόνα μερικές φορές αξίζει όσο χίλιες λέξεις).

° μοντελοποίηση δεδομένων (εύρεση εξαρτήσεων και έλεγχος στατιστικών υποθέσεων).

° παρουσίαση αποτελεσμάτων (προετοιμασία πινάκων και διαγραμμάτων αποδεκτής ποιότητας δημοσίευσης).

Σε ένα περιβάλλον όπου δεκάδες πακέτα λογισμικού εφαρμογών είναι διαθέσιμα στον χρήστη, το πρόβλημα της επιλογής (μερικές φορές τραγικό, αν θυμηθούμε το «Buridan’s Donkey») είναι σχετικό: ποιο λογισμικό ανάλυσης δεδομένων πρέπει να προτιμάτε για την πρακτική εργασία σας; Εδώ, συνήθως λαμβάνονται υπόψη οι ιδιαιτερότητες του προβλήματος που επιλύεται, η αποτελεσματικότητα της ρύθμισης αλγορίθμων επεξεργασίας, το κόστος αγοράς προγραμμάτων, καθώς και τα γούστα και οι προσωπικές προτιμήσεις του αναλυτή. Ταυτόχρονα, για παράδειγμα, το πρότυπο Statistica με το μηχανικό σύνολο κουμπιών μενού δεν μπορεί πάντα να ικανοποιήσει έναν δημιουργικό ερευνητή που προτιμά να ελέγχει ανεξάρτητα την πρόοδο της υπολογιστικής διαδικασίας. Εμπορικά υπολογιστικά συστήματα που περιλαμβάνουν εργαλεία γλώσσας εντολών υψηλού επιπέδου, όπως Matlab, SPSS, κ.λπ., σας επιτρέπουν να συνδυάσετε διαφορετικούς τύπους ανάλυσης, να έχετε πρόσβαση σε ενδιάμεσα αποτελέσματα, να ελέγχετε το στυλ εμφάνισης δεδομένων, να προσθέτετε τις δικές σας επεκτάσεις μονάδων λογισμικού και συντάσσει τελικές αναφορές στην απαιτούμενη μορφή είναι ένα ελεύθερο λογισμικό, το R, το οποίο είναι μια σύγχρονη και συνεχώς εξελισσόμενη στατιστική πλατφόρμα.



Σήμερα, η R είναι ο αδιαμφισβήτητος ηγέτης μεταξύ των ελεύθερα διανεμημένων συστημάτων στατιστικής ανάλυσης, όπως αποδεικνύεται, για παράδειγμα, από το γεγονός ότι το 2010 το σύστημα R κέρδισε τον ετήσιο διαγωνισμό ανοιχτού λογισμικού Bossie Awards σε διάφορες κατηγορίες. Κορυφαία πανεπιστήμια στον κόσμο, αναλυτές από μεγάλες εταιρείες και ερευνητικά κέντρα χρησιμοποιούν συνεχώς το R κατά τη διεξαγωγή επιστημονικών και τεχνικών υπολογισμών και τη δημιουργία μεγάλων έργων πληροφοριών. Η ευρεία διδασκαλία στατιστικών που βασίζονται σε πακέτα αυτού του περιβάλλοντος και η πλήρης υποστήριξη της επιστημονικής κοινότητας οδήγησαν στο γεγονός ότι η μείωση των σεναρίων R γίνεται σταδιακά ένα γενικά αποδεκτό «πρότυπο» τόσο στις δημοσιεύσεις σε περιοδικά όσο και στην άτυπη επικοινωνία μεταξύ επιστημόνων γύρω από τον κόσμο.

Το κύριο εμπόδιο για τους ρωσόφωνους χρήστες κατά την εκμάθηση του R, φυσικά, είναι ότι σχεδόν όλη η τεκμηρίωση σε αυτό το περιβάλλον υπάρχει στα αγγλικά. Μόνο από το 2008, μέσα από τις προσπάθειες της A.V. Shipunova, Ε.Μ. Baldina, S.V. Πέτροβα, Ι.Σ. Zaryadova, A.G. Ο Bukhovets και άλλοι ενθουσιώδεις, μεθοδολογικά εγχειρίδια και βιβλία εμφανίστηκαν στα ρωσικά (σύνδεσμοι προς αυτά βρίσκονται στη λίστα αναφορών στο τέλος αυτού του βιβλίου· υπάρχουν επίσης σύνδεσμοι με εκπαιδευτικούς πόρους, οι συγγραφείς των οποίων συμβάλλουν στην προώθηση του R μεταξύ των ρωσόφωνων χρηστών).

Αυτό το εγχειρίδιο συνοψίζει ένα σύνολο μεθοδολογικών μηνυμάτων που δημοσιεύονται από έναν από τους συγγραφείς από το 2011 στο blog "R: Data Analysis and Visualization"

(http://r-analytics.blogspot.com). Μας φάνηκε σκόπιμο να παρουσιάσουμε όλο αυτό το κάπως ασύνδετο υλικό σε συμπυκνωμένη μορφή για τη διευκόλυνση των αναγνωστών, καθώς και να επεκτείνουμε ορισμένες ενότητες για πληρότητα παρουσίασης.

Τα πρώτα τρία κεφάλαια παρέχουν λεπτομερείς οδηγίες για την εργασία με τα διαδραστικά στοιχεία του R, μια λεπτομερή περιγραφή της γλώσσας και τις βασικές γραφικές δυνατότητες του περιβάλλοντος.

Αυτό το μέρος του βιβλίου είναι αρκετά προσβάσιμο σε όσους είναι νέοι στον προγραμματισμό, αν και οι αναγνώστες που είναι ήδη εξοικειωμένοι με τη γλώσσα R μπορεί να βρουν ενδιαφέροντα αποσπάσματα κώδικα εκεί ή να χρησιμοποιήσουν τις περιγραφές των γραφικών επιλογών που παρέχονται ως αναφορά.

Τα επόμενα κεφάλαια (4-8) παρέχουν μια περιγραφή κοινών διαδικασιών για την επεξεργασία δεδομένων και τη δημιουργία στατιστικών μοντέλων, η οποία απεικονίζεται με αρκετές δεκάδες παραδείγματα. Περιλαμβάνουν μια σύντομη περιγραφή των αλγορίθμων ανάλυσης, τα κύρια αποτελέσματα που προέκυψαν και την πιθανή ερμηνεία τους. Προσπαθήσαμε, ει δυνατόν, να αποφύγουμε την κατάχρηση «τελετουργικών» φράσεων τυπικών πολλών εγχειριδίων σχετικά με τις εφαρμοσμένες στατιστικές, παραθέτοντας γνωστά θεωρήματα και παραθέτοντας τύπους υπολογισμού πολλαπλών ιστοριών. Η έμφαση δόθηκε πρώτα από όλα στην πρακτική εφαρμογή - ώστε ο αναγνώστης, με γνώμονα τα όσα είχε διαβάσει, να αναλύσει τα δεδομένα του και να παρουσιάσει τα αποτελέσματα στους συναδέλφους.

Τα τμήματα αυτού του τμήματος είναι κατασκευασμένα σύμφωνα με την πολυπλοκότητα του υλικού που παρουσιάζεται.

Τα κεφάλαια 4 και 5 απευθύνονται στον αναγνώστη που ενδιαφέρεται για τις στατιστικές μόνο ως μέρος ενός εισαγωγικού πανεπιστημιακού μαθήματος. Τα κεφάλαια 6 και 7, στο πλαίσιο της ενοποιημένης θεωρίας των γενικών γραμμικών μοντέλων, παρουσιάζουν αναλύσεις διακύμανσης και παλινδρόμησης και παρέχουν διάφορους αλγόριθμους για τη μελέτη και τη δομική αναγνώριση μοντέλων. Το Κεφάλαιο 8 είναι αφιερωμένο σε ορισμένες σύγχρονες μεθόδους για την κατασκευή και την ανάλυση μοντέλων γενικευμένης παλινδρόμησης.

Δεδομένου ότι η χωρική ανάλυση και η εμφάνιση των αποτελεσμάτων σε γεωγραφικούς χάρτες και διαγράμματα παρουσιάζουν σταθερό ενδιαφέρον για τον ερευνητή, το Κεφάλαιο 9 παρέχει ορισμένα παραδείγματα τέτοιων τεχνικών οπτικοποίησης.

Απευθύνουμε το εγχειρίδιό μας σε φοιτητές, μεταπτυχιακούς φοιτητές, καθώς και σε νέους και καθιερωμένους επιστήμονες που θέλουν να κατακτήσουν την ανάλυση και την οπτικοποίηση δεδομένων χρησιμοποιώντας το περιβάλλον R. όπου μπορείτε να λάβετε περισσότερες πληροφορίες, καθώς και πώς να αντιμετωπίσετε απλές και αρκετά σύνθετες εργασίες ανάλυσης δεδομένων.

Αρχεία με σενάρια κώδικα R για όλα τα κεφάλαια του βιβλίου, καθώς και οι απαραίτητοι πίνακες δεδομένων πηγής για την εκτέλεσή τους, διατίθενται δωρεάν για λήψη από το αποθετήριο GitHub https://github.com/ranalytics/r-tutorials, καθώς και από τον σύνδεσμο του Ινστιτούτου Οικολογίας της Λεκάνης του Βόλγα RAS http://www.ievbras.ru/ecostat/Kiril/R/Scripts.zip.

Θα πρέπει να σημειωθεί ότι το κείμενο αυτού του εγχειριδίου παρουσιάζεται στην έκδοση του συγγραφέα και επομένως, παρά τις προσπάθειές μας, υπάρχει πιθανότητα να περιέχει τυπογραφικά λάθη, γραμματικές ανακρίβειες και ατυχείς φράσεις. Θα είμαστε ευγνώμονες σε εσάς, Αναγνώστη, για την αναφορά αυτών, καθώς και άλλων ελαττωμάτων που εντοπίστηκαν, μέσω e-mail [email προστατευμένο]. Θα είμαστε επίσης ευγνώμονες για οποιαδήποτε άλλα σχόλια και προτάσεις έχετε σχετικά με αυτήν την εργασία.

–  –  –

1. ΚΥΡΙΑ ΣΥΣΤΑΤΙΚΑ ΤΟΥ ΣΤΑΤΙΣΤΙΚΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ R

1.1. Ιστορία προέλευσης και βασικές αρχές οργάνωσης του περιβάλλοντος R Το σύστημα στατιστικής ανάλυσης και οπτικοποίησης δεδομένων R αποτελείται από τα ακόλουθα κύρια μέρη:

° Γλώσσα προγραμματισμού υψηλού επιπέδου R, η οποία επιτρέπει σε μία γραμμή να υλοποιεί διάφορες πράξεις με αντικείμενα, διανύσματα, πίνακες, λίστες κ.λπ.

° ένα μεγάλο σύνολο λειτουργιών επεξεργασίας δεδομένων που συλλέγονται σε ξεχωριστά πακέτα.

° ένα αναπτυγμένο σύστημα υποστήριξης, συμπεριλαμβανομένης της ενημέρωσης των στοιχείων του περιβάλλοντος, της διαδραστικής βοήθειας και διαφόρων εκπαιδευτικών πόρων που έχουν σχεδιαστεί τόσο για την αρχική μελέτη του R όσο και για τις επακόλουθες διαβουλεύσεις για τις αναδυόμενες δυσκολίες.

Η αρχή του ταξιδιού χρονολογείται από το 1993, όταν δύο νεαροί Νεοζηλανδοί επιστήμονες Ross Ihaka και Robert Gentleman ανακοίνωσαν τη νέα τους ανάπτυξη, την οποία ονόμασαν R. Έλαβαν ως βάση τη γλώσσα προγραμματισμού του ανεπτυγμένου εμπορικού συστήματος επεξεργασίας στατιστικών δεδομένων S-PLUS και δημιούργησε τη δωρεάν, δωρεάν εφαρμογή του, η οποία διαφέρει από τον αρχικό του στην εύκολα επεκτάσιμη αρθρωτή αρχιτεκτονική του. Σύντομα, προέκυψε ένα κατανεμημένο σύστημα για την αποθήκευση και τη διανομή πακέτων για το R, γνωστό με τη συντομογραφία "CRAN" (Comprehensive R Archive Network - http://cran.r-project.org), η κύρια ιδέα του οργανισμού εκ των οποίων είναι η συνεχής επέκταση, ο συλλογικός έλεγχος και η λειτουργική διανομή των εφαρμοσμένων εργαλείων επεξεργασίας δεδομένων.

Αποδείχθηκε ότι ένα τέτοιο προϊόν συνεχών και καλά συντονισμένων προσπαθειών της ισχυρής «συλλογικής νοημοσύνης» χιλιάδων ανιδιοτελών πνευματικών προγραμματιστών αποδείχθηκε πολύ πιο αποτελεσματικό από τα εμπορικά στατιστικά προγράμματα, το κόστος μιας άδειας για το οποίο μπορεί να είναι αρκετές χιλιάδες δολάρια. Δεδομένου ότι η R είναι η αγαπημένη γλώσσα των επαγγελματιών στατιστικολόγων, όλες οι τελευταίες εξελίξεις στη στατιστική επιστήμη γίνονται γρήγορα διαθέσιμες στους χρήστες R σε όλο τον κόσμο με τη μορφή πρόσθετων βιβλιοθηκών. Κανένα εμπορικό σύστημα στατιστικής ανάλυσης δεν αναπτύσσεται τόσο γρήγορα σήμερα. Το R έχει έναν μεγάλο στρατό χρηστών που ενημερώνουν τους δημιουργούς πρόσθετων βιβλιοθηκών και το ίδιο το σύστημα R για σφάλματα που έχουν εντοπιστεί, τα οποία διορθώνονται αμέσως.

Η γλώσσα υπολογισμού R, αν και απαιτεί κάποια προσπάθεια για να κατακτήσετε, αξιοσημείωτες δεξιότητες αναζήτησης και εγκυκλοπαιδική μνήμη, σας επιτρέπει να εκτελείτε γρήγορα υπολογισμούς που είναι πρακτικά «ανεξάντλητοι όσο ένα άτομο» στην ποικιλομορφία τους. Από τον Ιούλιο του 2014, λάτρεις από όλο τον κόσμο έχουν γράψει 6.739 επιπλέον βιβλιοθήκες για το R, συμπεριλαμβανομένων 137.506 λειτουργιών (βλ.

http://www.rdocumentation.org), που διευρύνουν σημαντικά τις βασικές δυνατότητες του συστήματος. Είναι πολύ δύσκολο να φανταστεί κανείς κάποια κατηγορία στατιστικών μεθόδων που δεν εφαρμόζεται ήδη σήμερα με τη μορφή πακέτων R, συμπεριλαμβανομένου, φυσικά, ολόκληρου του «συνόλου των κυρίων»: γραμμικά και γενικευμένα γραμμικά μοντέλα, μοντέλα μη γραμμικής παλινδρόμησης, πειραματικός σχεδιασμός, χρόνος ανάλυση σειρών, κλασικές παραμετρικές και μη παραμετρικές δοκιμές, Bayesian στατιστικές, ανάλυση συστάδων και μέθοδοι εξομάλυνσης. Με τη βοήθεια ισχυρών εργαλείων οπτικοποίησης, τα αποτελέσματα της ανάλυσης μπορούν να συνοψιστούν με τη μορφή διαφόρων γραφημάτων και γραφημάτων. Εκτός από τις παραδοσιακές στατιστικές, η αναπτυγμένη λειτουργικότητα περιλαμβάνει ένα μεγάλο σύνολο αλγορίθμων για αριθμητικά μαθηματικά, μεθόδους βελτιστοποίησης, επίλυση διαφορικών εξισώσεων, αναγνώριση προτύπων, κ.λπ. .

Η «ιδιόκτητη» τεκμηρίωση για το R είναι πολύ ογκώδης και δεν είναι πάντα καλογραμμένη (στην παράξενη παράδοση της αγγλόφωνης λογοτεχνίας, δαπανώνται πάρα πολλές λέξεις για να περιγράψουν ασήμαντες αλήθειες, ενώ σημαντικά σημεία καλύπτονται γρήγορα). Ωστόσο, εκτός από αυτό, οι κορυφαίοι εκδότες του κόσμου (Springer, Cambridge University Press και Chapman & Hall / CRC) ή απλώς μεμονωμένες ομάδες ενθουσιωδών έχουν δημοσιεύσει έναν τεράστιο αριθμό βιβλίων που περιγράφουν διάφορες πτυχές της ανάλυσης δεδομένων στο R (βλ., για παράδειγμα , τον κατάλογο των αναφορών στον ιστότοπο «Encyclopedia of Psychodiagnostics», http://psylab.info/R:Literature). Επιπλέον, υπάρχουν αρκετά ενεργά διεθνή και ρωσικά φόρουμ χρηστών R, όπου οποιοσδήποτε μπορεί να ζητήσει βοήθεια για ένα πρόβλημα. Στη βιβλιογραφία, παραθέτουμε μερικές εκατοντάδες βιβλία και συνδέσμους στο Διαδίκτυο που σας συμβουλεύουμε να δώσετε ιδιαίτερη προσοχή κατά την εκμάθηση του R.

Η άμεση εκπαίδευση στην πρακτική εργασία στο R συνίσταται α) στην εκμάθηση των δομών της γλώσσας R και στην εξοικείωση με τα χαρακτηριστικά της κλήσης συναρτήσεων που εκτελούν ανάλυση δεδομένων και β) στην απόκτηση δεξιοτήτων εργασίας με προγράμματα που εφαρμόζουν συγκεκριμένες μεθόδους ανάλυσης και οπτικοποίησης δεδομένων .

Η επιλογή των εργαλείων διεπαφής χρήστη R είναι αμφιλεγόμενη και εξαρτάται σε μεγάλο βαθμό από τα γούστα των χρηστών. Ακόμη και οι έγκυροι ειδικοί δεν έχουν συναίνεση.

Μερικοί πιστεύουν ότι δεν υπάρχει τίποτα καλύτερο από την τυπική διεπαφή κονσόλας R. Άλλοι πιστεύουν ότι για άνετη εργασία αξίζει να εγκαταστήσετε ένα από τα διαθέσιμα ενσωματωμένα περιβάλλοντα ανάπτυξης (IDE) με ένα πλούσιο σετ μενού κουμπιών. Για παράδειγμα, το δωρεάν ενσωματωμένο περιβάλλον ανάπτυξης RStudio είναι μια εξαιρετική επιλογή.

Παρακάτω θα επικεντρωθούμε στην περιγραφή της έκδοσης της κονσόλας και στη συνεργασία με τον R Commander, αλλά η περαιτέρω έρευνα του αναγνώστη μπορεί να βοηθηθεί από μια ανασκόπηση διαφόρων εκδόσεων του IDE, που παρουσιάζονται στο παράρτημα του βιβλίου από τους Shipunov et al. (2014).

Ένας ειδικός της R, ο Joseph Rickert, πιστεύει ότι η διαδικασία εκμάθησης του R μπορεί να χωριστεί στα ακόλουθα στάδια (για περισσότερες λεπτομέρειες, βλ.

το άρθρο του στο inside-r.org):

1. Εξοικείωση με τις γενικές αρχές της κουλτούρας της κοινότητας R και του περιβάλλοντος λογισμικού στο οποίο αναπτύχθηκε και λειτουργεί η γλώσσα R. Επίσκεψη των κύριων και βοηθητικών πόρων και κατοχή ενός καλού εισαγωγικού εγχειριδίου. Εγκατάσταση του R στον υπολογιστή του χρήστη και εκτέλεση των πρώτων δοκιμαστικών σεναρίων.

2. Ανάγνωση δεδομένων από τυπικά αρχεία λειτουργικού συστήματος και χρήση με σιγουριά των συναρτήσεων R για την εκτέλεση ενός περιορισμένου συνόλου διαδικασιών στατιστικής ανάλυσης που είναι γνωστές στον χρήστη.

3. Χρησιμοποιώντας τις βασικές δομές της γλώσσας R για τη σύνταξη απλών προγραμμάτων.

Γράφοντας τις δικές σας λειτουργίες. Εξοικείωση με τις δομές δεδομένων με τις οποίες μπορεί να εργαστεί ο R και τα πιο σύνθετα χαρακτηριστικά της γλώσσας. Εργασία με βάσεις δεδομένων, ιστοσελίδες και εξωτερικές πηγές δεδομένων.

4. Σύνταξη σύνθετων προγραμμάτων στη γλώσσα R Ανεξάρτητη ανάπτυξη και βαθιά κατανόηση της δομής των αντικειμένων των λεγόμενων S3- και S4-class.

5. Ανάπτυξη επαγγελματικών προγραμμάτων στη γλώσσα R Ανεξάρτητη δημιουργία επιπλέον ενοτήτων βιβλιοθήκης για το R.

Οι περισσότεροι μέσοι χρήστες R σταματούν στο στάδιο 3 επειδή...

Οι γνώσεις που έχουν αποκτήσει μέχρι τώρα είναι αρκετά επαρκείς για να εκτελούν στατιστικές εργασίες στο προφίλ της κύριας επαγγελματικής τους δραστηριότητας.

Αυτή είναι περίπου η έκταση της περιγραφής μας για τη γλώσσα R στο πλαίσιο αυτού του εγχειριδίου.

Η εγκατάσταση και η διαμόρφωση του βασικού στατιστικού περιβάλλοντος R είναι αρκετά απλή. Από τον Ιούλιο του 2014, η τρέχουσα έκδοση είναι R 3.1.1 για Windows 32 και 64-bit (διατίθενται επίσης διανομές για όλα τα άλλα κοινά λειτουργικά συστήματα). Μπορείτε να κατεβάσετε το κιτ διανομής συστήματος μαζί με ένα βασικό σετ 29 πακέτων (54 megabyte) εντελώς δωρεάν από τον κύριο ιστότοπο του έργου http://cran.r-project.org ή το ρωσικό «mirror» http://cran .gis-lab.info. Η διαδικασία εγκατάστασης του συστήματος από τη διανομή που έχει ληφθεί δεν προκαλεί δυσκολίες και δεν απαιτεί ειδικά σχόλια.

Για τη διευκόλυνση της αποθήκευσης σεναρίων, δεδομένων προέλευσης και αποτελεσμάτων υπολογισμού, αξίζει να επιλέξετε έναν ειδικό κατάλογο εργασίας στον υπολογιστή του χρήστη. Είναι εξαιρετικά ανεπιθύμητο να χρησιμοποιείτε κυριλλικούς χαρακτήρες στο όνομα του καταλόγου εργασίας.

Συνιστάται να τοποθετήσετε τη διαδρομή προς τον κατάλογο εργασίας και ορισμένες άλλες επιλογές ρυθμίσεων, επεξεργάζοντας το αρχείο συστήματος C:\Program Files\R\Retc\Rprofile.site με οποιοδήποτε πρόγραμμα επεξεργασίας κειμένου (μπορεί να έχει διαφορετική θέση στον υπολογιστή σας). Στο παρακάτω παράδειγμα, οι τροποποιημένες σειρές σημειώνονται με πράσινο χρώμα.

Εκτός από τον καθορισμό του καταλόγου εργασίας, αυτές οι γραμμές καθορίζουν έναν σύνδεσμο προς τη ρωσική πηγή για τη λήψη πακέτων R και την αυτόματη εκκίνηση του R Commander.

Καταχώριση του αρχείου Rprofile.site # Όλα όσα ακολουθούν το σύμβολο σχολίου "#" αγνοούνται από το περιβάλλον # options(papersize="a4") # options(editor="notepad") # options(pager="internal") # set η βοήθεια εμφάνιση πληροφοριών τύπου # options(help_type="text") options(help_type="html") # ορίστε τη θέση της τοπικής βιβλιοθήκης #.Library.site - file.path(chartr("\\", "/" , R.home() ), "site-library") # Κατά τη φόρτωση του περιβάλλοντος, εκκινήστε το μενού R Commander # Προσθέστε τα σημάδια "#" εάν η εκκίνηση του Rcmdr δεν απαιτείται local(( old - getOption("defaultPackages") options( defaultPackages = c(παλιό, "Rcmdr" )) )) # Ορίστε έναν καθρέφτη CRAN local((r - getOption("repos") r["CRAN"] - "http://cran.gis-lab" options(repos =r))) # Καθορίστε τη διαδρομή προς τον κατάλογο εργαζομένων (οποιοσδήποτε άλλος στον υπολογιστή σας) setwd("D:/R/Process/Resampling") Όσο για ένα "καλό εισαγωγικό εγχειρίδιο", οποιαδήποτε από τις συστάσεις μας θα είναι υποκειμενική . Ωστόσο, αξίζει να αναφερθεί η επίσημα αναγνωρισμένη εισαγωγή στο R από τους W. Venables και D. Smith (Venables, Smith, 2014) και το βιβλίο του R. Kabakov (Kabaco, 2011), εν μέρει και επειδή είναι διαθέσιμη η ρωσική τους μετάφραση. Ας σημειώσουμε επίσης το παραδοσιακό «εγχειρίδιο για ανδρείκελα» (Meys, Vries, 2012) και το εγχειρίδιο (Lam, 2010), γραμμένο με αξιοζήλευτη ολλανδική πεζοπορία. Από τα εισαγωγικά μαθήματα ρωσικής γλώσσας, τα πληρέστερα είναι τα βιβλία των I. Zaryadov (2010a) και A. Shipunov et al. (2014).

1.2. Εργασία με την Κονσόλα εντολών διασύνδεσης R Το στατιστικό περιβάλλον R εκτελεί οποιοδήποτε σύνολο σημαντικών οδηγιών γλώσσας R που περιέχονται σε ένα αρχείο δέσμης ενεργειών ή αναπαρίστανται ως μια ακολουθία εντολών που εκδίδονται από την κονσόλα. Η εργασία με την κονσόλα μπορεί να φαίνεται δύσκολη για τους σύγχρονους χρήστες που είναι συνηθισμένοι στα μενού με τα κουμπιά, καθώς είναι απαραίτητο να θυμάστε τη σύνταξη μεμονωμένων εντολών. Ωστόσο, μετά την απόκτηση ορισμένων δεξιοτήτων, αποδεικνύεται ότι πολλές διαδικασίες επεξεργασίας δεδομένων μπορούν να εκτελεστούν ταχύτερα και με λιγότερη δυσκολία από ό,τι, ας πούμε, στο ίδιο πακέτο Statistica.

Η κονσόλα R είναι ένα παράθυρο διαλόγου στο οποίο ο χρήστης εισάγει εντολές και όπου βλέπει τα αποτελέσματα της εκτέλεσής τους. Αυτό το παράθυρο εμφανίζεται αμέσως όταν ξεκινά το περιβάλλον (για παράδειγμα, αφού κάνετε κλικ στη συντόμευση R στην επιφάνεια εργασίας). Επιπλέον, η τυπική διεπαφή χρήστη γραφικών R (RGui) περιλαμβάνει ένα παράθυρο επεξεργασίας σεναρίων και αναδυόμενα παράθυρα με γραφικές πληροφορίες (εικόνες, διαγράμματα κ.λπ.)

Στη λειτουργία εντολών, το R μπορεί να λειτουργήσει, για παράδειγμα, όπως μια κανονική αριθμομηχανή:

Στα δεξιά του συμβόλου προτροπής, ο χρήστης μπορεί να εισαγάγει μια αυθαίρετη αριθμητική παράσταση, να πατήσει το πλήκτρο Enter και να λάβει αμέσως το αποτέλεσμα.

Για παράδειγμα, στη δεύτερη εντολή της παραπάνω εικόνας χρησιμοποιήσαμε τις παραγοντικές και ημιτονοειδείς συναρτήσεις, καθώς και το ενσωματωμένο p. Τα αποτελέσματα που λαμβάνονται σε μορφή κειμένου μπορούν να επιλεγούν με το ποντίκι και να αντιγραφούν μέσω του πρόχειρου σε οποιοδήποτε αρχείο κειμένου του λειτουργικού συστήματος (για παράδειγμα, ένα έγγραφο του Word).

Όταν εργάζεστε με το RGui, συνιστούμε σε όλες τις περιπτώσεις τη δημιουργία ενός αρχείου με ένα σενάριο (δηλαδή μια ακολουθία εντολών της γλώσσας R που εκτελούν ορισμένες ενέργειες). Κατά κανόνα, αυτό είναι ένα κανονικό αρχείο κειμένου με οποιοδήποτε όνομα (αλλά, για βεβαιότητα, είναι καλύτερο με την επέκταση *.r), το οποίο μπορεί να δημιουργηθεί και να επεξεργαστεί με έναν κανονικό επεξεργαστή όπως το Σημειωματάριο. Εάν υπάρχει αυτό το αρχείο, είναι καλύτερο να το τοποθετήσετε στον κατάλογο εργασίας και, στη συνέχεια, αφού ξεκινήσετε το R και επιλέξετε το στοιχείο μενού "File Open Script", τα περιεχόμενα αυτού του αρχείου θα εμφανιστούν στο παράθυρο "R Editor". Μπορείτε να εκτελέσετε μια ακολουθία εντολών σεναρίου από το στοιχείο μενού "Επεξεργασία εκτέλεσης όλων".

Μπορείτε επίσης να επιλέξετε με το ποντίκι ένα σημαντικό κομμάτι από οποιοδήποτε σημείο στο προετοιμασμένο σενάριο (από το όνομα μιας μεταβλητής έως ολόκληρο το περιεχόμενο) και να ξεκινήσετε αυτό το μπλοκ για εκτέλεση. Αυτό μπορεί να γίνει με τέσσερις πιθανούς τρόπους: από το κύριο μενού και το μενού περιβάλλοντος, τον συνδυασμό πλήκτρων Ctrl+R ή ένα κουμπί στη γραμμή εργαλείων.

Στο σχήμα που παρουσιάζεται, πραγματοποιήθηκαν οι ακόλουθες ενέργειες:

° το R-object gadm με δεδομένα για την εδαφική διαίρεση της Δημοκρατίας της Λευκορωσίας λήφθηκε από τη δωρεάν πηγή Διαδικτύου Global Administrative Areas (GADM).

° Τα λατινοποιημένα ονόματα πόλεων αντικαθίστανται με ισοδύναμα που χρησιμοποιούνται συνήθως.

° χρησιμοποιώντας τη συνάρτηση spplot() του πακέτου sp, εμφανίζεται ένας διαχειριστικός χάρτης της δημοκρατίας στο παράθυρο γραφικών, ο οποίος μπορεί να αντιγραφεί στο πρόχειρο χρησιμοποιώντας το μενού ή να αποθηκευτεί ως τυπικό μετα- ή ράστερ αρχείο γραφικών.

Θα εξετάσουμε την έννοια των μεμονωμένων τελεστών με περισσότερες λεπτομέρειες σε επόμενες ενότητες, αλλά εδώ θα σημειώσουμε ότι επιλέγοντας στο σενάριο και εκτελώντας τον συνδυασμό συμβόλων Regions@data, θα λάβουμε στο παράθυρο της κονσόλας όλα τα δεδομένα συνόλου δεδομένων για το αντικείμενο και μια εντολή που αποτελείται από τα επιλεγμένα σύμβολα gadm, οι Περιοχές @data$NAME_1 θα μας δώσουν μια λίστα με ονόματα διοικητικών κέντρων πριν και μετά την τροποποίησή του.

Έτσι, το R Editor διευκολύνει την πλοήγηση σε ένα σενάριο, την επεξεργασία και την εκτέλεση οποιουδήποτε συνδυασμού εντολών και την εύρεση και αντικατάσταση συγκεκριμένων τμημάτων κώδικα. Το πρόσθετο RStudio που αναφέρθηκε παραπάνω σάς επιτρέπει να εκτελέσετε επιπρόσθετα επισήμανση σύνταξης κώδικα, αυτόματη συμπλήρωση κώδικα, "συσκευασία" ακολουθιών εντολών σε λειτουργίες για την επακόλουθη χρήση τους, εργασία με έγγραφα Sweave ή TeX και άλλες λειτουργίες που θα είναι χρήσιμες σε έναν προχωρημένο χρήστη.

Το R έχει εκτεταμένο ενσωματωμένο υλικό αναφοράς στο οποίο μπορείτε να προσπελάσετε απευθείας από το RGui.

Εάν εκδώσετε την εντολή help.start() από την κονσόλα, θα ανοίξει μια σελίδα στο πρόγραμμα περιήγησής σας στο Διαδίκτυο που παρέχει πρόσβαση σε όλους τους πόρους βοήθειας: βασικούς οδηγούς, υλικό του συγγραφέα, απαντήσεις σε κοινές ερωτήσεις, λίστες αλλαγών, συνδέσμους για βοήθεια σε άλλα R αντικείμενα, κ.λπ. .δ.:

Μπορείτε να λάβετε βοήθεια για συγκεκριμένες λειτουργίες χρησιμοποιώντας τις ακόλουθες εντολές:

° βοήθεια ("foo") ή; foo – βοήθεια για τη συνάρτηση foo (τα εισαγωγικά είναι προαιρετικά).

° help.search("foo") ή ?? foo – αναζήτηση για όλα τα αρχεία βοήθειας που περιέχουν foo.

° παράδειγμα("foo") – παραδείγματα χρήσης της συνάρτησης foo.

° RSiteSearch("foo") – αναζήτηση συνδέσμων σε ηλεκτρονικά εγχειρίδια και ταχυδρομικά αρχεία.

° apropos("foo", mode="function") – λίστα όλων των λειτουργιών με τον συνδυασμό foo;

° βινιέτα ("foo") – μια λίστα με σεμινάρια για το θέμα foo.

1.3. Εργασία με το μενού του πακέτου R Commander Ένα βολικό εργαλείο για τον έλεγχο των υπολογισμών στο R για έναν αρχάριο χρήστη είναι το R Commander - μια γραφική διεπαφή ανεξάρτητη από πλατφόρμα σε στυλ μενού κουμπιού, που υλοποιείται στο πακέτο Rcmdr. Σας επιτρέπει να πραγματοποιήσετε ένα μεγάλο σύνολο διαδικασιών στατιστικής ανάλυσης χωρίς να καταφύγετε σε προκαταρκτική απομνημόνευση συναρτήσεων στη γλώσσα εντολών, αλλά συμβάλλει ακούσια σε αυτό, καθώς εμφανίζει όλες τις εκτελεσμένες οδηγίες σε ένα ειδικό παράθυρο.

Μπορείτε να εγκαταστήσετε το Rcmdr, όπως οποιεσδήποτε άλλες επεκτάσεις, από το μενού της κονσόλας R "Πακέτο Εγκατάστασης πακέτων", αλλά είναι καλύτερο να εκτελέσετε την εντολή:

install.packages("Rcmdr", dependencies=TRUE) όπου η ενεργοποίηση της επιλογής εξαρτήσεων θα διασφαλίσει ότι έχει εγκατασταθεί το πλήρες σύνολο άλλων πακέτων που μπορεί να απαιτούνται κατά την επεξεργασία δεδομένων μέσω του μενού Rcmdr.

Το R Commander εκκινείται όταν το πακέτο Rcmdr φορτώνεται μέσω του μενού "Packages Enable Package" ή με την εντολή library(Rcmdr) Εάν για κάποιο λόγο αποφασίστηκε να αναλυθούν τα δεδομένα αποκλειστικά χρησιμοποιώντας το R Commander, τότε να φορτωθεί αυτόματα αυτό το κέλυφος γραφικών. όταν ξεκινάτε το R, πρέπει να επεξεργαστείτε το αρχείο Rprofile.site όπως φαίνεται στην ενότητα 1.1.

Ας εξετάσουμε το ενδεχόμενο να δουλέψουμε στο R Commander χρησιμοποιώντας το παράδειγμα ανάλυσης συσχέτισης δεδομένων σχετικά με το επίπεδο μόλυνσης του δίθυρου μαλακίου Dreissena polymorpha με το βλεφαροειδή Conchophthirus acuminatus σε τρεις λίμνες της Λευκορωσίας (Mastitsky S.E. // BioInvasions Records.

2012. V. 1. P 161–169). Στον πίνακα με τα αρχικά δεδομένα, που κατεβάζουμε από την ιστοσελίδα figshare, θα μας ενδιαφέρουν δύο μεταβλητές: το μήκος του κελύφους του μαλακίου (ZMlength, mm) και ο αριθμός των βλεφαρίδων που βρέθηκαν στο μαλάκιο (CAnumber). Αυτό το παράδειγμα θα συζητηθεί αναλυτικά στα Κεφάλαια 4 και 5, επομένως εδώ δεν θα σταθούμε αναλυτικά στο νόημα της ανάλυσης, αλλά θα επικεντρωθούμε στην τεχνική της εργασίας με το Rcmdr.

Στη συνέχεια, ορίζουμε τη λειτουργία φόρτωσης δεδομένων και τη διεύθυνση σύνδεσης Internet στα αναδυόμενα παράθυρα. Είναι εύκολο να δούμε ότι θα μπορούσαμε εύκολα να φορτώσουμε τα ίδια δεδομένα από ένα τοπικό αρχείο κειμένου, ένα βιβλίο εργασίας του Excel ή έναν πίνακα βάσης δεδομένων. Για να βεβαιωθείτε ότι τα δεδομένα μας έχουν φορτωθεί σωστά (ή επεξεργαστείτε τα εάν χρειάζεται), κάντε κλικ στο κουμπί «Προβολή δεδομένων».

Παράθυρο για τον καθορισμό της οργάνωσης δεδομένων Τμήμα του φορτωμένου πίνακα

Στο δεύτερο στάδιο, στο μενού «Στατιστικά», επιλέξτε «Δοκιμή συσχέτισης»:

Επιλέγουμε ένα ζεύγος συσχετισμένων μεταβλητών και στο Παράθυρο Εξόδου λαμβάνουμε τον συντελεστή συσχέτισης Pearson (R = 0,467), το επίπεδο στατιστικής σημαντικότητας που επιτεύχθηκε (p-value 2,2e-16) και τα όρια εμπιστοσύνης 95%.

–  –  –

Τα αποτελέσματα που λαμβάνονται μπορούν εύκολα να αντιγραφούν από το παράθυρο εξόδου μέσω του πρόχειρου.

Τώρα έχουμε μια γραφική αναπαράσταση της εξάρτησης συσχέτισης. Ας επιλέξουμε ένα διάγραμμα διασποράς της εξάρτησης του CAnumber από το ZMlength και ας του παρέχουμε διαγράμματα εύρους ακμών, μια γραμμική γραμμή τάσης με τη μέθοδο των ελαχίστων τετραγώνων (με πράσινο), μια γραμμή που εξομαλύνεται με τη μέθοδο τοπικής παλινδρόμησης (με κόκκινο), παρουσιάζεται με σιγουριά περιοχή (διακεκομμένη γραμμή). Για καθεμία από τις τρεις λίμνες (μεταβλητή λίμνη), τα πειραματικά σημεία θα αντιπροσωπεύονται με διαφορετικά σύμβολα.

–  –  –

Γράφημα που αντιγράφηκε από το παράθυρο γραφικών R Commander Καθώς πατιέται το αντίστοιχο κουμπί του μενού R Commander, οι οδηγίες της γλώσσας R εμφανίζονται στο παράθυρο του σεναρίου.

Στην περίπτωσή μας μοιάζουν με αυτό:

Οστρακόδερμα read.table("http://figshare.com/media/download/98923/97987", header=TRUE, sep="\t", na.strings="NA", dec=".", strip. white=TRUE) cor.test(Clams$CAnumber, Clams$ZMlength, alternative="two.sided", method="pearson") scatterplot(CAnumber ~ ZMlength | Lake, reg.line=lm, smooth=TRUE, spread= TRUE, boxplots="xy", span=0.5, ylab="Number of ciliates", xlab="Shell length", by.groups=FALSE, data=Mollusks) Το ίδιο το σενάριο ή τα αποτελέσματα εξόδου (καθώς και τα δύο μαζί ) μπορεί να αποθηκευτεί σε αρχεία και να επαναληφθεί ανά πάσα στιγμή. Μπορείτε να πάρετε το ίδιο αποτέλεσμα χωρίς να εκτελέσετε το R Commander φορτώνοντας το αποθηκευμένο αρχείο μέσω της κονσόλας R.

Σε γενικές γραμμές, χωρίς να γνωρίζετε τις κατασκευές της γλώσσας R (ή απλά να μην θέλετε να επιβαρύνετε τη μνήμη σας με την απομνημόνευσή τους), χρησιμοποιώντας το Rcmdr μπορείτε να εκτελέσετε επεξεργασία δεδομένων χρησιμοποιώντας σχεδόν όλες τις βασικές στατιστικές μεθόδους. Παρουσιάζει παραμετρικούς και μη παραμετρικούς ελέγχους, μεθόδους προσαρμογής διαφόρων συνεχών και διακριτών κατανομών, ανάλυση πολυμεταβλητών πινάκων έκτακτης ανάγκης, μονομεταβλητή και πολυμεταβλητή ανάλυση διακύμανσης, ανάλυση και ομαδοποίηση κύριων συνιστωσών, διάφορες μορφές γενικευμένων μοντέλων παλινδρόμησης κ.λπ. Η δοκιμή των μοντέλων που προκύπτουν αξίζει προσεκτικής μελέτης.

Μια λεπτομερής περιγραφή των τεχνικών για την εργασία με το R Commander, καθώς και χαρακτηριστικά της εφαρμογής αλγορίθμων επεξεργασίας δεδομένων, μπορείτε να βρείτε στα εγχειρίδια (Larson-Hall, 2009; Karp, 2014).

Ωστόσο, όπως η νοηματική δεν μπορεί να αντικαταστήσει την ανθρώπινη επικοινωνία στη φυσική γλώσσα, η γνώση της γλώσσας R διευρύνει σημαντικά τις δυνατότητες του χρήστη και κάνει την επικοινωνία με το περιβάλλον R ευχάριστη και συναρπαστική. Και εδώ η αυτόματη δημιουργία σεναρίων στο R Commander μπορεί να είναι ένας εξαιρετικός τρόπος για τον αναγνώστη να εξοικειωθεί με τους χειριστές της γλώσσας R και να μάθει τις ιδιαιτερότητες της κλήσης μεμονωμένων συναρτήσεων. Θα αφιερώσουμε τα επόμενα κεφάλαια του εγχειριδίου σε μια συζήτηση των διαδικασιών επεξεργασίας δεδομένων μόνο σε επίπεδο γλωσσικών δομών.

1.4. Αντικείμενα, πακέτα, συναρτήσεις, συσκευές Η γλώσσα R ανήκει στην οικογένεια των λεγόμενων αντικειμενοστρεφών γλωσσών προγραμματισμού υψηλού επιπέδου. Για έναν μη ειδικό, ο αυστηρός ορισμός της έννοιας «αντικείμενο» είναι αρκετά αφηρημένος. Ωστόσο, για λόγους απλότητας, μπορούμε να ονομάσουμε όλα όσα δημιουργήθηκαν κατά την εργασία με αντικείμενα R.

Υπάρχουν δύο κύριοι τύποι αντικειμένων:

1. Τα αντικείμενα που προορίζονται για αποθήκευση δεδομένων ("αντικείμενα δεδομένων") είναι μεμονωμένες μεταβλητές, διανύσματα, πίνακες και πίνακες, λίστες, παράγοντες, πίνακες δεδομένων.

2. Οι συναρτήσεις ("αντικείμενα συνάρτησης") ονομάζονται προγράμματα που έχουν σχεδιαστεί για τη δημιουργία νέων αντικειμένων ή την εκτέλεση συγκεκριμένων ενεργειών σε αυτά.

Τα αντικείμενα του περιβάλλοντος R, που προορίζονται για συλλογική και δωρεάν χρήση, συγκεντρώνονται σε πακέτα ενωμένα με παρόμοια θέματα ή μεθόδους επεξεργασίας δεδομένων. Υπάρχει κάποια διαφορά μεταξύ των όρων πακέτο ("πακέτο") και βιβλιοθήκη ("βιβλιοθήκη"). Ο όρος "βιβλιοθήκη" ορίζει έναν κατάλογο που μπορεί να περιέχει ένα ή περισσότερα πακέτα. Ο όρος "πακέτο" αναφέρεται σε μια συλλογή λειτουργιών, σελίδων εγχειριδίου HTML και παραδειγμάτων αντικειμένων δεδομένων που προορίζονται για σκοπούς δοκιμής ή εκπαίδευσης.

Τα πακέτα εγκαθίστανται σε έναν συγκεκριμένο κατάλογο του λειτουργικού συστήματος ή, σε μη εγκατεστημένη μορφή, μπορούν να αποθηκευτούν και να διανεμηθούν σε αρχεία αρχειοθέτησης *.zip των Windows (η έκδοση του πακέτου πρέπει να αντιστοιχεί στη συγκεκριμένη έκδοση του R σας).

Μπορείτε να λάβετε πλήρεις πληροφορίες σχετικά με το πακέτο (έκδοση, κύρια θεματική περιοχή, συγγραφείς, ημερομηνίες αλλαγών, άδειες χρήσης, άλλα λειτουργικά συσχετισμένα πακέτα, πλήρης λίστα λειτουργιών που υποδεικνύουν τον σκοπό τους κ.λπ.) με την εντολή

βιβλιοθήκη(help=package_name), για παράδειγμα:

library(help=Matrix) Όλα τα πακέτα R εμπίπτουν σε μία από τις τρεις κατηγορίες: βασικό ("βασικό"), προτεινόμενο ("προτεινόμενο") και άλλα εγκατεστημένα από τον χρήστη.

Μπορείτε να λάβετε μια λίστα με αυτά σε έναν συγκεκριμένο υπολογιστή εκδίδοντας την εντολή library() ή:

installed.packages(priority = "base") installed.packages(priority = "recommended") # Λήψη πλήρους λίστας πακέτων πακέτων - rownames(installed.packages()) # Έξοδος πληροφοριών στο πρόχειρο σε μορφή Excel write.table( packlist ,"clipboard",sep="\t", col.names=NA) Τα βασικά και προτεινόμενα πακέτα περιλαμβάνονται συνήθως στο αρχείο εγκατάστασης R.

Φυσικά, δεν χρειάζεται να εγκαταστήσετε αμέσως πολλά διαφορετικά πακέτα στο αποθεματικό.

Για να εγκαταστήσετε ένα πακέτο, απλώς επιλέξτε το στοιχείο μενού "Πακέτα Εγκατάσταση πακέτων" στο παράθυρο εντολών R Console ή εισαγάγετε, για παράδειγμα, την εντολή:

install.packages(c("vegan", "xlsReadWrite", "car"))

Τα πακέτα μπορούν να ληφθούν, για παράδειγμα, από το ρωσικό «mirror» http://cran.gis-lab.info, για το οποίο είναι βολικό να χρησιμοποιήσετε την έκδοση του αρχείου Rprofile.site όπως φαίνεται στην ενότητα 1.1.

Μια άλλη επιλογή για την εγκατάσταση πακέτων είναι να μεταβείτε στον ιστότοπο http://cran.gis-lab.info/web/packages, να επιλέξετε το επιθυμητό πακέτο ως αρχείο zip και να πραγματοποιήσετε λήψη στον επιλεγμένο φάκελο στον υπολογιστή σας.

Σε αυτήν την περίπτωση, μπορείτε να κάνετε προεπισκόπηση όλων των πληροφοριών του πακέτου, ειδικότερα, μια περιγραφή των λειτουργιών που περιλαμβάνονται σε αυτό και να αποφασίσετε πόσο το χρειάζεστε. Στη συνέχεια, πρέπει να εκτελέσετε το στοιχείο μενού εντολών "Πακέτα Εγκατάσταση πακέτων από τοπικά αρχεία zip".

Όταν ξεκινάτε την κονσόλα RGui, φορτώνονται μόνο ορισμένα βασικά πακέτα. Για να αρχικοποιήσετε οποιοδήποτε άλλο πακέτο, πρέπει να εκδώσετε την εντολή βιβλιοθήκης (όνομα_πακέτου) πριν χρησιμοποιήσετε απευθείας τις συναρτήσεις της.

Μπορείτε να προσδιορίσετε ποια πακέτα φορτώνονται σε κάθε στιγμή της συνεδρίας εκδίδοντας την εντολή:

sessionInfo() R έκδοση 2.13.2 (2011-09-30) Πλατφόρμα: i386-pc-mingw32/i386 (32-bit)

–  –  –

άλλα συνημμένα πακέτα:

Vegan_2,0-2 permute_0,6-3

φορτωμένο μέσω χώρου ονομάτων (και όχι συνδεδεμένο):

Grid_2.13.2 lattice_0.19-33 tools_2.13.2 Παρέχουμε στον παρακάτω πίνακα μια λίστα (ίσως όχι εξαντλητικά πλήρη) των πακέτων που χρησιμοποιήθηκαν στα σενάρια που παρουσιάζονται σε αυτό το βιβλίο:

Πακέτα R Σκοπός "Βασικά" πακέτα Βασικές κατασκευές Βάση R Μεταγλωττιστής πακέτων R Compiler Ένα σύνολο πινάκων με δεδομένα για δοκιμή και επίδειξη συνόλων δεδομένων συναρτήσεων Βασικές λειτουργίες γραφικών γραφικά Προγράμματα οδήγησης συσκευών γραφικών, παλέτες χρωμάτων, γραμματοσειρές grΣυσκευές Λειτουργίες για τη δημιουργία επιπέδων γραφικών πλέγμα Αντικειμενοστρεφές πρόγραμμα στοιχεία (κλάσεις, μέθοδοι μέθοδοι) Λειτουργίες για εργασία με splines παλινδρόμησης διαφόρων τύπων splines Βασικές συναρτήσεις στατιστικών στατιστικών ανάλυσης Μέθοδοι στατιστικών συναρτήσεων της κλάσης S4 stats4 Στοιχεία διεπαφής χρήστη (μενού, πλαίσια επιλογής, κ.λπ.) tcltk Υποστήριξη πληροφοριών, εργαλεία διαχείρισης και τεκμηρίωσης Διάφοροι εντοπισμοί σφαλμάτων, έξοδος βοηθητικών προγραμμάτων εισόδου, αρχειοθέτηση κ.λπ.

Utils "Προτεινόμενα" πακέτα Λειτουργίες διαφόρων διαδικασιών bootstrap και jackknife boot Διάφοροι αλγόριθμοι για κλάση μη ιεραρχικής ταξινόμησης και αναγνώρισης Αλγόριθμοι για συμπλέγματα κατάτμησης και ιεραρχικής ομαδοποίησης Ανάλυση και επαλήθευση κωδικών R codetools Ανάγνωση και γραφή αρχείων τύπου SP, DBTA διάφορα , Stata) ξένες Λειτουργίες που υποστηρίζουν τη βελτιστοποίηση της εξομάλυνσης του πυρήνα KernSmooth Γραφικές συναρτήσεις εκτεταμένης λειτουργικότητας (Sarkar, 2008) πλέγμα Σύνολο δεδομένων και στατιστικών συναρτήσεων (Venables, Ripley, 2002) Λειτουργίες MASS με πίνακες και διανύσματα και γενικευμένα εφέ Matrix mgc και μη γραμμικά μοντέλα με μικτά αποτελέσματα nlme Νευρωνικά δίκτυα τροφοδοσίας nnet Κατασκευή δέντρων ταξινόμησης και παλινδρόμησης rpart Λειτουργίες kriging και ανάλυση χωρικής κατανομής σημείων χωρική ανάλυση επιβίωσης (μοντέλο Cox, κ.λπ.) επιβίωση Πακέτα που εγκαθίστανται κατά τη λειτουργία adegenet Αλγόριθμοι για ανάλυση γενετικής απόστασης Ανάλυση μοντέλων παλινδρόμησης - εφαρμογή στο βιβλίο (Gelman, Hill, 2007) car Procedures related to εφαρμοσμένη ανάλυση παλινδρόμησης corrplot Εμφάνιση πινάκων συσχέτισης σε γραφική μορφή fitdistrplus Επιλογή παραμέτρων στατιστικών κατανομών FWDselect, Selection of a set of informative variables in regression models gamair Σύνολα δεδομένων για τη δοκιμή προσθετικών μοντέλων γεωσφαίρας Εκτίμηση γεωγραφικών αποστάσεων ggplot2 Προηγμένο πακέτο γραφικών με υψηλή λειτουργικότητα DAAG Ανάλυση δεδομένων και συναρτήσεις γραφικών για το βιβλίο (Maindonald, Braun, 2010) Σύνολο συναρτήσεων του Hmisc Harrell HSAUR2 Συμπλήρωμα στο βιβλίο, HooE 2010) ISwR Πρωτογενής στατιστική ανάλυση σε R jpeg Εργασία με αρχεία γραφικών jpeg lars Ειδικοί τύποι παλινδρόμησης (LARS, Lasso, κ.λπ.) lavaan Επιβεβαιωτική ανάλυση και μοντέλα δομικών εξισώσεων lmodel2 Εφαρμογή μοντέλων παλινδρόμησης των τύπων I και II (MA, SMA, RMA, RMA ) maptools Εργαλεία για εργασία με γεωγραφικούς χάρτες ποντίκια Διαδικασίες ανάλυσης και συμπλήρωσης τιμών που λείπουν · Λειτουργίες υπολογισμός ροπών δείγματος nortest Κριτήρια για τον έλεγχο της υπόθεσης μιας κανονικής κατανομής ακραίες τιμές Ανάλυση ακραίων τιμών σε παστέκες δεδομένων Ανάλυση χωρικών και χρονικών σειρών σε ec pls Παλινδρόμηση στις κύριες συνιστώσες pwr Εκτίμηση της στατιστικής ισχύος των υποθέσεων ανασχηματισμός Ευέλικτος μετασχηματισμός πινάκων δεδομένων Virustbase Ισχυρές μέθοδοι για την κατασκευή μοντέλων παλινδρόμησης rootSolve Εύρεση των ριζών μιας συνάρτησης με πολλές μεταβλητές κλίμακες Επιλογή χρωματικών κλιμάκων sem Μοντέλα δομικών εξισώσεων σχέσεις sm Εκτίμηση της πυκνότητας κατανομής και των μεθόδων εξομάλυνσης sp Κατηγορίες και μέθοδοι πρόσβασης σε χωρικά δεδομένα spatstat Μέθοδοι χωρικών στατιστικών, επιλογή μοντέλων spdep Χωρικές εξαρτήσεις: γεωστατιστικές μέθοδοι και μοντελοποίηση stargazer Έξοδος πληροφοριών για στατιστικά μοντέλα σε διαφορετικές μορφές vcd Οπτικοποίηση δεδομένων categor Εκτέλεση υπολογισμών σχετικά με την οικολογία της κοινότητας (μέτρα ομοιότητας, ποικιλομορφίας και φωλιάσματος vegan, χειροτονία και ανάλυση πολλαπλών παραλλαγών) Εάν προσπαθήσουμε να φορτώσουμε ένα πακέτο που δεν είναι ακόμα εγκατεστημένο στο R ή προσπαθήσουμε να χρησιμοποιήσουμε τις λειτουργίες ενός πακέτου που δεν έχει ακόμη ληφθεί , θα λάβουμε μηνύματα συστήματος:

sem(model, data=PoliticalDemocracy) Σφάλμα: δεν μπορώ να βρω τη συνάρτηση "sem" library(lavaan) Σφάλμα στη βιβλιοθήκη(lavaan) : κανένα πακέτο που ονομάζεται "lavaan" Η ακόλουθη συνάρτηση, που εισήχθη από τον K. Cichini, λαμβάνει ως είσοδο ένα λίστα των χρησιμοποιημένων χρηστών πακέτων και υπολογίζει ποια πρέπει να ληφθούν και ποια πρέπει να είναι προεγκατεστημένα. Η κατανόηση του σεναρίου απαιτεί γνώση των δομών της γλώσσας R που περιγράφονται στην επόμενη ενότητα, αλλά ο ενδιαφερόμενος αναγνώστης μπορεί να επιστρέψει σε αυτές τις εντολές αργότερα.

instant_pkgs - function(pkgs) ( pkgs_miss - pkgs)] # Εγκαταστήστε πακέτα που δεν είναι έτοιμα για λήψη:

if (length(pkgs_miss) 0) ( install.packages(pkgs_miss) ) # Λήψη πακέτων που δεν έχουν γίνει ακόμη λήψη:

Συνημμένο - αναζήτηση() συνημμένο_pkgs - συνημμένο need_to_attach - pkgs if (length(need_to_attach) 0) ( for (i in 1:length(need_to_attach)) require(need_to_attach[i], character.only = TRUE) :) # Call:

instant_pkgs(c("βάση", "jpeg", "vegan"))

Μπορείτε να λάβετε μια λίστα με τις λειτουργίες κάθε πακέτου, για παράδειγμα, εκτελώντας την εντολή:

ls(pos = "package:vegan") Σημείωση: Η ls() είναι μια συνάρτηση γενικού σκοπού για την καταχώριση αντικειμένων σε ένα δεδομένο περιβάλλον. Η παραπάνω εντολή εγκαθιστά το πακέτο vegan ως τέτοιο περιβάλλον. Εάν εκδώσουμε αυτήν την εντολή χωρίς παραμέτρους, θα λάβουμε μια λίστα αντικειμένων που δημιουργήθηκαν κατά την τρέχουσα περίοδο λειτουργίας.

Μπορείτε να λάβετε μια λίστα ορισμάτων για τις εισερχόμενες παραμέτρους οποιασδήποτε συνάρτησης σε ένα φορτωμένο πακέτο εκδίδοντας την εντολή args().

Για παράδειγμα, κατά την εκτέλεση του γραμμικού μοντέλου που λαμβάνει τη συνάρτηση lm(), την οποία χρησιμοποιούμε ευρέως αργότερα, ορίζονται οι παράμετροι:

Συνάρτηση Args(lm) (τύπος, δεδομένα, υποσύνολο, βάρη, na.action, μέθοδος = "qr", μοντέλο = TRUE, x = FALSE, y = FALSE, qr = TRUE, singular.ok = TRUE, αντιθέσεις = NULL, offset,...) Εάν εισαγάγετε μια εντολή που αποτελείται μόνο από μια συντομογραφία μιας συνάρτησης (για παράδειγμα, υπολογισμός του διατεταρτημορίου εύρους του IQR), μπορείτε να λάβετε το κείμενο προέλευσης της συνάρτησης σε κωδικούς γλώσσας R:

Συνάρτηση IQR (x, na.rm = FALSE) diff(quantile(as.numeric(x), c(0.25, 0.75), na.rm = na.rm, names = FALSE)) Ένας προχωρημένος χρήστης μπορεί να κάνει αλλαγές σε αυτό κωδικοποιήστε και «ανακατευθύνετε» την κλήση τυπικής λειτουργίας στην έκδοσή σας.

Ωστόσο, αν θέλουμε να δούμε τον κώδικα της συνάρτησης predict(), που χρησιμοποιείται για τον υπολογισμό των προβλεπόμενων τιμών του γραμμικού μοντέλου, με τον ίδιο τρόπο, θα πάρουμε:

predict function (αντικείμενο,...) UseMethod("predict") Σε αυτήν την περίπτωση, η predict() είναι μια "καθολική" συνάρτηση: ανάλογα με το αντικείμενο μοντέλου που τροφοδοτείται στην είσοδο του (lm για γραμμική παλινδρόμηση, glm για Poisson ή logistic παλινδρόμηση, lme για μοντέλο μικτών επιδράσεων, κ.λπ.), ενημερώνεται η κατάλληλη μέθοδος για τη λήψη προβλεπόμενων τιμών.

Συγκεκριμένα, αυτή η συνάρτηση χρησιμοποιείται για την υλοποίηση των παρακάτω μεθόδων:

μέθοδοι("πρόβλεψη") προβλέπουν.ar* προβλέπουν.Αρίμα* προβλέπουν.arima0* προβλέπουν.glm προβλέπουν.HoltWinters* προβλέπουν.lm προβλέπουν.loess* προβλέπουν.mlm προβλέπουν.nls* προβλέπουν.πολύ προβλέπουν.ppr* προβλέπουν.prcomp* predict.princomp* predict.smooth.spline* predict.smooth.spline.fit* predict.StructTS* Οι μη ορατές συναρτήσεις επισημαίνονται με αστερίσκο Αυτό το παράδειγμα σχετίζεται με τις ιδέες αντικειμενοστρεφούς προγραμματισμού (OOP) που βρίσκονται κάτω από το πλαίσιο R For OOP Στυλ S3, μια μέθοδος είναι, αυστηρά, μια συνάρτηση που καλείται από μια άλλη γενική συνάρτηση, όπως print(), plot() ή summary(), ανάλογα με την κλάση του αντικειμένου που παρέχεται στην είσοδο του. Σε αυτήν την περίπτωση, η ιδιότητα κλάσης είναι υπεύθυνη για τον «προσανατολισμό αντικειμένου», ο οποίος διασφαλίζει τη σωστή αποστολή και κλήση της απαιτούμενης μεθόδου για ένα δεδομένο αντικείμενο. Έτσι, η "συνάρτηση μεθόδου" για τη λήψη προβλεπόμενων τιμών ενός γενικευμένου γραμμικού μοντέλου θα έχει μια κλήση στο predict.glm(), κατά την εξομάλυνση με splines - predict.smooth.spline(), κ.λπ. Λεπτομερείς πληροφορίες σχετικά με το μοντέλο S3 OOP μπορείτε να βρείτε στην ενότητα βοήθειας S3Methods και για το πιο προηγμένο μοντέλο S4, στην ενότητα Methods.

Τέλος, ας δούμε μερικές απλές τεχνικές για την αποθήκευση της εργασίας που παράγεται κατά τη διάρκεια μιας συνεδρίας R:

° sink(file= file name) – εξάγει τα αποτελέσματα της εκτέλεσης των επόμενων εντολών σε πραγματικό χρόνο σε ένα αρχείο με το καθορισμένο όνομα. Για να τερματίσετε αυτήν την εντολή, πρέπει να εκτελέσετε την εντολή sink() χωρίς παραμέτρους.

° αποθήκευση (αρχείο= όνομα αρχείου, λίστα αντικειμένων προς αποθήκευση) – αποθηκεύει τα καθορισμένα αντικείμενα σε ένα δυαδικό αρχείο σε μορφή XDR, το οποίο μπορεί να εργαστεί σε οποιοδήποτε λειτουργικό σύστημα.

° φόρτωση (αρχείο= όνομα αρχείου) – επαναφέρει τα αποθηκευμένα αντικείμενα στο τρέχον περιβάλλον.

° save.image(file=όνομα αρχείου) – αποθηκεύει όλα τα αντικείμενα που δημιουργήθηκαν κατά τη διάρκεια της εργασίας ως αρχείο rda συγκεκριμένου R.

Ένα παράδειγμα μεταφοράς ενός δημιουργημένου πίνακα με δεδομένα στο πρόχειρο σε μορφή συμβατή με τη δομή ενός φύλλου Excel δόθηκε παραπάνω σε αυτήν την ενότητα. Το Κεφάλαιο 6 θα παρέχει ένα παράδειγμα μεταφοράς δεδομένων από ένα αντικείμενο γραμμικού μοντέλου σε ένα αρχείο Word.

Το περιβάλλον R μπορεί να δημιουργήσει εικόνες pixel της απαιτούμενης ποιότητας για σχεδόν οποιαδήποτε ανάλυση οθόνης ή συσκευή εκτύπωσης και επίσης να αποθηκεύσει τα παράθυρα γραφικών που προκύπτουν σε αρχεία διαφόρων μορφών. Υπάρχει μια λειτουργία προγράμματος οδήγησης για κάθε συσκευή εξόδου γραφικών: μπορείτε να χρησιμοποιήσετε την εντολή help(Devices) για να λάβετε μια πλήρη λίστα προγραμμάτων οδήγησης.

Μεταξύ των συσκευών γραφικών, οι πιο κοινές είναι:

° windows() – Παράθυρο γραφικών Windows (οθόνη, εκτυπωτής ή μετααρχείο).

° png(), jpeg(), bmp(), tiff() – έξοδος σε αρχείο ράστερ της κατάλληλης μορφής.

° pdf(),postscript() – εξαγωγή γραφικών πληροφοριών σε αρχείο PDF ή PostScript.

Όταν ολοκληρώσετε την εργασία με τη συσκευή εξόδου, θα πρέπει να απενεργοποιήσετε το πρόγραμμα οδήγησης χρησιμοποιώντας την εντολή dev.off(). Είναι δυνατό να ενεργοποιήσετε πολλές συσκευές εξόδου γραφικών ταυτόχρονα και να κάνετε εναλλαγή μεταξύ τους: δείτε, για παράδειγμα, την αντίστοιχη ενότητα στο βιβλίο των Shipunov et al. (2012, σελ. 278).

1. ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΓΛΩΣΣΑΣ R

2.1. Τύποι δεδομένων της γλώσσας R Όλα τα αντικείμενα δεδομένων (και επομένως οι μεταβλητές) στο R μπορούν να χωριστούν στις ακόλουθες κατηγορίες (δηλαδή τύποι αντικειμένων):

° αριθμητικά – αντικείμενα που περιλαμβάνουν ακέραιους (ακέραιος) και πραγματικούς αριθμούς (διπλός).

° λογικά – λογικά αντικείμενα που λαμβάνουν μόνο δύο τιμές: FALSE (συντομογραφία F) και TRUE (T).

° χαρακτήρας – αντικείμενα χαρακτήρων (οι μεταβλητές τιμές καθορίζονται σε διπλά ή μονά εισαγωγικά).

Στο R, μπορείτε να δημιουργήσετε ονόματα για διάφορα αντικείμενα (συναρτήσεις ή μεταβλητές) τόσο στα λατινικά όσο και στα κυριλλικά, αλλά έχετε κατά νου ότι το a (Κυριλλικό) και το a (Λατινικά) είναι δύο διαφορετικά αντικείμενα. Επιπλέον, το περιβάλλον R έχει διάκριση πεζών-κεφαλαίων, δηλ. Τα πεζά και τα κεφαλαία γράμματα είναι διαφορετικά. Τα ονόματα μεταβλητών (αναγνωριστικά) στο R πρέπει να ξεκινούν με ένα γράμμα (ή τελεία) και να αποτελούνται από γράμματα, αριθμούς, τελείες και κάτω παύλες.

Με τη βοήθεια μιας ομάδας; όνομα, μπορείτε να ελέγξετε εάν υπάρχει μεταβλητή ή συνάρτηση με το καθορισμένο όνομα.

Ο έλεγχος εάν μια μεταβλητή ανήκει σε μια συγκεκριμένη κλάση ελέγχεται από τις συναρτήσεις is.numeric(object_name), is.integer(name), is.logical(name), is.character(name) και για τη μετατροπή ενός αντικειμένου σε άλλο τύπο μπορείτε να χρησιμοποιήσετε τις συναρτήσεις as.numeric (όνομα), as.integer(name), as.logical(name), as.character(name).

Υπάρχουν πολλά ειδικά αντικείμενα στο R:

° Inf – θετικό ή αρνητικό άπειρο (συνήθως το αποτέλεσμα της διαίρεσης ενός πραγματικού αριθμού με το 0).

° NA – «Λείπει τιμή» (Μη Διαθέσιμο).

° NaN – «όχι αριθμός».

Μπορείτε να ελέγξετε εάν μια μεταβλητή ανήκει σε κάποιον από αυτούς τους ειδικούς τύπους χρησιμοποιώντας τις συναρτήσεις is.nite(name), is.na(name) και is.nan(name), αντίστοιχα.

Μια έκφραση R είναι ένας συνδυασμός στοιχείων όπως ένας τελεστής εκχώρησης, αριθμητικοί ή λογικοί τελεστές, ονόματα αντικειμένων και ονόματα συναρτήσεων. Το αποτέλεσμα της εκτέλεσης μιας παράστασης εμφανίζεται συνήθως αμέσως στο παράθυρο εντολών ή γραφικών. Ωστόσο, όταν εκτελείται μια λειτουργία ανάθεσης, το αποτέλεσμα αποθηκεύεται στο αντίστοιχο αντικείμενο και δεν εμφανίζεται στην οθόνη.

Ως τελεστής εκχώρησης στο R, μπορείτε να χρησιμοποιήσετε είτε το σύμβολο "=" ή ένα ζεύγος συμβόλων "-" (αντιστοιχίζοντας μια συγκεκριμένη τιμή στο αντικείμενο στα αριστερά) ή "-" (αντιστοιχίζοντας μια τιμή στο αντικείμενο στο δικαίωμα). Θεωρείται καλό στυλ προγραμματισμού η χρήση "-".

Οι εκφράσεις της γλώσσας R οργανώνονται γραμμή προς γραμμή σε ένα σενάριο. Μπορείτε να εισάγετε πολλές εντολές σε μία γραμμή, χωρίζοντάς τες με το σύμβολο ";". Μία εντολή μπορεί επίσης να τοποθετηθεί σε δύο (ή περισσότερες) γραμμές.

Τα αριθμητικά αντικείμενα μπορούν να σχηματίσουν εκφράσεις χρησιμοποιώντας παραδοσιακές αριθμητικές πράξεις + (πρόσθεση), – (αφαίρεση), * (πολλαπλασιασμός), / (διαίρεση), ^ (εκθέτηση), %/% (διαίρεση ακέραιου αριθμού), %% (υπόλοιπο) από τη διαίρεση) . Οι λειτουργίες έχουν κανονική προτεραιότητα, δηλ. Αρχικά, εκτελείται η εκθετικότητα, μετά πολλαπλασιασμός ή διαίρεση και μετά πρόσθεση ή αφαίρεση. Οι εκφράσεις μπορούν να χρησιμοποιούν παρενθέσεις και οι πράξεις μέσα σε αυτές έχουν την υψηλότερη προτεραιότητα.

Οι λογικές εκφράσεις μπορούν να συντεθούν χρησιμοποιώντας τους ακόλουθους λογικούς τελεστές:

° "Ίσο με" == ° "Όχι ίσο με" != ° "Λιγότερο από" ° "Μεγαλύτερο από" ° "Μεγαλύτερο από ή ίσο με" = ° "Μεγαλύτερο από ή ίσο με" = ° "Λογικό ΚΑΙ" & ° "Λογικό Ή" | ° «Λογικό ΟΧΙ» !

ΥΠΟΣΤΗΡΙΞΗ, AU TSOURCING ΥΠΗΡΕΣΙΕΣ G&A FUNDS ΔΙΟΙΚΗΣΗ 2nd AMICORP GROUP ΤΟΜΕΑΣ ΛΕΙΤΟΥΡΓΙΑΣ ΕΤΑΙΡΕΙΑΣ ΞΕΧΩΡΙΖΟΝΤΑΙ ΑΠΟ ΤΟ ΠΛΗΘΟΣ w w w.am icor σελ. c om ΟΜΙΛΟΣ AMICORP ΤΟΜΕΙΣ ΔΡΑΣΤΗΡΙΟΤΗΤΑΣ ΤΗΣ ΕΤΑΙΡΕΙΑΣ ΠΕΡΙΕΧΟΜΕΝΑ ΓΙΑ ΤΗΝ ΕΤΑΙΡΕΙΑ ΟΙ ΥΠΗΡΕΣΙΕΣ ΜΑΣ Υπηρεσίες για εταιρικούς πελάτες Υπηρεσίες για θεσμικές πωλήσεις Δημιουργία και διαχείριση...”

« Ομοσπονδιακό Κρατικό Εκπαιδευτικό Δημοσιονομικό Ίδρυμα Ανώτατης Επαγγελματικής Εκπαίδευσης "Χρηματοοικονομικό Πανεπιστήμιο υπό την Κυβέρνηση της Ρωσικής Ομοσπονδίας"Ομοσπονδία» Τμήμα «Μάρκετινγκ» ΣΥΓΧΡΟΝΕΣ ΚΑΤΕΥΘΥΝΣΕΙΣ ΜΑΡΚΕΤΙΝΓΚ: ΘΕΩΡΙΑ, ΜΕΘΟΔΟΛΟΓΙΑ, ΠΡΑΚΤΙΚΗ ΣΥΛΛΟΓΙΚΗ ΜΟΝΟΓΡΑΦΙΑ Υπό τη γενική επιμέλεια του Σ.Β. Karpova Moscow 2011 Κριτές: Ν.Σ. Περεκαλίνα - Διδάκτωρ Οικονομικών Επιστημών, Καθηγήτρια, Επικεφαλής. Τμήμα Μάρκετινγκ "MATI" - Ρωσικό Κρατικό Τεχνολογικό Πανεπιστήμιο με το όνομά του. K. E. Tsiolkovsky S.S. Σολόβιεφ...»

« Ψηφιακό ενημερωτικό δελτίο Malko για CAFE και TEA EDUCATION: Ch. Επιμέλεια: Vesela Dabova Br.4 Δεκεμβρίου, 2011 Επιμέλεια: Otslabvane s tea Theodora Vasileva Gergana IvanovΔημοσιεύτηκε από: ABB Kakvo se sluchva στο σώμα ούτε όταν παίρνετε το neto στο ρόφημα τσαγιού και πώς το se sluchva αποδυνάμωσε το Nay-sigurniyat και το υγιές ξεκίνημα για namalyavana για την ολοκλήρωση του thégloto e redovnata με ένα φλιτζάνι τσάι. Υπάρχουν διαφορετικές απόψεις σχετικά με την αξιοπιστία της θεωρίας, αλλά ελάχιστα στοιχεία αποδεικνύουν ότι κάθε φλιτζάνι τσάι συνδυάζεται με το καθιερωμένο καθεστώς στις...»

« ΔΙΕΘΝΗΣ ΔΙΕΠΙΣΤΗΜΟΝΙΚΗ ΕΠΙΣΤΗΜΟΝΙΚΗ ΣΥΝΕΔΡΙΑ RADICAL SPACE IN BETWEEN DISCIPLINES RCS 2015 ΣΥΝΕΔΡΙΟ ΒΙΒΛΙΟ ΠΕΡΙΛΗΨΕΩΝ ΕΠΙΜΕΛΕΙΑ Romana Bokovi Miljana Zekovi Slaana Milievi NOVI SAD / ΣΕΡΒΙΑ / 21-23 ΣΕΠΤΕΜΒΡΙΟΥ / 2015 Radical Space In Between Disciplines Conference Book of Abstracts Επιμελητές: Romana Bokovi Miljana Zekovi Slaana Milievi ISBN: 978-86-73-892 Vuji Έκδοση από το Τμήμα Αρχιτεκτονικής και Πολεοδομίας, Σχολή Τεχνικών Επιστημών,...”

« ΚΡΑΤΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΓΙΑΣ ΠΕΤΡΟΥΠΟΛΗΣ Γεωγραφική και Γεωοικολογική Σχολή ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Γεωμορφολογίας (τελική εργασία) στοθέμα: «Γεωμορφολογικά χαρακτηριστικά και παλαιοκλίμα των λιμνών της Αρκτικής (χρησιμοποιώντας το παράδειγμα των λιμνών στον κεντρικό τομέα της ρωσικής Αρκτικής)» Συμπλήρωσε: εσπερινή φοιτήτρια Elena Aleksandrovna Morozova Επιστημονικοί επιβλέποντες: Διδάκτωρ Γεωλογικών Επιστημών, Prof. Bolshiyanov Dmitry Yurievich Ph.D., ανώτερος δασκάλα Savelyeva Larisa Anatolyevna Κριτής: Ph.D., επικεφαλής...»

« Mouse Apacer M811 – Laser mini-SUV Kit. http://news.kosht.com/computer/mouse/2009/11/26/mysh_apacer_m811. πρόσθετο αναζήτησης για ημερήσιες τιμές KOSHT.com για πρόγραμμα περιήγησης Firefox. Εγκαταστήστε ένα κλικ. Ένα κιλομπάιτ. Αρχική Νέα Τιμές Ανακοινώσεις Θέσεις εργασίας Φόρουμ Εταιρείες Mobi Εύρεση Βρείτε τα νέα σας Όλα τα νέα της KOSTA Υπολογιστές και εξαρτήματα PC Ποντίκια και εξαρτήματα Ποντίκια Όλα τα νέα της KOSTA Καλύτεροι υπολογιστές παιχνιδιών Υπολογισμός σε απευθείας σύνδεση στο UltraPrice.by Apacer M811 ποντίκι – laser mini-SUV [...»

« ΟΜΟΣΠΟΝΔΙΑΚΟΣ ΟΡΓΑΝΙΣΜΟΣ ΕΚΠΑΙΔΕΥΣΗΣ ΚΡΑΤΙΚΟΣ ΕΚΠΑΙΔΕΥΤΙΚΟΣ ΙΔΡΥΜΑ ΑΝΩΤΕΡΗΣ ΕΠΑΓΓΕΛΜΑΤΙΚΗΣ ΕΚΠΑΙΔΕΥΣΗΣ ΜΟΣΧΑ ΚΡΑΤΙΚΟΣ ΒΙΟΜΗΧΑΝΙΚΟΣΠΑΝΕΠΙΣΤΗΜΙΟ (GOU MGIU) "ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ ΚΑΙ ΤΕΧΝΟΛΟΓΙΕΣ" ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ στην ειδικότητα "Μαθηματική υποστήριξη και διαχείριση πληροφοριακών συστημάτων" από τη φοιτήτρια Tatyana Andrevna Chumakova με θέμα "Υπολογισμός διαχωρισμένων ροών πίσω από μια κακή λειτουργία του Supervisor streamlined of the body" καθ., Ph.D.- m. n. Αλεξίν Βλαντιμίρ Αντάμοβιτς..."

« R WIPO A/45/3 ΠΡΩΤΟΤΥΠΟ: Αγγλικά ΗΜΕΡΟΜΗΝΙΑ: 15 Αυγούστου 2008 ΠΑΓΚΟΣΜΙΟΣ ΟΡΓΑΝΙΣΜΟΣ ΠΝΕΥΜΑΤΙΚΗΣ ΙΔΙΟΚΤΗΣΙΑΣ ΓΕΝΕΥΗ ΣΥΝΕΛΕΥΣΗ ΚΡΑΤΩΝ ΜΕΛΩΝ WIPO ΣαράνταΠέμπτη Σειρά Συνεδριάσεων Γενεύη, 22-30 Σεπτεμβρίου 2008 ΕΙΣΟΔΟΣ ΠΑΡΑΤΗΡΗΤΩΝ Υπόμνημα του Γενικού Διευθυντή I. ΕΙΣΟΔΟΣ ΔΙΕΘΝΕΩΝ ΜΗ ΚΥΒΕΡΝΗΤΙΚΩΝ ΟΡΓΑΝΙΣΜΩΝ ΩΣ ΠΑΡΑΤΗΡΗΤΕΣ 1. Στις προηγούμενες συνεδριάσεις τους, υιοθέτησαν τις αρχές που ισχύουν κατά τις προηγούμενες συνεδριάσεις τους παραπομπές σε διεθνείς μη κυβερνητικές οργανώσεις...»

« 1 Όλεγκ Σανάεφ. ΤΑΞΙΔΙ ΓΥΡΟ ΤΟΥ ΚΟΣΜΟΥ ΜΕ ΔΙΑΡΚΕΙΑ ΤΕΣΣΕΡΑ ΧΡΟΝΩΝ ΚΑΙ ΚΟΣΤΟΣ ΕΚΑΤΟΝΤΑ ΔΟΛΑΡΙΑ Με τις ημερομηνίες ταξιδιού του Evgeniy Aleksandrovich Gvozdev στο γιοτ Lena,που υποδεικνύεται στον τίτλο, όλα είναι εντάξει - τέσσερα χρόνια συν δύο εβδομάδες: στις 7 Ιουλίου 1992, έφυγε από το λιμάνι της Makhachkala, στις 19 Ιουλίου 1996, επέστρεψε. Αλλά με τα χρήματα, είναι μια ξεκάθαρη υπερβολή, ή μάλλον μια υποτίμηση: δεν μπορείτε, φυσικά, να ζήσετε με εκατό δολάρια για τέσσερα χρόνια - θα τεντώσετε τα πόδια σας. Αλλά όταν ξεκίνησε το ταξίδι του, ο Gvozdev είχε ακριβώς αυτό το ποσό στη διάθεσή του. Και τουλάχιστον τα πόδια...»

"Institute of Management, ερευνητικό πανεπιστήμιο Belgorod State National Research University TECHNOLOGIES OF SECURITY Formation SECURING THE FORMATION OF PERSONNEL Reserve CANDIDATE POOL STATE FOR STATE AND MUCIPAL AND MUNICIPAL SERVICE Περίληψη: Περίληψη: Το άρθρο συζητά..."

« Lydia YANOVSKAYA ΣΗΜΕΙΩΣΕΙΣ ΣΧΕΤΙΚΑ ΜΕ ΤΟ MIKHAIL BULGAKOV MOSCOW "TEXT" UDC 821.161.1 BBK 84 (2Ros-Rus)6-44 Ya64 ISBN 978-5-7516-0660-2 LISBN-94-97“Κείμενο”, 2007 “ΜΠΡΑΒΟ, BIS, ΕΝΕΧΥΔΡΟΜΕΙΟ!” “ΜΠΡΑΒΟ, BIS, ΕΝΕΧΥΔΡΟΜΕΙΟ!” Δεν ξέρω πού βρίσκεται το γραφείο σύνταξης του περιοδικού Yunost στη Μόσχα σήμερα. Υπάρχει ακόμα τέτοιο περιοδικό; Στα μέσα της δεκαετίας του '70, αυτό το νεότερο και πιο όμορφο γραφείο σύνταξης στη Μόσχα βρισκόταν στη Sadovaya-Triumfalnaya, δίπλα στην πλατεία Μαγιακόφσκι, καταλαμβάνοντας ένα μικρό αλλά εξαιρετικά άνετο..."

« Παράρτημα 1 ΔΗΛΩΣΕΙΣ ΑΙΤΗΣΕΩΝ ΓΙΑ ΔΙΑΓΩΝΙΣΜΟΥΣ 2013 Έντυπο «Τ». Σελίδα τίτλου της αίτησης στο Ρωσικό Ανθρωπιστικό Ίδρυμα Όνομα έργου Αριθμός έργου Τύπος έργου (a, c, d, e, f) Τομέας γνώσης(κωδικός) Κωδικός ταξινομητή RGNF Κωδικός GRNTI (http://www.grnti.ru/) Κατεύθυνση προτεραιότητας ανάπτυξης της επιστήμης, της τεχνολογίας και της μηχανικής στη Ρωσική Ομοσπονδία, κρίσιμη τεχνολογία1 Επώνυμο, όνομα, πατρώνυμο του επικεφαλής Αριθμός τηλεφώνου επικοινωνίας του project manager Πλήρες και σύντομο όνομα του οργανισμού , μέσω του οποίου θα πρέπει να πραγματοποιηθεί...”

« Έκθεση FNI 8/2014 Εφαρμογή των πολιτικών της ΕΕ για το κλίμα και την ενέργεια στην Πολωνία: Από τον εξευρωπαϊσμό στην Πολωνοποίηση; Jon Birger Skjrseth Εφαρμογή του EU Climate καιΕνεργειακές πολιτικές στην Πολωνία: Από τον εξευρωπαϊσμό στην Πολωνοποίηση; Jon Birger Skjrseth [email προστατευμένο]Δεκέμβριος 2014 Πνευματικά δικαιώματα © Fridtjof Nansen Institute 2014 Τίτλος Implementing EU Climate and Energy Policies in Poland: From Europeanization to Polonization? Τύπος και αριθμός δημοσίευσης Σελίδες Έκθεση FNI 8/2014 57 Συγγραφέας ISBN 978-82-7613-683-8 Jon...”

« “Scientific notes of TOGU” Volume 6, No. 4, 2015 ISSN 2079-8490 Ηλεκτρονική επιστημονική έκδοση “Scientific notes of TOGU” 2015, Volume 6, No. 4, σελ. 173 – 178 Certificate El No FS. 77-39676 με ημερομηνία 05/05/2010 http://pnu.edu.ru/ru/ejournal/about/ [email προστατευμένο] UDC 316.33 © 2015 I. A. Gareeva, Διδάκτωρ Κοινωνιολογίας. Sciences, A. G. Kiseleva (Pacific State University, Khabarovsk) ΔΙΑΜΟΡΦΩΣΗ ΣΥΣΤΗΜΑΤΩΝ ΚΟΙΝΩΝΙΚΗΣ ΑΣΦΑΛΙΣΗΣ Αυτό το άρθρο αναλύει τη διαμόρφωση των συστημάτων κοινωνικής ασφάλισης και την τρέχουσα κατάστασή τους...»

« Πρόγραμμα Συνεδρίου Τσιάνγκ Μάι, Ταϊλάνδη Νοέμβριος, 2015 APCBSS Ασία-Ειρηνικό Διάσκεψη για τις Επιχειρήσεις και τις Κοινωνικές Επιστήμες Διεθνές Συνέδριο ICEI για την εκπαίδευσηΚαινοτομία APCLSE Διάσκεψη Ασίας-Ειρηνικού για την Επιστήμη και τη Μηχανική της Ζωής APCBSS Διάσκεψη Ασίας-Ειρηνικού για τις Επιχειρήσεις και τις Κοινωνικές Επιστήμες ISBN978-986-90263-0-7 Διεθνές Συνέδριο ICEI για την Καινοτομία στην Εκπαίδευση ISBN 978-986-5654-33-7 APificCLSE Conference on Life Science and Engineering ISBN 978-986-90052-9-6 Περιεχόμενο Περιεχομένου..."

Πρόγραμμα μαθημάτων

Στοιχεία προγραμματισμού στο R

  • Περιγραφική Στατιστική και Οπτικοποίηση
  • Για παράδειγμα, τι είναι πιο σημαντικό: η μέση επιταγή ή η τυπική επιταγή;

Ανάλυση συστάδων

  • Τι πρόβλημα λύνεται; Χωρίστε μια ομάδα αντικειμένων σε υποομάδες.
  • Παράδειγμα εργασίας. Τμηματοποίηση τοποθεσιών, αναγνώριση παρόμοιων τοποθεσιών.
  • Μέθοδοι που μελετήθηκαν. Ιεραρχική ανάλυση συστάδων, μέθοδος k-means, μέθοδος K-medoid.

Έλεγχος στατιστικών υποθέσεων

  • Τι πρόβλημα λύνεται; Συγκρίνετε δύο ομάδες αντικειμένων.
  • Παράδειγμα εργασίας. Δοκιμή A/B της συμπεριφοράς των χρηστών σε διαφορετικές εκδόσεις μιας σελίδας ιστότοπου.
  • Μέθοδοι που μελετήθηκαν. Τεστ για αναλογίες, Student's t test, Livigne test, Wilcoxon-Mann-Whitney

Ανάλυση γραμμικής παλινδρόμησης.

  • Παράδειγμα εργασίας. Υπολογίστε πόσο μειώθηκαν οι τιμές στα μεταχειρισμένα μετά την αύξηση των δασμών.
  • Μέθοδοι που μελετήθηκαν. Επιλογή μεταβλητών, συγγραμμικότητα, παρατηρήσεις με επιρροή, ανάλυση υπολειμμάτων. Μη παραμετρική παλινδρόμηση (εξομάλυνση πυρήνα). Πρόβλεψη σύντομων σειρών με εποχιακή συνιστώσα χρησιμοποιώντας γραμμική παλινδρόμηση

Πρόβλεψη

  • Τι πρόβλημα λύνεται; Δημιουργήστε μια πρόβλεψη χρονοσειρών
  • Παράδειγμα εργασίας. Προβλέψτε την επισκεψιμότητα του ιστότοπου για 6 μήνες εκ των προτέρων.
  • Μέθοδος υπό μελέτη. Εκθετική εξομάλυνση

Μηχανική μάθηση (Αναγνώριση προτύπων)

  • Παράδειγμα εργασίας. Αναγνωρίστε το φύλο και την ηλικία κάθε επισκέπτη του ιστότοπου
  • Μέθοδοι που μελετήθηκαν. Μέθοδος K-πλησιέστερου γείτονα Classification Trees (CART). Τυχαία δάση. Μηχανή ενίσχυσης κλίσης

Βαθμοί μαθημάτων

Στους μαθητές θα δοθούν 14 εργαστηριακές εργασίες. Το μάθημα βαθμολογείται σύμφωνα με τον ακόλουθο κανόνα:

  • Εξαιρετικό - όλες οι εργασίες έγιναν αποδεκτές.
  • Καλό - όλα τα έργα έγιναν δεκτά, εκτός από ένα;
  • Ικανοποιητικό - όλα τα έργα εκτός από δύο γίνονται δεκτά.
  • Μη ικανοποιητικό - σε άλλες περιπτώσεις.

Η εργαστηριακή εργασία είναι αυτή

  • δίνεται στον ακροατή ένα σύνολο δεδομένων και μια ερώτηση.
  • ο ακροατής απαντά στην ερώτηση, υποστηρίζοντας τις δηλώσεις του με πίνακες, γραφήματα και ένα σενάριο γραμμένο στη γλώσσα R.
  • Ο ακροατής απαντά σε επιπλέον ερωτήσεις.

Δείγμα ερώτησης. Προτείνετε παραμέτρους που θα εξασφαλίσουν τη βέλτιστη λειτουργία του αλγορίθμου Random Forest κατά την αναγνώριση μιας επωνυμίας κρασιού με βάση τα αποτελέσματα της χημικής ανάλυσης.

Τι πρέπει να γνωρίζετε για να παρακολουθήσετε το μάθημα

Υποτίθεται ότι οι συμμετέχοντες στο μάθημα έχουν ήδη παρακολουθήσει ένα μάθημα στη θεωρία πιθανοτήτων.

Λογοτεχνία

  • Shipunov, Baldin, Volkova, Korobeinikov, Nazarova, Petrov, Sufiyanov Οπτικές στατιστικές. Χρησιμοποιώντας το R
  • Masticsky, Shitikov Στατιστική ανάλυση και οπτικοποίηση δεδομένων με χρήση του R
  • Bishop Pattern Recognition and Machine Learning.
  • James, Witten, Hastie, Tibshirani. Εισαγωγή στη Στατιστική Μάθηση. Με αιτήσεις στο R.
  • Hastie, Tibshirani, Friedman. The Elements of Statistical Learning_Data Mining, Inference, and Prediction 2+ed
  • Crawley. Το βιβλίο R.
  • Kabacoff R σε δράση. Ανάλυση δεδομένων και γραφικά με τον R.

Δάσκαλοι

Κατάλογος διαλέξεων

Εισαγωγή στο R: Βασικές εντολές. Διάμεσος, τεταρτημόριο και τεταρτημόριο. Ιστόγραμμα. Γράφημα ράβδων. Διάγραμμα πίτας. Διάγραμμα διασποράς. Πίνακας Scatterplot. Χρήση χρώματος στα γραφικά. Κουτιά με μουστάκια (διάγραμμα κουτιού). Τυπική παρατήρηση δείγματος: αριθμητικός μέσος όρος, διάμεσος ή περικομμένος μέσος όρος. Επιλέγοντας έναν τρόπο περιγραφής μιας τυπικής τιμής που να είναι επαρκής για τα δεδομένα που αναλύθηκαν. Λογομοριακή κατανομή. Ακραίες και ακραίες παρατηρήσεις.

Ιεραρχική ανάλυση συστάδων. Συστάδα, αποστάσεις μεταξύ αντικειμένων, αποστάσεις μεταξύ συστάδων. Αλγόριθμος για την κατασκευή δενδρογράμματος. Scree/αγκωνιά. Τυποποίηση δεδομένων. Τυπικά λάθη κατά την προετοιμασία δεδομένων. Ερμηνεία αποτελεσμάτων.

Μέθοδος K-means. Αισθητήρες τυχαίων αριθμών, κόκκος αισθητήρα. Οπτικοποίηση του αλγορίθμου μεθόδου k-means. Μέθοδοι προσδιορισμού του αριθμού των συστάδων. Βιβλιοθήκη NbClust. Scree/αγκωνιά. Πολυδιάστατη κλιμάκωση για οπτικοποίηση συμπλέγματος.

Έλεγχος στατιστικών υποθέσεων. Υποθέσεις συμφωνίας, ομοιογένειας, ανεξαρτησίας, υποθέσεις για παραμέτρους κατανομής.

Έλεγχος στατιστικών υποθέσεων. Σφάλματα τύπου Ι και τύπου ΙΙ, τιμή p και επίπεδο σημαντικότητας, αλγόριθμος ελέγχου στατιστικών υποθέσεων και ερμηνεία των αποτελεσμάτων. Υπόθεση κανονικής κατανομής. Δοκιμές Shapiro-Wilk και Kolmogorov-Smirnov. Ασήμαντες αποκλίσεις από την κανονικότητα. Σύγκριση δειγμάτων. Ανεξάρτητα και ζευγαρωμένα δείγματα. Επιλογή μεταξύ Student's t-test, Mann-Whitney-Wilcoxon test και Mood test. Ποικιλίες Student's t-test και σύγκριση διακυμάνσεων. Οπτικοποίηση για συγκρίσεις. Δοκιμές μονής και διπλής όψης.

Έλεγχος στατιστικών υποθέσεων. Σύγκριση δειγμάτων. Ανεξάρτητα και ζευγαρωμένα δείγματα. Επιλογή μεταξύ Student's t-test, Mann-Whitney-Wilcoxon test και Mood test. Ποικιλίες Student's t-test και σύγκριση διακυμάνσεων. Οπτικοποίηση για συγκρίσεις. Δοκιμές μονής και διπλής όψης. Ανεξαρτησία. Οι συντελεστές συσχέτισης Pearson, Kendall και Spearman είναι κοινά σφάλματα κατά τη μελέτη της σχέσης μεταξύ δύο φαινομένων. Οπτική επιθεώρηση ευρημάτων.

Μοντέλο ανάλυσης γραμμικής παλινδρόμησης, ερμηνεία εκτιμήσεων συντελεστών, πολλαπλός συντελεστής προσδιορισμού. Ερμηνεία του πολλαπλού συντελεστή προσδιορισμού, περιορισμοί στο πεδίο εφαρμογής του. Προσδιορισμός των πιο σημαντικών προγνωστικών παραγόντων και αξιολόγηση της συμβολής κάθε προγνωστικού παράγοντα. Αλγόριθμοι προσαρμογής των κατασκευασμένων μοντέλων. Συγγραμμικότητα.

Ανάλυση γραμμικής παλινδρόμησης: πρόβλεψη σύντομων χρονοσειρών.

Πρόβλεψη βασισμένη σε μοντέλο παλινδρόμησης με εποχιακές μεταβλητές δείκτη (εικονικές, δομικές). Τάση, εποχιακά στοιχεία, αλλαγές στη φύση της σειράς, ακραίες τιμές. Ο λογάριθμος είναι μια τεχνική για τη μετατροπή της πολλαπλασιαστικής εποχικότητας σε αθροιστική εποχικότητα. Μεταβλητές δείκτη. Επανεκπαίδευση.

Γραμμική παλινδρόμηση - ανάλυση υπολειμμάτων. Παραβιάσεις περιορισμών μοντέλου του θεωρήματος Gauss-Markov. Ανάλυση υπολειμμάτων. Σφάλμα προδιαγραφών. Πολυσυγγραμμικότητα, Ανοχή και VIF. Έλεγχος της σταθερότητας των διακυμάνσεων των υπολειμμάτων. Διόρθωση μοντέλων παρουσία αποκλίσεων στην κατανομή των υπολειμμάτων από την κανονικότητα. Η απόσταση και η δύναμη του μάγειρα. Στατιστικά στοιχεία Durbin-Watson. Μείωση του αριθμού των εποχικών προσαρμογών.

Εκθετική εξομάλυνση Μέθοδος Holt-Winters. Τοπική τάση, τοπική εποχικότητα.

Ορολογία: Machine Learning, Τεχνητή Νοημοσύνη, Data Mining και Pattern Recognition.

Μέθοδος Κ-πλησιέστερου γείτονα. Η συνέπεια της μεθόδου. Lazy learning (τεμπέλης μάθηση). Επιλογή χαρακτηριστικών. Διασταυρούμενη επικύρωση. k-fold cross-validation. Υπερβολική τοποθέτηση. Δείγματα εκπαίδευσης και δοκιμής.

Μέθοδος Κ-πλησιέστερου γείτονα Παραδείγματα. Προσδιορισμός του αριθμού των πλησιέστερων γειτόνων. Πίνακας έκτακτης ανάγκης για τον προσδιορισμό της ποιότητας της μεθόδου.

Δέντρα ταξινόμησης ΚΑΛΑΘΙ. Γεωμετρική παράσταση. Η αναπαράσταση ως σύνολο λογικών κανόνων. Θέα δέντρου. Κόμβοι, γονείς και παιδιά, κόμβοι φύλλων. Τιμές κατωφλίου. βιβλιοθήκη rpart. Μέτρα ακαθαρσιών. Μέθοδοι μέτρησης καθαρότητας: Gini, εντροπία, σφάλματα ταξινόμησης. Κανόνες εκμάθησης δέντρων. Βιβλιοθήκη rpart.plot.



Συνιστούμε να διαβάσετε

Κορυφή