Οργάνωση αναζήτησης πληροφοριών στο δίκτυο. Μαθήματα: Οργάνωση αποθήκευσης και ανάκτησης πληροφοριών στο Διαδίκτυο

Ηλεκτρονική 21.10.2019

Η αναζήτηση πληροφοριών στο Διαδίκτυο πραγματοποιείται με δύο βασικούς τρόπους - χρησιμοποιώντας καταλόγους (ονομάζονται επίσης καταλόγους) και χρησιμοποιώντας μηχανές αναζήτησης.

Οι κατάλογοι παρέχουν αναζήτηση με βάση τα συμφραζόμενα για δομημένη περιήγηση, ενώ οι μηχανές αναζήτησης, όπως υποδηλώνει το όνομά τους, δεν παρέχουν περιεχόμενο, αλλά σας επιτρέπουν να βρείτε συγκεκριμένες λέξεις ή φράσεις.

Οι κατάλογοι μπορούν να παρομοιαστούν με τον πίνακα περιεχομένων ενός βιβλίου και οι μηχανές αναζήτησης μπορούν να παρομοιαστούν με ένα ευρετήριο θέματος.

Συχνά οι μηχανές αναζήτησης συνδυάζουν τόσο μια μηχανή αναζήτησης όσο και τους καταλόγους.

Αυτό φαίνεται ξεκάθαρα στο παράδειγμα της πρώτης σελίδας του Yandex, όπου κάτω από τη γραμμή αναζήτησης υπάρχει μια λίστα καταλόγων που επιτρέπουν στον χρήστη να βελτιώσει το ερώτημα καθώς προχωρά βαθύτερα σε καθέναν από αυτούς.

Λόγω του γεγονότος ότι η αρχή της οργάνωσης καταλόγων είναι σαφής σε όλους όσους έχουν χρησιμοποιήσει έναν κατάλογο βιβλιοθήκης - και μεταξύ των αναγνωστών, τολμούμε να πιστέψουμε, η συντριπτική πλειοψηφία είναι τέτοια - δεν θα σταθούμε λεπτομερώς στην τεχνική της εργασίας με καταλόγους και θα δώσει μεγαλύτερη προσοχή στην εργασία με τις μηχανές αναζήτησης. Για να ολοκληρώσουμε τη συζήτηση σχετικά με τους καταλόγους, ας δώσουμε ένα παράδειγμα της "αλυσίδας" με την οποία πραγματοποιείται μια αναζήτηση στον κατάλογο Yandex: Επιχειρήσεις > Διαφήμιση > Διαφήμιση στο Διαδίκτυο.

Όλες οι μηχανές αναζήτησης λειτουργούν χρησιμοποιώντας τον ίδιο αλγόριθμο και βασίζονται στις ίδιες αρχές. Οι διαφορές μεταξύ τους προκύπτουν μόνο στο επίπεδο της τεχνικής εφαρμογής αυτών των αρχών στην εργασία.

Για να κατανοήσουμε την αρχή λειτουργίας μιας μηχανής αναζήτησης, ας προσπαθήσουμε να χωρίσουμε την ερώτηση σε δύο μέρη: σε τι βασίζεται η αναζήτηση και πώς υλοποιείται.

Σε τι βασίζεται η αναζήτηση;

Όλες οι μηχανές αναζήτησης βασίζονται σε τρεις βασικούς τελεστές, οι οποίοι αποτελούν τη βάση της Boolean Algebra (ονομάζεται επίσης Boolean Logic ή Boolean).

Αυτοί είναι οι λογικοί τελεστές "AND", "OR" και "NOT". Λειτουργούν ως εξής.

1. Λογικό «ΚΑΙ». Εάν υπάρχει ένας τελεστής "AND" μεταξύ δύο λέξεων στο ερώτημα, τότε το αποτέλεσμα αναζήτησης θα βρει μόνο εκείνα τα έγγραφα που περιέχουν και τις δύο λέξεις. Έτσι, για παράδειγμα, το ερωτηματολόγιο dog AND cat θα βρει ένα έγγραφο που περιέχει την πρόταση «Ο σκύλος κυνηγούσε τη γάτα»έγγραφα που αποτελούνται από κείμενο "Η γάτα ξεκουραζόταν"ή «σκυλοτροφή», δεν θα δούμε.

2. Λογικό "OR".Εάν υπάρχει ένας τελεστής "OR" μεταξύ των λέξεων, τότε το αποτέλεσμα αναζήτησης θα είναι έγγραφα που περιέχουν τουλάχιστον μία από αυτές τις λέξεις.

Εκτός και αν κάνουμε ειδικές περιοριστικές ρήτρες, θα βρεθούν και υλικά στα οποία υπάρχουν και οι δύο αυτές λέξεις.

Κατόπιν αιτήματος ενός σκύλου Ή γάτας, θα λάβουμε έγγραφα που εξαιρούνται στο προηγούμενο αίτημα και περιέχουν το κείμενο "Η γάτα ξεκουραζόταν"ή "τροφή για σκύλους"καθώς και υλικό με πρόταση «Ο σκύλος κυνηγούσε τη γάτα».

3. Λογικό "ΟΧΙ".Εάν οι δύο προηγούμενοι τελεστές περιέγραψαν τις λέξεις που θέλετε να συμπεριλάβετε στο ερώτημα, τότε ο τελεστής "NOT" εξαιρεί τις λέξεις από το ερώτημα. Οι χρήστες που συναντούν τελεστές ερωτημάτων για πρώτη φορά συχνά εκφράζουν έκπληξη: λένε, δεν θα ήταν ευκολότερο να μην συμπεριληφθεί καθόλου μια περιττή λέξη στο ερώτημα; Γιατί να εισαγάγετε έναν πρόσθετο χειριστή; Αλίμονο, όχι. Όχι πιο εύκολο.

Στην πραγματικότητα, για να κατανοήσουμε τη σημασία του λογικού τελεστή NOT, είναι λογικό να θυμόμαστε ότι το ερώτημά μας δεν δημιουργεί τίποτα νέο στο Διαδίκτυο. Ψαρεύουμε μόνο ό,τι χρειαζόμαστε από την υπάρχουσα τεράστια, αλλά ακόμα πεπερασμένη, συστοιχία. Σε αυτή την περίπτωση, είναι απαραίτητο να αποκοπούν τα σκουπίδια πληροφοριών. Αυτό είναι που κόψαμε χρησιμοποιώντας τον τελεστή "NOT". Δυστυχώς, δεν είναι στο χέρι μας να αποφασίσουμε αν θα δούμε αυτά τα σκουπίδια στα αποτελέσματα αναζήτησης. Έτσι, για παράδειγμα, όταν ζητάτε πληροφορίες για την κορυφογραμμή μιας στέγης, τα σκουπίδια πληροφοριών εμφανίζονται πάντα με τη μορφή εγγράφων για το Μικρό Αλογάκι, το καλλιτεχνικό πατινάζ, το χόκεϊ, τα άλογα κ.λπ. Δεν υπάρχει τρόπος να κάνετε χωρίς ένα λογικό «ΟΧΙ ".

Ας δούμε παραδείγματα για το πώς λειτουργεί ο λογικός τελεστής "NOT".

Το ερωτηματολόγιο NOT cat θα βρει ένα έγγραφο που περιέχει το κείμενο "τροφή για σκύλους"και ιδού τα έγγραφα με τις λέξεις "Η γάτα ξεκουραζόταν"ή «Ο σκύλος κυνηγούσε τη γάτα»και μάλιστα "τροφή για σκύλους και γάτες"θα αποκλειστεί από την έκδοση.

Συχνά υπάρχει μια ελαφρώς πιο περίπλοκη έκδοση για τη σύνταξη ενός ερωτήματος που περιέχει όλους ή σχεδόν όλους τους παραπάνω τελεστές. Σε αυτή την περίπτωση, είναι καλύτερο να χρησιμοποιήσετε ένα στοιχείο όπως στρογγυλά συνδετήρες. Οι αγκύλες σάς επιτρέπουν να διαχωρίζετε παρόμοιες λέξεις ερωτήματος από τις υπόλοιπες. Επιπλέον, είναι οπτικά πολύ πιο βολικό για τον μεταγλωττιστή να διακρίνει μεταξύ μεμονωμένων τμημάτων της αίτησης. Δεν θα θεωρητικοποιήσουμε πάρα πολύ για τις αγκύλες, αλλά απλώς θα δείξουμε τη λειτουργία αυτού του στοιχείου χρησιμοποιώντας συγκεκριμένα παραδείγματα. Κατά τη γνώμη μας, αυτό θα καταστήσει σαφέστερο πώς και γιατί χρησιμοποιούνται οι αγκύλες.

Λοιπόν, ζητήστε γούνινο ΚΑΙ (σκύλοι Ή γάτες)

θα σας επιτρέψει να αποκτήσετε έγγραφα που σχετίζονται τόσο με γούνινο σκύλο όσο και με γούνινο γάτες - χωριστά ή μαζί. Σε αυτή την περίπτωση, οι αγκύλες "ανοίγουν" σύμφωνα με τους συνήθεις αριθμητικούς κανόνες για την τοποθέτηση του κοινού παράγοντα εκτός αγκύλων (για όσους δεν τους αρέσουν τα μαθηματικά, σπεύδουμε να πούμε ότι δεν θα εμβαθύνουμε σε αυτό). Αλλά το ερώτημα είναι χνουδωτό ΚΑΙ (σκύλοι Ή γάτες) ΟΧΙ (σκύλοι ΚΑΙ γάτες)

θα παράγει έγγραφα που λένε για αφράτους σκύλους ή χνουδωτές γάτες, αλλά δεν θα περιέχουν κείμενα που αναφέρουν και γάτες και σκύλους ταυτόχρονα.

Για άλλη μια φορά, όλες οι μηχανές αναζήτησης σήμερα λειτουργούν με βάση την ανάλυση αυτών των τριών τελεστών, αν και οι αποχρώσεις της γραφής τους σε διαφορετικές μηχανές αναζήτησης μπορεί να διαφέρουν.

Πώς υλοποιείται η αναζήτηση

Κάθε πλήρης μηχανή αναζήτησης έχει το δικό της προσωπικό ρομπότ ή αράχνες. Ονομάζονται επίσης ερπυστριοφόροι και αράχνες. Πρόκειται για προγράμματα που μεταπηδούν από σελίδα σε σελίδα και σαρώνουν τα κείμενα σε αυτά χωρίς να εμβαθύνουν στο περιεχόμενό τους. Στη συνέχεια ρίχνουν τα έγγραφα στους διακομιστές των κατόχων τους και πηγαίνουν στις επόμενες σελίδες. Πώς καθορίζει μια αράχνη πού να πάει; Βρίσκει έναν λεγόμενο υπερσύνδεσμο (αυτόν στον οποίο, όταν τοποθετήσετε το δείκτη του ποντικιού πάνω του, ο κέρσορας παίρνει την εμφάνιση μιας ανοιχτής παλάμης και όταν τον κάνετε κλικ, πηγαίνει σε άλλη σελίδα) και τον ακολουθεί. Γι' αυτό, αν κανένας σύνδεσμος δεν οδηγεί σε μια σελίδα, ούτε η αράχνη θα έρθει σε αυτήν. Εξαίρεση αποτελεί η περίπτωση όταν ο κάτοχος της σελίδας ενημερώνει μη αυτόματα τη μηχανή αναζήτησης για αυτό συμπληρώνοντας μια ειδική φόρμα στον ιστότοπο της μηχανής αναζήτησης.

Στον διακομιστή της μηχανής αναζήτησης, το κείμενο χωρίζεται σε ξεχωριστές λέξεις, σε καθεμία από τις οποίες εκχωρούνται συντεταγμένες, μετά τις οποίες εισάγονται στον πίνακα διακομιστή μαζί με έναν σύνδεσμο προς τη διεύθυνση Διαδικτύου στην οποία δημοσιεύτηκε το κείμενο τη στιγμή που επισκέφτηκε η αράχνη το.

Η ίδια η μηχανή αναζήτησης είναι ένα μεγάλο τοπικό δίκτυο που αποτελείται από ισχυρούς υπολογιστές με τεράστια ποσότητα μνήμης δίσκου. Αυτά τα μηχανήματα χωρίζονται σε υποομάδες (τα λεγόμενα clusters), μεταξύ των οποίων διανέμονται οι πληροφορίες που συλλέγουν οι αράχνες.

Όταν μια μηχανή αναζήτησης λαμβάνει ένα αίτημα, αναζητά την απάντηση στον πίνακά της και όχι στο Διαδίκτυο.

Είναι σημαντικό να κατανοήσουμε πώς η αράχνη αποφασίζει πόσο συχνά πρέπει να επισκέπτεται μια συγκεκριμένη σελίδα. Αυτός ο αλγόριθμος φαίνεται περίπου ως εξής. Μετά την εργασία με τη σελίδα, η αράχνη επιστρέφει σε αυτήν, για παράδειγμα, μετά από δύο εβδομάδες. Και αν δει ότι δεν έχουν γίνει αλλαγές, σχεδιάζει την επόμενη επίσκεψη μετά από μεγαλύτερο χρονικό διάστημα - ας πούμε, σε ένα μήνα. Και αν ακόμη και τότε δεν ανακαλύψει τίποτα καινούργιο, τότε θα επιστρέψει εδώ ακόμα αργότερα, σε ενάμιση μήνα ή δύο.

Αυτός είναι ο λόγος για τον οποίο συμβαίνει συχνά μια μηχανή αναζήτησης να παράγει ένα αποτέλεσμα για ένα αίτημα, αλλά μια προσπάθεια να μεταβείτε σε μια σελίδα χρησιμοποιώντας τον ληφθέν σύνδεσμο είναι ανεπιτυχής - πιθανότατα, καμία σελίδα απλώς δεν υπάρχει στην αρχική της θέση, αλλά η αράχνη δεν έχει επισκεφθεί για μεγάλο χρονικό διάστημα και, κατά συνέπεια, η μηχανή αναζήτησης που το σύστημα δεν γνωρίζει για την αφαίρεσή του.

Ολόκληρο το σύνολο των διαδικασιών που περιγράφηκαν παραπάνω ονομάζεται ευρετηρίαση.

Ιστορία ανάπτυξης μηχανών αναζήτησης

Η ιστορία της εξέλιξης των μηχανών αναζήτησης, κατά τη γνώμη μας, παρουσιάζεται πληρέστερα στο βιβλίο «The Invisible Internet» από αναγνωρισμένους ειδικούς στον τομέα του αόρατου Διαδικτύου, Chris Sherman και Harry Price.

Μέχρι τα μέσα της δεκαετίας του 1960, οι υπολογιστές ήταν λίγοι. Απομονωμένοι ο ένας από τον άλλον, δεν μπορούσαν να ανταλλάξουν πληροφορίες.

Το 1962, ο καθηγητής Licklider από το κορυφαίο τεχνικό πανεπιστήμιο των ΗΠΑ - το Ινστιτούτο Τεχνολογίας της Μασαχουσέτης - διατύπωσε την ιδέα ενός παγκόσμιου δικτύου υπολογιστών "Γαλαξιακό Δίκτυο". Η ιδέα άρχισε να γίνεται πράξη από έναν υπάλληλο του Αμερικανικού Υπουργείου Άμυνας, τον Larry Roberts, ο οποίος, τέσσερα χρόνια μετά τη δημοσίευση του άρθρου του καθηγητή, πρότεινε να συνδυαστούν μεμονωμένοι υπολογιστές του τμήματος στο δίκτυο που περιγράφει ο Licklider. Αυτές είναι οι προϋποθέσεις για την εμφάνιση του δικτύου ARPANET, το οποίο στη συνέχεια μετατράπηκε σε αυτό που σήμερα ονομάζεται Διαδίκτυο. Ο πρώτος κόμβος ARPANET εμφανίστηκε το 1969 και τα επόμενα χρόνια συνδέθηκαν με αυτόν πανεπιστήμια και διάφοροι εργολάβοι που εργάζονταν με παραγγελίες από το στρατιωτικό τμήμα των ΗΠΑ.

Το 1973, το Υπουργείο Άμυνας των ΗΠΑ ξεκίνησε ένα νέο πρόγραμμα που θα παρείχε αξιόπιστη επικοινωνία μεταξύ υπολογιστών χρησιμοποιώντας έναν πολύ μεγάλο αριθμό διαφορετικών συνδέσεων. Ο σκοπός αυτής της απόφασης ήταν να αυξήσει την αντίσταση του συστήματος στις προσπάθειες μαζικής διακοπής των ηλεκτρονικών μέσων επικοινωνίας. Δεδομένου ότι όλα αυτά συνέβησαν κατά τη διάρκεια του Ψυχρού Πολέμου, αφορούσαν την ανθεκτικότητα στις τρομακτικές συνέπειες που απειλούσαν μια στρατηγική πυρηνική αντιπαράθεση. Δεδομένου ότι το ARPANET ήταν ένα ενιαίο δίκτυο, το οποίο σε επίπεδο συστήματος μείωσε την ικανότητά του να αντιστέκεται σε διακοπές, προέκυψε η ιδέα της δημιουργίας ενός «δικτύου δικτύων» που θα μπορούσε θεωρητικά να είναι απείρως μεγάλο. Αυτό το έργο ονομάστηκε «Διαδίκτυο» και το ίδιο το δίκτυο ονομάστηκε «Διαδίκτυο».

Καθώς ο αριθμός των μηχανημάτων που ήταν συνδεδεμένοι στο Διαδίκτυο αυξανόταν, το ζήτημα της ανάγκης για εργαλεία που να διευκολύνουν την εύρεση κειμένου και άλλων αρχείων σε έναν απομακρυσμένο υπολογιστή, ιδανικά σε οποιονδήποτε υπολογιστή, όπου κι αν βρισκόταν στο Διαδίκτυο, έγινε αντικειμενικά επείγον.

Η πρόσβαση στα αρχεία στα πρώτα στάδια του Διαδικτύου πραγματοποιήθηκε σε δύο στάδια, καθένα από τα οποία εκτελέστηκε χειροκίνητα: εισήχθησαν ειδικές εντολές από το πληκτρολόγιο. Παρεμπιπτόντως, τότε οι υπολογιστές μπορούσαν να ελέγχονται μόνο από ειδικούς που μπορούσαν να εισάγουν εντολές στην κατάλληλη γραμμή. Δεν έχει εφευρεθεί ακόμη μια γραφική διεπαφή που επιτρέπει σε ένα μη εκπαιδευμένο άτομο να εργάζεται άνετα με ένα μηχάνημα. Έτσι, πρώτα απ 'όλα, χρησιμοποιώντας το πρόγραμμα Telnet, δημιουργήθηκε μια άμεση σύνδεση με τον υπολογιστή στον οποίο βρισκόταν το επιθυμητό αρχείο. Σε αυτό το στάδιο, η επικοινωνία μόλις δημιουργούσε τίποτα εκείνη τη στιγμή. Και μόνο τότε, χρησιμοποιώντας ένα ειδικό πρόγραμμα - FTP - θα μπορούσε να ληφθεί αυτό το συγκεκριμένο αρχείο.

Προφανώς, η αναζήτηση του απαιτούμενου εγγράφου πήρε πολύ χρόνο: ήταν απαραίτητο να γνωρίζουμε την ακριβή διεύθυνση του υπολογιστή στον οποίο βρισκόταν.

Εν τω μεταξύ, υπήρχαν όλο και περισσότεροι φάκελοι, το ενδιαφέρον γι 'αυτά αυξανόταν συνεχώς και για να βρεθεί η διεύθυνση ενός από αυτά, ήταν συνήθως απαραίτητο να επικοινωνήσετε με ομάδες συζήτησης που ζητούσαν βοήθεια και με την ελπίδα ότι κάποιος από τους συνομιλητές θα πρότεινε τη θησαυρισμένη διεύθυνση, στην οποία αποθηκεύονται οι απαραίτητες πληροφορίες.

Ως αποτέλεσμα, άρχισαν να εμφανίζονται ειδικοί διακομιστές FTP, οι οποίοι ήταν μια αποθήκευση αρχείων οργανωμένων σε καταλόγους, παρόμοια με την αρχή της αποθήκευσης πληροφοριών σε έναν προσωπικό υπολογιστή. Τέτοιοι διακομιστές υπάρχουν ακόμα και σήμερα.

Το πρώτο λειτουργικό, δημοσίως διαθέσιμο εργαλείο για την αναζήτηση αρχείων που είναι αποθηκευμένα σε διακομιστές FTP ονομάστηκε Archie και δημιουργήθηκε το 1990 από μια ομάδα διαχειριστών συστημάτων και προπτυχιακούς φοιτητές στο Πανεπιστήμιο McGill στο Μόντρεαλ. Το «Archie» ήταν το πρωτότυπο των σημερινών μηχανών αναζήτησης, αλλά πολύ πιο πρωτόγονο και περιορισμένο στις δυνατότητές του. Σερφάρει στο Διαδίκτυο, έψαξε για αρχεία σε διαφορετικούς διακομιστές FTP και κατέβασε τη λίστα με τους καταλόγους κάθε διακομιστή που βρήκε στον δικό του, σχηματίζοντας έναν κοινό κατάλογο.

Αυτός ο κατάλογος στη συνέχεια υποβλήθηκε σε επεξεργασία και αποθηκεύτηκε σε μια κεντρική βάση δεδομένων εντός της οποίας μπορούσαν να πραγματοποιηθούν αναζητήσεις. Η αναζήτηση στον υπολογιστή σας είχε υπάρξει εδώ και πολύ καιρό μέχρι τότε και, παρά το γεγονός ότι απαιτούσε και την εισαγωγή εντολών, δεν δημιουργούσε δυσκολίες στην εργασία. Ωστόσο, ένα άτομο δεν θα μπορούσε να χρησιμοποιήσει πλήρως έναν υπολογιστή χωρίς ειδική εκπαίδευση. Η βάση δεδομένων φιλοξενούνταν από το Πανεπιστήμιο Mac Gill και ενημερώνονταν κάθε μήνα.

Το 1991, η ομάδα του Mark McCahill στο Πανεπιστήμιο της Μινεσότα δημιούργησε το πρόγραμμα Golden Gopher, το οποίο συνδύαζε πρωτόκολλα Telnet και FTP. Το μόνο που έπρεπε να κάνει ο χρήστης για να αποκτήσει πρόσβαση στις πληροφορίες που χρειαζόταν ήταν να κάνει κλικ στον υπερσύνδεσμο που παρέχεται στο μενού. Έτσι, για πρώτη φορά στην ιστορία, δεν ήταν πλέον απαραίτητο να εισάγετε εντολές, έτσι από εδώ και στο εξής οι άνθρωποι μπορούσαν να «περιπλανηθούν» στους πόρους του Διαδικτύου χωρίς ειδική εκπαίδευση.

Το πρόγραμμα έδειχνε στον χρήστη διαδοχικά μενού βήμα προς βήμα, τα οποία του επέτρεψαν να μπει εύκολα βαθιά στη βάση δεδομένων καταλόγου, πλησιάζοντας όλο και πιο κοντά σε συγκεκριμένα έγγραφα, που ήταν ο σκοπός της αναζήτησης. Αυτός ο αλγόριθμος, στην πραγματικότητα, διατηρείται σήμερα σε Καταλόγους που βρίσκονται στο Διαδίκτυο.

Έχει καταστεί δυνατή η λήψη τόσο εγγράφων κειμένου, γραφικών και μουσικής, χωρίς να συνδέεται με κάποια συγκεκριμένη μορφή. Και το πιο σημαντικό, κατέστη, καταρχήν, δυνατό να βρείτε και να αποκτήσετε εύκολα τις απαραίτητες πληροφορίες στο Διαδίκτυο.

Ωστόσο, τα προβλήματα παρέμεναν. Ένα από αυτά, και αρκετά σοβαρό, σχετιζόταν με το γεγονός ότι οι υπολογιστές κατασκευάζονταν σε διαφορετικές πλατφόρμες, οι οποίες μερικές φορές δεν καταλάβαιναν ο ένας τον άλλον. Εδώ μπορούμε να κάνουμε μια αναλογία με ανθρώπους που μιλούν εντελώς διαφορετικές γλώσσες και επομένως δεν μπορούν να δημιουργήσουν μια περισσότερο ή λιγότερο ουσιαστική συνομιλία. Εκείνες τις μέρες, δεν ήταν τα λειτουργικά συστήματα που ανταγωνίζονταν μεταξύ τους, όπως τώρα, αλλά οι κατασκευαστές υλικού υπολογιστών. Σήμερα, λιγότερη σημασία έχει ποιος έφτιαξε τον υπολογιστή. Είναι πολύ πιο σημαντικό τι είναι εγκατεστημένο σε αυτό: Windows, Linux, Mac OS ή κάποιο άλλο σύστημα. Και τότε ήταν οι κατασκευαστές υλικού που καθόρισαν το πρόσωπο του Διαδικτύου.

Αντικειμενικά, δημιουργήθηκε μια ιδέα, σύμφωνα με την οποία οι υπολογιστές σε διαφορετικές πλατφόρμες θα πρέπει να μπορούν να λειτουργούν στο ίδιο πρωτόκολλο, επιτρέποντάς τους να βλέπουν σελίδες, ανεξάρτητα από το σε ποιο συγκεκριμένο μηχάνημα δημιουργήθηκαν αυτές οι σελίδες. Ήταν απαραίτητο να καταλήξουμε σε ένα τέτοιο παγκόσμιο πρωτόκολλο και να το κάνουμε φιλικό προς τον χρήστη. Ο πρώτος άνθρωπος που σκέφτηκε να συνδυάσει την τότε γνωστή απλή μορφή υπερκειμένου με καθολικά πρωτόκολλα επικοινωνίας ήταν ο Tim Berners-Lee.

Για να δώσει στον χρήστη ένα ανεξάρτητο από την πλατφόρμα και ωστόσο απλό εργαλείο, ο Berners-Lee δημιούργησε την HTML (HyperText Markup Language). Όλα τα έγγραφα Ιστού που έχουν μορφοποιηθεί με χρήση ετικετών HTML προβάλλονται ακριβώς το ίδιο σε όλο τον κόσμο, ανεξάρτητα από τον τύπο του υπολογιστή στον οποίο ένα άτομο άνοιξε τη σελίδα του ιστότοπου. Επομένως, ακόμη και σήμερα, όταν μεταφράζετε ένα αρχείο σε μορφή HTML, για παράδειγμα, σε ένα μηχάνημα με λειτουργικό σύστημα MacOS, μπορείτε να είστε βέβαιοι ότι αυτό το αρχείο θα φαίνεται ακριβώς το ίδιο σε έναν υπολογιστή με Windows.

Στη συνέχεια, η Berners-Lee επινόησε το Universal Resource Identifier, μια μέθοδο τυποποίησης διευθύνσεων που εκχωρεί μοναδικές διευθύνσεις σε υπολογιστές στο Διαδίκτυο (σήμερα τις ονομάζουμε URL, αυτές είναι αυτές που συνήθως ξεκινούν με το "www" στο μυαλό του χρήστη). Τέλος, ο εφευρέτης συγκέντρωσε όλα αυτά τα στοιχεία, δημιουργώντας ένα σύστημα με τη μορφή διακομιστών Ιστού που αποθηκεύουν έγγραφα HTML και τα σερβίρουν σε άλλους υπολογιστές κάνοντας αιτήματα HTML για έγγραφα σε συγκεκριμένες διευθύνσεις URL.

Αλλά ο Berners-Lee ήθελε να δει το Διαδίκτυο ως έναν χώρο πληροφοριών στον οποίο μπορείτε να έχετε δωρεάν πρόσβαση σε δεδομένα οποιουδήποτε τύπου. Στα πρώτα στάδια της ανάπτυξης του παγκόσμιου δικτύου, κυριαρχούσαν απλά έγγραφα κειμένου HTML. Μέχρι εκείνη την εποχή, υπήρχαν συστήματα ανάκτησης πληροφοριών σε τοπικές μηχανές, έτσι εμφανίστηκαν αρκετοί διακομιστές που προσπάθησαν να δημιουργήσουν ευρετήριο κάποιου μέρους των ιστοσελίδων και, πριν πάνε στο Διαδίκτυο για κάτι, προσφέρθηκαν να αναζητήσουν τις απαραίτητες πληροφορίες σε αυτούς τους διακομιστές.

Το κύριο πρόβλημα ήταν να βρεθούν σελίδες που θα μπορούσαν, καταρχήν, να ευρετηριαστούν. Δεδομένου ότι το Διαδίκτυο δεν διαθέτει μια κεντρική δομή και έναν κοινό πίνακα περιεχομένων, ο μόνος τρόπος για να επιτευχθεί αυτό ήταν να βρείτε έναν σύνδεσμο προς μια σελίδα και να ακολουθήσετε αυτόν τον σύνδεσμο και, στη συνέχεια, να προσθέσετε τον πόρο που βρέθηκε στο ευρετήριο.

Ωστόσο, σύντομα προέκυψε ένα άλλο πρόβλημα. Οι πιο δημοφιλείς σελίδες επισκέπτονταν οι αράχνες πιο συχνά από άλλες, καθώς ο μέγιστος αριθμός συνδέσμων υποδεικνύεται σε αυτές. Οι αράχνες, ο αριθμός και οι δυνατότητες των οποίων ήταν περιορισμένοι, «κόλλησαν» σε τέτοιες σελίδες και σπαταλούσαν πόρους, αφήνοντας πολλές άλλες διευθύνσεις απρόσεκτες, οι οποίες ήταν ακόμα λιγότερο δημοφιλείς. Για να λύσουμε αυτό το πρόβλημα, ήταν απαραίτητο να δημιουργήσουμε ένα πρόγραμμα που θα μας επέτρεπε να αγνοούμε τις ήδη ευρετηριασμένες σελίδες και να επικεντρωνόμαστε στην εύρεση νέων. Διαφορετικά, αυτό θα μπορούσε να οδηγήσει σε πρόβλημα πόρων.

Το 1993, ο φοιτητής φυσικής του MIT Mathew Gray δημιούργησε το πρώτο ευρέως γνωστό ρομπότ Ιστού, που ονομάζεται "World Wide Web Wanderer" ή απλά "Wanderer", που σημαίνει "περιπλανώμενος" ή "περιπλανώμενος" στα αγγλικά. Το γεγονός είναι ότι ο Γκρέι άρχισε να ενδιαφέρεται για τις στατιστικές. Το αποτέλεσμα αυτού του χόμπι ήταν η εμφάνιση του «περιπλανώμενου»: η εφεύρεση είχε σκοπό να βοηθήσει τον μαθητή να αναλύσει το μέγεθος του Διαδικτύου και την ταχύτητα ανάπτυξής του. Το "Wanderer" απλώς ήρθε στη σελίδα και προσδιόρισε το ίδιο το γεγονός της ύπαρξής του, χωρίς να εισάγει τα περιεχόμενα της διεύθυνσης που βρέθηκε στη βάση δεδομένων. Παρά το γεγονός ότι ο δημιουργός του ρομπότ δεν επεδίωξε άλλους στόχους, το πνευματικό του τέκνο, που στην πραγματικότητα έκανε το ντεμπούτο του στον «αγώνα» των προοδευτικών ανακαλύψεων στο Διαδίκτυο, αποτέλεσε τη βάση για πιο περίπλοκα προγράμματα που, εκτός από την ικανότητα του «περιπλανώμενου» να πλοήγηση στο Διαδίκτυο, προστέθηκε η δυνατότητα αποθήκευσης των περιεχομένων των σελίδων στα δεδομένα της βάσης δεδομένων μετά την επίσκεψή τους.

Έτυχε το 1994 να γίνει σημείο καμπής στην ιστορία της δημιουργίας μηχανών αναζήτησης. Ο μεταπτυχιακός φοιτητής του Πανεπιστημίου της Ουάσιγκτον, Μπράιαν Πίνκερτον, είχε βαρεθεί την ατελείωτη ροή email που του έστελναν οι φίλοι του λέγοντάς του για καλούς ιστότοπους που είχαν βρει στο Διαδίκτυο. Φυσικά, χρειαζόταν τους ιστότοπους, αλλά ο καταιγισμός μηνυμάτων με τις διευθύνσεις τους ήταν ενοχλητικός και η επίσκεψη σε όλες τις σελίδες χρειάστηκε πολύ χρόνο. Ωστόσο, ο Pinkerton βρήκε μια λύση στο πρόβλημα - δημιούργησε ένα ρομπότ, το οποίο ονόμασε WebCrawler (κάτι σαν "όχημα παντός εδάφους για το Διαδίκτυο"). Το "WebCrawler", όπως το "Wanderer", ανιχνεύτηκε από σελίδα σε σελίδα, ενώ θυμόταν ολόκληρο το κείμενο ενός εγγράφου Ιστού και το αποθήκευε σε μια βάση δεδομένων που ήταν προσβάσιμη για λέξεις αναζήτησης. Ο εφευρέτης παρουσίασε το πνευματικό του τέκνο στο κοινό τον Απρίλιο του 1994 και το έκανε εικονικά - μέσω μιας διεπαφής Ιστού. Η βάση δεδομένων εκείνη τη στιγμή περιείχε πληροφορίες από 6.000 διαφορετικούς διακομιστές. Μέσα σε μια εβδομάδα άρχισε να επεκτείνεται, με ημερήσια αύξηση πάνω από 100 νέους διακομιστές. Έτσι γεννήθηκε η πρώτη μηχανή αναζήτησης.

Ταυτόχρονα, ο όρος «ερπυστριοφόρος» ή «αράχνη» εισήχθη σε χρήση μεταξύ των χρηστών του Διαδικτύου, ο οποίος, όπως έχουμε ήδη πει, χρησιμοποιείται μέχρι σήμερα.

1994 – WebCrawler, Lycos, Yahoo!

1995 – Infoseek, SavvySearch, AltaVista, MetCrawler, Excite. Η εμφάνιση των μηχανών μετα-αναζήτησης.

1996 – HotBot, LookSmart.

1997 – NorthernLight.

1998 – Google, InvisibleWeb.com.

Οι μηχανές αναζήτησης στη ρωσική γλώσσα εμφανίστηκαν με την ακόλουθη σειρά:

2004 – Ρωσική έκδοση του Google (www.google.ru) και ρωσική έκδοση του Yahoo! (http://ru.yahoo.com).

Από τι αποτελείται ο ιστότοπος;

Πριν προχωρήσουμε σε μια περιγραφή της γλώσσας ερωτημάτων της μηχανής αναζήτησης, ας εξετάσουμε ποια στοιχεία αποτελείται συνήθως ένας ιστότοπος από τα οποία πρέπει να εργαστεί μια αράχνη.

Πρέπει να πούμε ότι η γλώσσα HTML είναι αρκετά απλή και λογική. Είναι ένας τρόπος διάσπασης κειμένου με τη χρήση ειδικών στοιχείων - ετικετών, τα οποία καθορίζουν τη δομή και την εμφάνιση του κειμένου όταν προβάλλεται σε πρόγραμμα περιήγησης. Αυτό που πρέπει να γνωρίζετε για τις ετικέτες είναι ότι είναι πάντα ζευγαρωμένες και ότι μπορούν να είναι άνοιγμα(υποδείξτε την έναρξη ορισμένης μορφοποίησης) και κλείσιμο(αναφέρετε το τέλος του). Η ετικέτα κλεισίματος είναι ίδια με την ετικέτα ανοίγματος, αλλά προηγείται κάθετο.

Ας δώσουμε ένα παράδειγμα μιας πολύ απλής ιστοσελίδας (Εικ. 1).

Ρύζι. 1. Παράδειγμα τοποθεσίας όπως φαίνεται στο πρόγραμμα περιήγησης Mozilla Firefox.

Στο επάνω μέρος της σελίδας που φαίνεται στο σχήμα, δηλαδή όχι στο κείμενο του ιστότοπου, αλλά στο επάνω πεδίο του πλαισίου της σελίδας, δίπλα στο στρογγυλό εικονίδιο του προγράμματος περιήγησης, υπάρχει η επιγραφή: «Εμφάνιση της συσκευής του ιστότοπου. ” Βρίσκεται στον λεγόμενο τίτλο της σελίδας (που περικλείεται ανάμεσα στην ετικέτα ανοίγματος και ετικέτα κλεισίματος). Σημειώστε ότι αυτός είναι ο τίτλος ολόκληρης της σελίδας και όχι το κείμενο.

Στη μέση της εικόνας, με έντονους πλάγιους χαρακτήρες, γράφει: «Αυτός είναι ένας απλός ιστότοπος». Αυτή η επιγραφή είναι ο τίτλος του κειμένου. Η γραμματοσειρά της φράσης "Αυτός είναι ένας απλός ιστότοπος" είναι μεγαλύτερη σε μέγεθος από τη γραμματοσειρά του κειμένου στον ιστότοπο και επισημαίνεται ειδικά ως τίτλος του κειμένου. Κατά τη σήμανση με χρήση HTML, αυτό το κείμενο βρίσκεται κάτω από την ετικέτα , αλλά μαζί με την ετικέτα <TITLE>βρίσκεται μέσα στην ετικέτα <Head>. Δηλαδή το περιεχόμενο που περιέχεται σε <TITLE>, είναι μέρος αυτού που είναι μέσα <Head>. Αυτή η διάταξη δίνει στην αράχνη μια πρόσθετη ευκαιρία να προσδιορίσει καλύτερα τις λέξεις-κλειδιά στον ιστότοπο. Εξάλλου, εάν στον τίτλο του κειμένου περιλαμβάνονται λέξεις ή, επιπλέον, ολόκληρη η σελίδα, η πιθανότητα η σελίδα και το κείμενο να αφιερώνονται στο θέμα που διατυπώνεται από αυτές τις λέξεις αυξάνεται.Κάτω από τη φράση "Αυτός είναι ένας απλός ιστότοπος" υπάρχουν τέσσερις επιλογές για την ορθογραφία του κύριου κειμένου του ιστότοπου:- συνηθισμένο;– έντονη γραφή (γραμμένο κάτω από την ετικέτα );– πλάγια γράμματα (γραμμένα κάτω από την ετικέτα );Το κύριο κείμενο του ιστότοπου, ανεξάρτητα από το με ποια γραμματοσειρά είναι γραμμένο, βρίσκεται μέσα στην ετικέτα <BODY>. Το περιεχόμενο της ετικέτας <BODY>αντιπροσωπεύει το κύριο αντικείμενο για την αράχνη και θεωρείται από αυτήν ως το κείμενο της σελίδας (στην πραγματικότητα, είναι πραγματικά το κείμενο της σελίδας).Για να δείτε την εσωτερική διάταξη του ιστότοπου, πρέπει να μετακινήσετε τον κέρσορα στο πρόγραμμα περιήγησης Mozilla Firefox σε οποιαδήποτε περιοχή του πεδίου που δεν καταλαμβάνεται από κείμενο και να πατήσετε το δεξί κουμπί του ποντικιού. Στο αναδυόμενο μενού, επιλέξτε "Προβολή πηγαίου κώδικα σελίδας".Σε σχέση με τον ιστότοπο που εξετάσαμε στο Σχ. 1, αυτός ο πηγαίος κώδικας θα μοιάζει με αυτό:<blockquote>Εμφάνιση της δομής του ιστότοπου:Αυτό είναι ένα απλό siteΑυτό είναι το κείμενο στον ιστότοπο. Κανονική γραμματοσειρά.Μαύρα γράμματα.Κυρτά γράμματα. </blockquote>Εδώ μπορείτε να δείτε όλα τα στοιχεία που περιγράψαμε παραπάνω. Επιπλέον, οι ετικέτες είναι ορατές στον πηγαίο κώδικα Τα οποία διασφαλίζουν ότι το κείμενο τοποθετείται σε νέα γραμμή και με κενό σε σχέση με το κείμενο που βρίσκεται στην προηγούμενη γραμμή.Η σήμανση HTML από προεπιλογή δεν περιλαμβάνει αναδίπλωση ή μορφοποίηση κειμένου. Επομένως, κείμενο που δεν περιέχει ετικέτες αναπαράγεται σε μια σειρά, αλλά με κενά μεταξύ των λέξεων. Για να γραφτεί το κείμενο όχι μόνο σε νέα γραμμή, αλλά με κενό σε σχέση με την παραπάνω γραμμή, χρησιμοποιούμε, όπως έχουμε ήδη δείξει, την ετικέτα Και για να γραφτεί το κείμενο σε νέα γραμμή, αλλά χωρίς κενό μεταξύ των παραπάνω και κάτω γραμμών, χρησιμοποιείται η ετικέτα .Η αρχή ενός ιστότοπου που δημιουργήθηκε με χρήση σήμανσης HTML επισημαίνεται με την ετικέτα <HTML>, και τελειώνει με την ετικέτα</HTML>. Εισαγωγή. - 4 1. Σύστημα ανάκτησης πληροφοριών. - 5 1.1. Τεκμηριωτική IPS. - 6 1.2. Πραγματικό IRS. - 8 2. Μηχανή αναζήτησης του παγκόσμιου Διαδικτύου. - 9 2.1. Πώς λειτουργούν οι μηχανές αναζήτησης. - 9 2.2. Τεχνολογία αναζήτησης. - 14 3. Μηχανές αναζήτησης του παγκόσμιου Διαδικτύου. - 18 3.1. Πώς να κάνετε αναζήτηση στο Διαδίκτυο - 18 3.2. Αναζήτηση καταλόγων. - 21 3.3. Αναζήτηση ευρετηρίων. - 23 4. Συγκριτικά χαρακτηριστικά δύο μηχανών αναζήτησης συστήματα που βασίζονται στο Rambler.ru και στο Yandex.ru. - 29 4.1. Rambler.ru - 29 4.2. Yandex.ru. - 35 Σύναψη. - 40 Λογοτεχνία. - 42 Εφαρμογή. - 43 Εισαγωγή Το Διαδίκτυο έχει απλοποιήσει πολύ τη ζωή της σύγχρονης κοινωνίας, την παγκοσμιοποίησε, αύξησε τις ευκαιρίες ορισμένων ανθρώπων και μείωσε τις ευκαιρίες άλλων. Σήμερα είναι πολύ πιο βολικό και κερδοφόρο να χρησιμοποιείτε ταχυδρομικές υπηρεσίες μέσω Διαδικτύου (για παράδειγμα, μια επιστολή από το Tobolsk στο Λονδίνο θα φτάσει στο Λονδίνο σε 5 δευτερόλεπτα). Σύμφωνα με τις παρατηρήσεις μου, το Διαδίκτυο έχει γίνει πηγή επιχειρήσεων, πηγή παγκόσμιου πολιτισμού, πηγή εκπαίδευσης και μέσο μαζικής ενημέρωσης. Σήμερα, οποιοσδήποτε χρήστης στο Διαδίκτυο μπορεί να έχει πρόσβαση σε όλα τα χρηματιστήρια και τα μουσεία του κόσμου μέσα σε λίγα δευτερόλεπτα. Κάθε χρήστης μπορεί να εκπαιδευτεί μέσω του Διαδικτύου και να εξοικειωθεί με τις κορυφαίες ηλεκτρονικές εφημερίδες στον κόσμο. Οι πληροφορίες έχουν γίνει ο εικονικός χρυσός των ημερών μας και όσοι μπορούν να τις αποκτήσουν γρηγορότερα θα πετύχουν ολοένα και μεγαλύτερη επιτυχία. Και ανεξάρτητα από το ποιος είστε, ένας επιχειρηματίας που ψάχνει για μια νέα αγορά ή ένας φοιτητής που αναζητά υλικό για ένα μάθημα, και οι δύο χρειάζονται πληροφορίες και το Διαδίκτυο μπορεί να τους τις δώσει εάν έχουν αρκετές γνώσεις για να το ακολουθήσουν. Θα μου έπαιρνε πολύ χρόνο για να απαριθμήσω τα οφέλη του Διαδικτύου για τους πολίτες της Γης, αλλά φοβάμαι ότι δεν θα τελειώσω σύντομα. Θέλω να σημειώσω το κύριο πράγμα στο Διαδίκτυο, τον «ακρογωνιαίο λίθο» του, αυτή είναι η πληροφορία και οι κύριες ιδιότητές του: 1) Μεγάλη διαθεσιμότητα 2) Ταχύτητα Οι άπειροι χρήστες έχουν έναν μύθο ότι το Διαδίκτυο έχει τα πάντα. Στην πραγματικότητα, η εμπειρία μου στο Διαδίκτυο έχει αποδείξει ότι αυτό δεν ισχύει. Το υλικό για ανάρτηση στο Διαδίκτυο προετοιμάζεται από ζωντανούς ανθρώπους και ως εκ τούτου μπορείτε να βρείτε εκεί μόνο ό,τι θεωρούσαν απαραίτητο (με την έννοια του χρήσιμου ή ωφέλιμου για τον εαυτό τους) να δημοσιεύσουν. Ωστόσο, ο ποταμός τροφοδοτείται από ρυάκια και χάρη στη δημιουργικότητά τους, περίπου δύο δισεκατομμύρια ιστοσελίδες έχουν ήδη σχηματιστεί στο Διαδίκτυο σήμερα. Ως αποτέλεσμα, η καταλογογράφηση των διαθέσιμων πόρων στον Ιστό έχει γίνει σοβαρό πρόβλημα. Παρά το γεγονός ότι χιλιάδες οργανισμοί ασχολούνται με αυτό, το πρόβλημα όχι μόνο δεν πλησιάζει στην επίλυση, αλλά γίνεται και οξύτερο. Το ποσοστό των πόρων που καταλογίζονται (ή ευρετηριάζονται) μειώνεται σταθερά. Τα τελευταία δύο χρόνια αυτή η πτώση έχει γίνει καταστροφική. Έτσι, εάν το 2000 το ποσοστό των τιμαριθμοποιημένων πόρων πλησίαζε το 40%, τότε μόνο σε ένα επόμενο έτος έπεσε στο 25%. Το συμπέρασμα είναι απλό: ο χώρος του Ιστού γεμίζει πιο γρήγορα από ό,τι συστηματοποιείται. Δυστυχώς, οι ειδικοί του Διαδικτύου δεν έχουν κανένα λόγο να πιστεύουν ότι κάτι θα αλλάξει προς το καλύτερο στο εγγύς μέλλον. Ως αποτέλεσμα, η αναζήτηση πληροφοριών στον Παγκόσμιο Ιστό μπορεί να θεωρηθεί η πιο δύσκολη εργασία στο Διαδίκτυο. Σε σχέση με τα παραπάνω, η αναζήτηση πληροφοριών υψηλής ποιότητας στο Διαδίκτυο είναι ένα από τα πιο πιεστικά θέματα στην εποχή μας, αυτό το πρόβλημα με έχει επηρεάσει περισσότερες από μία φορές. Το θέμα του μαθήματος μου με ενδιέφερε λόγω της πρωτοτυπίας και της καινοτομίας του και θέλω να προσπαθήσω να το αποκαλύψω. Το καθήκον μου θα είναι να οργανώνω αποτελεσματικά τις αναζητήσεις πληροφοριών στο Διαδίκτυο. 1. Σύστημα ανάκτησης πληροφοριών Πριν φτάσουμε σε συγκεκριμένους μηχανισμούς αναζήτησης στο παγκόσμιο Διαδίκτυο, είναι απαραίτητο να αναλύσουμε τη θεωρητική βάση τέτοιων ερωτημάτων όπως "τι είναι πληροφορίες;", "Διαδικασίες πληροφοριών;", "Σύστημα ανάκτησης πληροφοριών και οι τύποι του;". Δεν υπάρχει σαφής απάντηση στο τι είναι η πληροφορία, μπορούμε να δώσουμε μόνο μερικές από τις ιδιότητες που χαρακτηρίζουν αυτόν τον όρο: " Πληροφορίες - πρόκειται για πληροφορίες που αποτελούν αντικείμενο αποθήκευσης. αυτό είναι το περιεχόμενο του μηνύματος, το σήμα, η μνήμη, καθώς και οι πληροφορίες που περιέχονται στο μήνυμα, σήμα, μνήμη." Οι διαδικασίες μετάδοσης, αποθήκευσης και επεξεργασίας πληροφοριών έπαιζαν πάντα σημαντικό ρόλο στη ζωή της κοινωνίας. Οι άνθρωποι ανταλλάσσουν προφορικά μηνύματα, σημειώσεις, μηνύματα. Διαβιβάζουν ο ένας στον άλλο αιτήματα, παραγγελίες, εκθέσεις για την εργασία που έχει γίνει, απογραφές περιουσίας. δημοσιεύει διαφημίσεις και επιστημονικά άρθρα· κρατήστε παλιές επιστολές και έγγραφα. Συλλογίζονται για πολλή ώρα τα νέα που λαμβάνουν ή σπεύδουν αμέσως να ακολουθήσουν τις οδηγίες των ανωτέρων τους. Όλα αυτά είναι διαδικασίες πληροφόρησης. Η πληροφορία συνδέεται πάντα με έναν φορέα υλικού και η μετάδοσή τους συνδέεται πάντα με την ενεργειακή δαπάνη. Ωστόσο, οι ίδιες πληροφορίες μπορούν να αποθηκευτούν σε διαφορετικές μορφές υλικού (σε χαρτί, με τη μορφή αρνητικού φωτογραφίας, σε μαγνητική ταινία, ...) και να μεταδοθούν με διαφορετικό ενεργειακό κόστος (με ταχυδρομείο, τηλεφωνικά, με κούριερ κ.λπ. ), Επιπλέον, οι συνέπειες - συμπεριλαμβανομένων των ουσιωδών - των μεταδιδόμενων πληροφοριών είναι εντελώς ανεξάρτητες από το φυσικό κόστος της μετάδοσής τους. Για παράδειγμα, ένα ελαφρύ πάτημα ενός κουμπιού χαμηλώνει μια βαριά κουρτίνα θεάτρου ή ανατινάζει ένα μεγάλο κτίριο, ένα κόκκινο φανάρι σταματά ένα τρένο και απροσδόκητα δυσάρεστα νέα μπορεί να προκαλέσουν καρδιακή προσβολή. Επομένως, οι διαδικασίες πληροφοριών δεν μπορούν να περιοριστούν σε φυσικές και οι πληροφορίες, μαζί με την ύλη και την ενέργεια, είναι μια από τις θεμελιώδεις οντότητες του κόσμου γύρω μας. Τον 20ο αιώνα Με την ανάπτυξη της τεχνολογίας, εμφανίστηκαν νέες συσκευές: μέσα επικοινωνίας, συσκευές αυτοματισμού και από τη δεκαετία του '40. - τεχνολογία υπολογιστών. Αποδείχθηκε ότι η αποτελεσματικότητα της λειτουργίας τους δεν μπορεί να περιγραφεί χρησιμοποιώντας φυσικές έννοιες και ότι τα βασικά χαρακτηριστικά τέτοιων συσκευών πρέπει να περιγραφούν με εντελώς διαφορετικούς τρόπους. Ως αποτέλεσμα, προέκυψε για πρώτη φορά η ακριβής έννοια της πληροφορίας και η μαθηματική θεωρία της πληροφορίας. Έγινε σαφές ότι τα μέσα επικοινωνίας, ανεξάρτητα από τις φυσικές διαδικασίες που χρησιμοποιούν, είναι μέσα μετάδοσης πληροφοριών. Ο συνδυασμός των εννοιών «πληροφόρηση» και «διαχείριση» οδήγησε τον Ν. Βίνερ στη δεκαετία του '40. στη δημιουργία της κυβερνητικής, η οποία, ειδικότερα, για πρώτη φορά επεσήμανε την κοινότητα των διαδικασιών πληροφοριών στην τεχνολογία, την κοινωνία και τους ζωντανούς οργανισμούς. Η χρήση της έννοιας της πληροφορίας είχε σημαντικό αντίκτυπο στην ανάπτυξη της σύγχρονης βιολογίας, ιδιαίτερα των κλάδων της όπως η νευροφυσιολογία και η γενετική. Και τέλος, σε σχέση με την ανάπτυξη της τεχνολογίας των υπολογιστών, η οποία τόνωσε την πληροφορική ολόκληρης της κοινωνίας, προέκυψε ένα σύμπλεγμα επιστημών σε διάφορες πτυχές της εργασίας με τις πληροφορίες - επιστήμη των υπολογιστών. " Σύστημα ανάκτησης πληροφοριών - πρόκειται για ένα σύστημα όπου αποθηκεύεται ένας πίνακας πληροφοριών, από τον οποίο παρέχονται οι απαραίτητες πληροφορίες σύμφωνα με τις απαιτήσεις του χρήστη." Η αναζήτηση πληροφοριών κατόπιν αιτήματος του χρήστη πραγματοποιείται είτε αυτόματα είτε χειροκίνητα (όπως στις βιβλιοθήκες, όταν ένας αναγνώστης υποβάλλει αίτημα στον υπάλληλο της συλλογής αναφοράς και ο υπάλληλος χρησιμοποιεί το σύστημα καταλόγου). Στη δεύτερη περίπτωση χρησιμοποιούνται υπολογιστές εξοπλισμένοι με ειδικό λογισμικό που αναλύει τις διαδικασίες αιτημάτων, αναζήτησης και έκδοσης των απαραίτητων εγγράφων. Έτσι, τα συστήματα ανάκτησης πληροφοριών (IRS) εφαρμόζουν μια σχέση ερώτησης-απάντησης, η οποία φέρνει τις εργασίες που αντιμετωπίζουν οι δημιουργοί τέτοιων συστημάτων πιο κοντά στις εργασίες που επιλύονται από τους δημιουργούς συστημάτων ανθρώπου-μηχανής. Τα συστήματα ανάκτησης πληροφοριών χωρίζονται σε δύο τύπους: 1. Τεκμηριωτική IRS. 2. Πραγματικό IRS. 1.1 Τεκμηριωτική IRS Σε ένα τέτοιο σύστημα ανάκτησης πληροφοριών, όλα τα αποθηκευμένα έγγραφα ευρετηριάζονται με κάποιον ειδικό τρόπο. Σε κάθε έγγραφο (άρθρο, αναφορά, πρωτόκολλο κ.λπ.) εκχωρείται ένας μεμονωμένος κωδικός που συνθέτει την εικόνα αναζήτησης του εγγράφου. Η αναζήτηση δεν βασίζεται στα ίδια τα έγγραφα, αλλά στις εικόνες αναζήτησής τους, οι οποίες περιέχουν πληροφορίες (διεύθυνση) σχετικά με τη θέση του εγγράφου. Έτσι αναζητούνται τα βιβλία με παραγγελίες αναγνωστών σε μεγάλες βιβλιοθήκες (σε μικρές βιβλιοθήκες ο βιβλιοθηκάριος συνήθως αναζητά βιβλία ο ίδιος). Κατόπιν αιτήματος του αναγνώστη, βρίσκουν πρώτα μια κάρτα στον κατάλογο και, στη συνέχεια, χρησιμοποιώντας τον κωδικό που αναγράφεται σε αυτήν, βρίσκεται το ίδιο το βιβλίο. Οι διαφορές μεταξύ των συστημάτων ανάκτησης τεκμηριωτικών πληροφοριών καθορίζονται από το πώς είναι δομημένη η εικόνα αναζήτησης του εγγράφου. Στην απλούστερη περίπτωση, αυτό είναι απλώς το ατομικό του όνομα (για παράδειγμα, τίτλος, συγγραφέας, έτος έκδοσης του βιβλίου). Σε πιο περίπλοκες περιπτώσεις, δεν υπάρχει αντιστοιχία ένας προς έναν μεταξύ της εικόνας αναζήτησης του εγγράφου και του ίδιου του εγγράφου. Είναι πολύ πιθανό μια εικόνα αναζήτησης ενός εγγράφου να αντιστοιχεί σε πολλά διαφορετικά έγγραφα και, αντίθετα, το ίδιο έγγραφο να αντιστοιχεί όχι σε μία, αλλά σε πολλές εικόνες αναζήτησης. <table cellpadding="0" cellspacing="0" align="left"><tr><td width="0" height="0"> </td> <td> </td> <td> </td> <td> </td> </tr><tr><td height="462"> </td> <td colspan="3" align="left" valign="top"> </td> </tr><tr><td height="145"> </td> </tr><tr><td height="36"> </td> <td> </td> <td height="36" bgcolor="white"> <table cellpadding="0" cellspacing="0"><tr><td> </td> </tr></table></td> </tr></table> Για παράδειγμα, οι εικόνες αναζήτησης εγγράφων σε συστήματα περιγραφής έχουν τέτοια ασάφεια. "Ένας περιγραφέας είναι μια λέξη ή φράση που σχετίζεται στενά με το περιεχόμενο ενός εγγράφου. Ένα σύνολο περιγραφικών ορίζει μια ομάδα εγγράφων με παρόμοιο περιεχόμενο." Πρόσφατα, τα περιοδικά που δημοσιεύουν επιστημονικά άρθρα απαιτούν από τους συγγραφείς τους να παρέχουν μια λίστα με λέξεις-κλειδιά για κάθε άρθρο, οι οποίες χρησιμεύουν ως περιγραφείς. Εάν, για παράδειγμα, περιγράφετε το άρθρο που διαβάζετε χρησιμοποιώντας λέξεις-κλειδιά, τότε μία από τις πιθανές λίστες θα είναι η εξής: ανάκτηση πληροφοριών, σύστημα ανάκτησης πληροφοριών, περιγραφέας, θησαυρός, εικόνα αναζήτησης εγγράφων. Χρησιμοποιώντας ένα σύνολο από αυτές τις λέξεις-κλειδιά (ένα σύνολο περιγραφικών), μπορείτε να βρείτε αυτό το άρθρο ανάμεσα σε όλα τα άρθρα του βιβλίου, εάν εισαγάγετε το περιεχόμενό του άρθρο προς άρθρο σε οποιοδήποτε IRS τύπου περιγραφικού. Το γενικό μπλοκ διάγραμμα του περιγραφικού τύπου IPS φαίνεται στο Σχ. 1. Αυτό το κύκλωμα έχει δύο εισόδους. Ένα κάθε φορά, η σειρά πληροφοριών των εγγράφων που είναι αποθηκευμένα στο σύστημα αναπληρώνεται και η δεύτερη λαμβάνει αιτήματα χρηστών. 1.2 Πραγματικό IRS Σε αντίθεση με τα συστήματα πληροφοριών εγγράφων-γραφικών, τα πληροφοριακά συστήματα αυτού του τύπου δεν αποθηκεύουν έγγραφα, αλλά γεγονότα που σχετίζονται με οποιοδήποτε θέμα. Τα αποθηκευμένα γεγονότα μπορούν να εξαχθούν από διάφορα έγγραφα. Για παράδειγμα, είναι απαραίτητο να επεξεργαστούμε ξανά την ιστορία του δέκατου όγδοου αιώνα σε μια βάση δεδομένων γεγονότων που συνδέονται μεταξύ τους με ένα σύστημα ποικίλων σχέσεων. Ένα τέτοιο δίκτυο στο IRS ονομάζεται θησαυρός της θεματικής περιοχής. Ερωτήματα που λαμβάνονται από συστήματα ανάκτησης πραγματικών πληροφοριών χρησιμοποιούν έναν θησαυρό για να βρουν απαντήσεις σε ερωτήματα. Η αναζήτηση πραγματοποιείται χρησιμοποιώντας μια μέθοδο αναζήτησης παρόμοια με αυτή που χρησιμοποιείται ευρέως στις βάσεις γνώσεων των συστημάτων τεχνητής νοημοσύνης. Για παράδειγμα, είναι απαραίτητο να ξαναδουλέψουμε την ιστορία του δέκατου όγδοου αιώνα και να συλλέξουμε όλες τις πληροφορίες για την Αικατερίνη Β'. Οι IRS πραγματικού τύπου πλησιάζουν σταδιακά στην οργάνωση και λειτουργία τους σε ανεπτυγμένες βάσεις δεδομένων και γνώσεις. 2. Μηχανή αναζήτησης του παγκόσμιου Διαδικτύου. Δεν θέλω να μπω στην εσωτερική λειτουργία μιας μηχανής αναζήτησης (σε ηλεκτρονικό επίπεδο), γιατί... αυτό δεν ανταποκρίνεται στους στόχους της δουλειάς μου, και κατά τη γνώμη μου αυτό είναι το έργο προγραμματιστών ανώτατου επιπέδου για το οποίο προσπαθώ τώρα. Θέλω να αποσυναρμολογήσω και να περιγράψω λεπτομερώς πώς άρχισα να κατανοώ την τεχνολογία της ανάκτησης πληροφοριών και τον ίδιο τον μηχανισμό ανάκτησης πληροφοριών. 2.1 Τεχνολογία αναζήτησης πληροφοριών στο Διαδίκτυο Η ίδια η τεχνολογία αναζήτησης γίνεται πιο κατανοητή στο Σχ. 2. 1) Αρχικά, ο χρήστης λύνει το εξής πρόβλημα: τι θέλει να βρει και πού μπορεί να βρίσκεται. 2) Μετά πηγαίνει στο Διαδίκτυο, σε ένα συνηθισμένο παράθυρο του Internet Exploer (Πρόγραμμα περιήγησης). Εάν ο χρήστης γνωρίζει το όνομα του ιστότοπου όπου βρίσκονται οι πληροφορίες που τον ενδιαφέρουν, τότε απλώς αναφέρει το όνομά του και πηγαίνει σε αυτό. Παράδειγμα. Ο χρήστης θέλει να μάθει για τη διανομή ταινιών σήμερα και πηγαίνει στον ιστότοπο film.ru (Εικ. 3). Αυτός είναι ο πιο πρωτόγονος τρόπος αναζήτησης πληροφοριών στο Διαδίκτυο και η αναζήτηση μπορεί να τελειώσει εκεί. πληροφορίες για μια ταινία που κυκλοφόρησε πριν από πολύ καιρό, για παράδειγμα, για να βρείτε την ταινία "Brother-2", είναι αρκετές στο παράθυρο <table cellpadding="0" cellspacing="0" align="left"><tr><td width="2" height="7"> </td> </tr><tr><td> </td> <td> </td> </tr></table> Η αναζήτηση εκτελείται αυτόματα με βάση τον αριθμό των λέξεων που βρίσκονται στον διακομιστή. Η πρώτη ομάδα συνδέσμων που βρέθηκαν με τους καλύτερους δείκτες ως προς τον αριθμό των εμφανίσεων των λέξεων αναζήτησης θα μεταφερθεί στον υπολογιστή του. Συχνά, μαζί με έναν σύνδεσμο, μπορούν να εμφανιστούν σύντομες πληροφορίες σχετικά με το έγγραφο. Εάν μεταξύ των εγγράφων που βρέθηκαν δεν υπάρχουν απαραίτητα, τότε μπορεί να εμφανιστεί η επόμενη ομάδα - ο συνολικός αριθμός των εγγράφων είναι συνήθως σε χιλιάδες. Για να μεταβείτε στον διακομιστή όπου βρίσκονται οι πληροφορίες που βρέθηκαν, απλώς κάντε κλικ στον σύνδεσμο στο αποτέλεσμα αναζήτησης. Αυτός είναι ο πιο πρωτόγονος τρόπος αναζήτησης πληροφοριών στο Διαδίκτυο και η αναζήτηση μπορεί να τελειώσει εκεί. Υπάρχουν επίσης εσωτερικά συστήματα αναζήτησης ιστοτόπων (τοπικά). Παράδειγμα. Στο ίδιο film.ru είναι δυνατή η προβολή πληροφορίες για μια ταινία που εδώ και καιρό έχει βγει από τις αίθουσες, να Για παράδειγμα, βρείτε την ταινία "Brother-2", ακριβώς στο παράθυρο πληκτρολογήστε τη λέξη Brother-2 (Εικ. 3) 3) Εάν ο χρήστης δεν γνωρίζει το όνομα του ιστότοπου όπου μπορεί να βρει τις πληροφορίες που τον ενδιαφέρουν, τότε καταφεύγει στη βοήθεια κάποιας μηχανής αναζήτησης. Υπάρχει ένας σημαντικός αριθμός συστημάτων βοήθειας στο διαδίκτυο. Έχοντας πρόσβαση στον καθορισμένο διακομιστή, θα λάβει μια φόρμα αίτησης στην οθόνη στην οποία πρέπει να εισάγει πληροφορίες για την αναζήτηση. Συνήθως στη μορφή είναι δυνατό να περιοριστεί η περιοχή αναζήτησης (για παράδειγμα, ανά θέμα). Μπορεί να εισαγάγει τον επιθυμητό όρο, να ορίσει την περιοχή αναζήτησης και να προσπαθήσει να πάρει μια απάντηση. Η αναζήτηση εκτελείται αυτόματα με βάση τον αριθμό των λέξεων που βρίσκονται στον διακομιστή. Η πρώτη ομάδα συνδέσμων που βρέθηκαν με τους καλύτερους δείκτες ως προς τον αριθμό των εμφανίσεων των λέξεων αναζήτησης θα μεταφερθεί στον υπολογιστή του. Συχνά, μαζί με έναν σύνδεσμο, μπορούν να εμφανιστούν σύντομες πληροφορίες σχετικά με το έγγραφο. Εάν μεταξύ των εγγράφων που βρέθηκαν δεν υπάρχουν απαραίτητα, τότε μπορεί να εμφανιστεί η επόμενη ομάδα - ο συνολικός αριθμός των εγγράφων είναι συνήθως σε χιλιάδες. Για να μεταβείτε στον διακομιστή όπου βρίσκονται οι πληροφορίες που βρέθηκαν, απλώς κάντε κλικ στον σύνδεσμο στο αποτέλεσμα αναζήτησης. Συνήθως, η αναζήτηση για ένα ζευγάρι λέξεων-κλειδιών θα έχει ως αποτέλεσμα δεκάδες χιλιάδες συνδέσμους προς έγγραφα που περιέχουν αυτούς τους όρους. Ένας τέτοιος όγκος αποτελεσμάτων σπάνια επιτρέπει σε κάποιον να βρει αποτελεσματικά ένα «μαργαριτάρι» ανάμεσα σε υλικά που δεν σχετίζονται με το θέμα της αναζήτησης. Τι μπορείτε να προτείνετε; Αρχικά, ο χρήστης πρέπει να περιορίσει την περιοχή αναζήτησης. Προσπαθήστε να προσδιορίσετε σε ποιους διακομιστές προφίλ, σε ποια χώρα κ.λπ. πιθανότατα μπορείτε να βρείτε τα υλικά που σας ενδιαφέρουν. Σκεφτείτε ποιες άλλες λέξεις-κλειδιά μπορούν να χαρακτηρίσουν αντικείμενα αναζήτησης, χρησιμοποιήστε πολλές λέξεις-κλειδιά. Εάν το αντικείμενο αναζήτησης καθορίζει πολλούς όρους, τότε η μηχανή αναζήτησης αναζητά την εμφάνιση κάθε λέξης στο έγγραφο ανεξάρτητα. Δηλαδή, ένα αποτέλεσμα αναζήτησης μπορεί να οδηγήσει σε ένα έγγραφο που περιέχει μόνο μία λέξη, αλλά πολλές φορές. Επομένως, κατά τον ορισμό των όρων προς αναζήτηση, μπορείτε και πρέπει να χρησιμοποιήσετε λογικές πράξεις. Για παράδειγμα, η εισαγωγή word_1&word_2 θα σας αναγκάσει να αναζητήσετε εκείνες τις σελίδες όπου χρησιμοποιούνται τόσο ο πρώτος όσο και ο δεύτερος όρος. Δεύτερον, είναι απαραίτητο να πραγματοποιηθεί αναζήτηση σε όλες τις γνωστές μηχανές αναζήτησης. Κάθε ένα από αυτά χρησιμοποιεί τη δική του, ελαφρώς διαφορετική τεχνολογία αναζήτησης. Επομένως, εντελώς παρόμοιες αναζητήσεις μπορούν να οδηγήσουν σε διαφορετικά αποτελέσματα. Οι περισσότερες μηχανές αναζήτησης είναι δωρεάν, επομένως τίποτα δεν σας εμποδίζει να πραγματοποιήσετε όσες αναζητήσεις χρειάζεστε. Τρίτον, πολύ συχνά το αποτέλεσμα μπορεί να επιτευχθεί αναζητώντας έγγραφα με βάση πιθανούς συνδέσμους με αυτά. Ο χρήστης θα πρέπει να προσπαθήσει να προσδιορίσει ποια γνωστά έγγραφα μπορεί να περιέχουν αναφορές στα θέματά του. Και μέσω συνδέσμων υπερκειμένου σε έγγραφα, φτάστε στην επιθυμητή πηγή. Συχνά αυτός ο τρόπος είναι αποτελεσματικός. Προσπαθήστε να βρείτε οργανισμούς (διακομιστές WWW) που έχουν προφίλ παρόμοιο με το θέμα αναζήτησης. Μερικές φορές, μέσω συνδέσμων στα έγγραφα αυτών των διακομιστών, μπορείτε να έχετε πρόσβαση στα απαραίτητα υλικά. Τέταρτον, προσπαθήστε να βρείτε ένα συνέδριο για παρόμοια θέματα, π.χ. απλά πήγαινε σε CHAT. Για παράδειγμα, στο www.anekdotov.net.ru. Συχνά μια ερώτηση που "πετάγεται" σε μια ομάδα συζητήσεων παρέχει επαρκείς πληροφορίες για το ιστορικό. Και τέλος, μην ξεχάσετε να ρωτήσετε τους φίλους σας. Μπορεί να προτείνουν μια απροσδόκητη λύση. Σε κάθε περίπτωση, πρέπει να είστε προετοιμασμένοι για το γεγονός ότι η αναζήτηση μπορεί να διαρκέσει αρκετά μεγάλο χρονικό διάστημα και να απαιτήσει σημαντική προσπάθεια. Παράδειγμα. Ο χρήστης εισέρχεται στη μηχανή αναζήτησης Yandex.ru και στο παράθυρο αναζήτησης πληκτρολογεί τη λέξη Brother-2 και, στη συνέχεια, πραγματοποιείται αναζήτηση για οτιδήποτε μπορεί να σχετίζεται με οποιονδήποτε τρόπο με αυτήν τη λέξη. Η Yandex θα σας προτείνει να στραφείτε σε πολλούς ιστότοπους, συμπεριλαμβανομένου του film.ru και απευθείας στον ιστότοπο σχετικά με την ίδια την ταινία. (Εικ-4) 2.2 Πώς λειτουργούν οι μηχανές αναζήτησης Μια μηχανή αναζήτησης συνήθως αναζητά σχετικές πληροφορίες μέσω τριών βημάτων: Ι) Στάδιο: Ένα ρομπότ (πράκτορας, αράχνη ή ανιχνευτής) πλοηγείται στο Διαδίκτυο και συλλέγει πληροφορίες. II) Στάδιο: Όλες οι πληροφορίες που συλλέγονται από τα ρομπότ εισέρχονται στη βάση δεδομένων με τη μορφή συνδέσμων και ευρετηριάζονται. III) Στάδιο: Ξεκινά μια μηχανή αναζήτησης, την οποία οι χρήστες χρησιμοποιούν ως διεπαφή για να αλληλεπιδράσουν με τη βάση δεδομένων. εκείνοι. η βάση δεδομένων δημιουργεί υπερσυνδέσμους και στη συνέχεια ο χρήστης απλώς αναζητά τους απαραίτητους συνδέσμους. Αυτά τα στάδια εκφράζονται ξεκάθαρα στη λειτουργία του μπλοκ διαγράμματος (Εικ. 2) Τα δύο πρώτα είναι προπαρασκευαστικά και αόρατα στο χρήστη. Ας εξετάσουμε λεπτομερέστερα τα στάδια αναζήτησης πληροφοριών Μηχανή αναζήτησης: Ι) Στάδιο. Η μηχανή αναζήτησης συλλέγει πληροφορίες από τον Παγκόσμιο Ιστό. Για να το κάνετε αυτό, χρησιμοποιήστε ειδικά προγράμματα παρόμοια με προγράμματα περιήγησης. Μπορούν να αντιγράψουν μια δεδομένη ιστοσελίδα σε έναν διακομιστή ευρετηρίου αναζήτησης, να την προβάλουν, να βρουν όλους τους υπερσυνδέσμους που βρίσκονται σε αυτήν, να μεταβούν στις διευθύνσεις URL που καθορίζονται σε αυτές, να αντιγράψουν τους πόρους που βρίσκονται εκεί, να βρουν ξανά τους υπερσυνδέσμους που υπάρχουν κ.λπ. δ. Πρόκειται για ειδικά προγράμματα, όπως πράκτορες, αράχνες, ανιχνευτές και ρομπότ, που αναζητούν σελίδες στον Ιστό, εξάγουν συνδέσμους υπερκειμένου σε αυτές τις σελίδες και ευρετηριάζουν αυτόματα τις πληροφορίες που βρίσκουν για να δημιουργήσουν μια βάση δεδομένων. Κάθε μηχανή αναζήτησης έχει το δικό της σύνολο κανόνων που καθορίζουν τον τρόπο συλλογής εγγράφων. Μερικοί ακολουθούν κάθε σύνδεσμο σε κάθε σελίδα που βρίσκουν και, στη συνέχεια, εξερευνούν με τη σειρά τους κάθε σύνδεσμο σε κάθε νέα σελίδα, και ούτω καθεξής. Ορισμένοι αγνοούν συνδέσμους που οδηγούν σε αρχεία γραφικών και ήχου, αρχεία κινούμενων εικόνων. άλλοι έχουν εντολή να κοιτάξουν πρώτα τις πιο δημοφιλείς σελίδες. Πράκτορες - τα πιο «έξυπνα» εργαλεία αναζήτησης. Μπορούν να κάνουν περισσότερα από απλή αναζήτηση: μπορούν να αφήσουν ένα μήνυμα σχετικά με την επίσκεψή σας στον ιστότοπο. Ήδη τώρα μπορούν να αναζητήσουν ιστότοπους για ένα συγκεκριμένο θέμα και να επιστρέψουν λίστες ιστότοπων ταξινομημένων με βάση την επισκεψιμότητά τους. Οι πράκτορες μπορούν να επεξεργάζονται περιεχόμενο εγγράφων και να βρίσκουν και να ευρετηριάζουν άλλους τύπους πόρων, όχι μόνο σελίδες. Μπορούν επίσης να προγραμματιστούν για να εξάγουν πληροφορίες από υπάρχουσες βάσεις δεδομένων. Όποιες πληροφορίες και αν ευρετηριάζουν οι πράκτορες, τις περνούν πίσω στη βάση δεδομένων της μηχανής αναζήτησης. Οι γενικές αναζητήσεις για πληροφορίες στο Διαδίκτυο πραγματοποιούνται από προγράμματα γνωστά ως spiders. Αράχνες αναφέρετε τα περιεχόμενα του εγγράφου που βρέθηκε, ευρετηριάστε το και εξάγετε συνοπτικές πληροφορίες. Εξετάζουν επίσης τίτλους, ορισμένους συνδέσμους και στέλνουν τις ευρετηριασμένες πληροφορίες στη βάση δεδομένων της μηχανής αναζήτησης. Ανιχνευτές σαρώστε τις κεφαλίδες και επιστρέψτε μόνο τον πρώτο σύνδεσμο. Τα ρομπότ μπορούν να προγραμματιστούν ώστε να ακολουθούν διάφορους συνδέσμους διαφορετικού βάθους ένθεσης, να εκτελούν ευρετηρίαση και ακόμη και να ελέγχουν συνδέσμους σε ένα έγγραφο. Λόγω της φύσης τους, μπορούν να κολλήσουν σε βρόχους, επομένως απαιτούν σημαντικούς πόρους δικτύου για να ακολουθήσουν συνδέσμους. Ωστόσο, υπάρχουν μέθοδοι που έχουν σχεδιαστεί για να εμποδίζουν τα ρομπότ να αναζητούν ιστότοπους των οποίων οι ιδιοκτήτες δεν θέλουν να ευρετηριαστούν. Ρομπότ εξαγωγή και ευρετηρίαση διαφόρων τύπων πληροφοριών. Ορισμένοι, για παράδειγμα, ευρετηριάζουν κάθε λέξη σε ένα έγγραφο που συναντάται, ενώ άλλοι ευρετηριάζουν μόνο τις πιο σημαντικές 100 λέξεις σε καθεμία, ευρετηριάζουν το μέγεθος του εγγράφου και τον αριθμό των λέξεων σε αυτό, τον τίτλο, τις επικεφαλίδες και τις υπότιτλους κ.λπ. . Ο τύπος του ευρετηρίου που κατασκευάζεται καθορίζει ποιες αναζητήσεις μπορούν να γίνουν από τη μηχανή αναζήτησης και πώς θα ερμηνευθούν οι πληροφορίες που θα προκύψουν. Τα άτομα που θέλουν να παρέχουν πληροφορίες στο ευρύ κοινό ή που θέλουν περισσότερη επισκεψιμότητα στον ιστότοπό τους, τοποθετούν σύντομα αποσπάσματα από το τι είναι αυτός ο ιστότοπος απευθείας στο ευρετήριο, συμπληρώνοντας μια ειδική φόρμα για την ενότητα στην οποία υποθέτουν ότι το ρομπότ αναζήτησης θα επικοινωνήστε και τραβήξτε αυτόν τον ιστότοπο στη βάση δεδομένων και παρέχετε τον σε κάποιον χρήστη. Όταν κάποιος θέλει να βρει πληροφορίες διαθέσιμες στο Διαδίκτυο, επισκέπτεται τη σελίδα της μηχανής αναζήτησης και συμπληρώνει μια φόρμα που περιγράφει λεπτομερώς τις πληροφορίες που χρειάζεται. Λέξεις-κλειδιά, ημερομηνίες και άλλα κριτήρια μπορούν να χρησιμοποιηθούν εδώ. Τα κριτήρια στη φόρμα αναζήτησης πρέπει να ταιριάζουν με τα κριτήρια που χρησιμοποιούν τα ρομπότ κατά την ευρετηρίαση των πληροφοριών που βρίσκουν κατά την πλοήγηση στον Ιστό. Οι ευρετηριασμένες πληροφορίες αποστέλλονται στη βάση δεδομένων της μηχανής αναζήτησης με τον ίδιο τρόπο που περιγράφεται παραπάνω. II) Στάδιο: Μετά την αντιγραφή των αναζητηθέντων πόρων Ιστού στον διακομιστή της μηχανής αναζήτησης, ξεκινά το δεύτερο στάδιο εργασίας - ευρετηρίαση. Κατά τη δημιουργία ευρετηρίου, δημιουργούνται ειδικές βάσεις δεδομένων με τη βοήθεια των οποίων μπορείτε να καθορίσετε πού και πότε βρέθηκε μια συγκεκριμένη λέξη στο Διαδίκτυο. Μια ευρετηριασμένη βάση δεδομένων είναι ένα είδος λεξικού. Είναι απαραίτητο ώστε η μηχανή αναζήτησης να μπορεί να ανταποκρίνεται στα αιτήματα των χρηστών πολύ γρήγορα. Η βάση δεδομένων βρίσκει το αντικείμενο του αιτήματος με βάση τις πληροφορίες που παρέχονται στη συμπληρωμένη φόρμα και εμφανίζει τα αντίστοιχα έγγραφα που έχει ετοιμάσει η βάση δεδομένων. Για να καθορίσει τη σειρά με την οποία θα εμφανίζεται η λίστα των εγγράφων, η βάση δεδομένων εφαρμόζει έναν αλγόριθμο κατάταξης. Στην ιδανική περίπτωση, τα έγγραφα που σχετίζονται περισσότερο με το ερώτημα του χρήστη θα τοποθετούνται πρώτα στη λίστα. "Η λειτουργία της ταξινόμησης των αποτελεσμάτων που λαμβάνονται ονομάζεται κατάταξη." Διαφορετικές μηχανές αναζήτησης χρησιμοποιούν διαφορετικούς αλγόριθμους κατάταξης, αλλά οι βασικές αρχές για τον προσδιορισμό της συνάφειας είναι οι εξής: Ο αριθμός των λέξεων ερωτήματος στο περιεχόμενο κειμένου του εγγράφου (δηλαδή στον κώδικα html). Ετικέτες στις οποίες βρίσκονται αυτές οι λέξεις. Η θέση των λέξεων αναζήτησης στο έγγραφο. Το μερίδιο των λέξεων σε σχέση με τις οποίες προσδιορίζεται η συνάφεια στον συνολικό αριθμό των λέξεων στο έγγραφο. Αυτές οι αρχές ισχύουν για όλες τις μηχανές αναζήτησης. Και αυτά που παρουσιάζονται παρακάτω χρησιμοποιούνται από ορισμένους, αλλά αρκετά γνωστούς (όπως AltaVista, HotBot). Χρόνος - πόσο καιρό βρίσκεται η σελίδα στη βάση δεδομένων της μηχανής αναζήτησης. Αρχικά, αυτό φαίνεται σαν μια αρχή χωρίς νόημα. Αλλά, αν σκεφτείτε πόσες τοποθεσίες υπάρχουν στο Διαδίκτυο που ζουν για ένα μήνα το πολύ! Εάν ο ιστότοπος υπάρχει εδώ και πολύ καιρό, αυτό σημαίνει ότι ο ιδιοκτήτης είναι πολύ έμπειρος σε αυτό το θέμα και ο χρήστης θα ταίριαζε περισσότερο σε έναν ιστότοπο που λέει στον κόσμο για τους τρόπους στο τραπέζι εδώ και μερικά χρόνια παρά για έναν ιστότοπο που εμφανίστηκε πριν μια εβδομάδα με το ίδιο θέμα. Ευρετήριο παραπομπών - πόσοι σύνδεσμοι σε μια δεδομένη σελίδα προέρχονται από άλλες σελίδες που είναι καταχωρημένες στη βάση δεδομένων της μηχανής αναζήτησης. Η βάση δεδομένων εξάγει μια παρόμοια κατάταξη λίστα εγγράφων HTML και την επιστρέφει στον χρήστη που υπέβαλε το αίτημα. Διαφορετικές μηχανές αναζήτησης επιλέγουν επίσης διαφορετικούς τρόπους εμφάνισης της λίστας που προκύπτει - ορισμένες εμφανίζουν μόνο συνδέσμους. Άλλα εμφανίζουν συνδέσμους με τις πρώτες λίγες προτάσεις που περιέχονται στο έγγραφο ή τον τίτλο του εγγράφου μαζί με τον σύνδεσμο. III) Στάδιο. Το αίτημα του χρήστη επεξεργάζεται και τα αποτελέσματα αναζήτησης του παρέχονται με τη μορφή λίστας υπερσυνδέσμων. Στη συνέχεια, είναι δουλειά του χρήστη να επεξεργαστεί τους συνδέσμους που παρέχονται από τη βάση δεδομένων. Όταν κάνει κλικ σε έναν σύνδεσμο προς ένα από τα έγγραφα που τον ενδιαφέρει, αυτό το έγγραφο ζητείται από τον διακομιστή στον οποίο βρίσκεται, εάν τα στοιχεία του χρήστη σε αυτόν τον ιστότοπο δεν τον ικανοποιούν, κάνει κλικ σε έναν άλλο σύνδεσμο. Αυτό το στάδιο μπορεί να διαρκέσει πολύ και να αποδειχθεί το πιο δύσκολο για τον χρήστη. 3. Μηχανές αναζήτησης Υπάρχουν πάρα πολλές μηχανές αναζήτησης (μηχανές αναζήτησης) στο Διαδίκτυο, έχουν διαφορετικούς τύπους, καθεμία με τα δικά της πλεονεκτήματα και μειονεκτήματα. Ο χρήστης θα αντιμετωπίζει πάντα τέτοιες ερωτήσεις: πώς να ψάξει στο Διαδίκτυο, ποιο αυτοκίνητο είναι καλύτερο. Θα προσπαθήσω λοιπόν να απαντήσω σε αυτές τις ερωτήσεις. 3.1 Τρόπος αναζήτησης στο Διαδίκτυο Κατά την αναζήτηση στο Διαδίκτυο, δύο στοιχεία είναι σημαντικά - η πληρότητα (τίποτα δεν χάνεται) και η ακρίβεια (δεν βρίσκεται τίποτα περιττό). Συνήθως όλα αυτά ονομάζονται με μία λέξη - συνάφεια, δηλαδή η αντιστοιχία της απάντησης στην ερώτηση. 1. Κάλυψη και βάθος.Με τον όρο κάλυψη εννοούμε τον όγκο της βάσης δεδομένων της μηχανής αναζήτησης: ο οποίος μετράται με τρεις δείκτες - τον συνολικό όγκο των ευρετηριασμένων πληροφοριών, τον αριθμό των μοναδικών διακομιστών και τον αριθμό των μοναδικών εγγράφων. Με τον όρο βάθος εννοούμε αν υπάρχει όριο αριθμός σελίδων ή βάθος καταλόγου που είναι ένθετα σε έναν διακομιστή. Πώς να ελέγξετε:Ορισμένες μηχανές γράφουν στατιστικά ρομπότ στον ιστότοπό τους. Αλλά μπορείτε να το ελέγξετε μόνοι σας - πρέπει να ορίσετε πολλά ερωτήματα αναζήτησης που αποτελούνται από μία λέξη (για να αποκλείσετε την επιρροή της γλώσσας ερωτημάτων, συμπεριλαμβανομένων των διαφορετικών ερμηνειών του χώρου), και ταυτόχρονα να δείτε τα στατιστικά στοιχεία των αποτελεσμάτων που παράγονται από το μηχάνημα - συνήθως στην αρχή της λίστας αναφέρεται πόσα συνολικά έγγραφα βρέθηκαν. Εκτός από το γεγονός ότι οι λέξεις πρέπει να προέρχονται από διαφορετικές περιοχές, είναι επίσης καλό να λαμβάνετε λέξεις διαφορετικών "βαρών" - σπάνιες, "μεσαίες" και "βαριές" (συχνότητα) και να συγκρίνετε την ποσότητα που βρέθηκε. Οι βαριές λέξεις, ειδικότερα, δοκιμάζουν το πλήρες κείμενο (ευρετηρίαση όλων των λέξεων σε ένα έγγραφο) μιας μηχανής αναζήτησης. Είναι πιο δύσκολο να ελέγξετε το βάθος της ανίχνευσης του ρομπότ - για να το κάνετε αυτό, πρέπει να πάρετε ορισμένους ιστότοπους, για παράδειγμα, με μια δομή διακλαδισμένης αρχειοθέτησης και να ελέγξετε εάν τα έγγραφα που μπορούν να προσεγγιστούν μόνο, για παράδειγμα, με 6 κλικ στο οι σύνδεσμοι είναι ευρετηριασμένοι. 2. Ταχύτητα ανίχνευσης και συνάφεια των συνδέσμων. Η ταχύτητα ανίχνευσης στον Ιστό δείχνει πόσο γρήγορα ευρετηριάζεται ένας πόρος που προστέθηκε πρόσφατα και πόσο γρήγορα ενημερώνονται οι πληροφορίες στη βάση δεδομένων. Ένας σημαντικός δείκτης της ποιότητας μιας μηχανής αναζήτησης (το ρομπότ της) δεν είναι μόνο η «κατάληψη» νέων περιοχών: αλλά και παρακολούθηση της κατάστασης όσων έχουν ήδη καλυφθεί. Οι διακομιστές εξαφανίζονται και εμφανίζονται, οι σελίδες σε αυτούς ενημερώνονται. Οι σύνδεσμοι που παράγει μια μηχανή αναζήτησης στη λίστα με αυτά που βρίσκει πρέπει, πρώτον, να υπάρχουν και, δεύτερον, το περιεχόμενό τους να αντιστοιχεί στο αίτημα. Πώς να ελέγξετε:Οι αντικειμενικές πληροφορίες μπορούν να ληφθούν αναλύοντας τα αρχεία καταγραφής διακομιστή - ένα ρομπότ μηχανής αναζήτησης συνήθως συστήνεται με το όνομα του μηχανήματος του (ή παρόμοια εικόνα), ώστε να μπορείτε να δείτε πόσο συχνά επισκέπτεται τον διακομιστή, πόσες σελίδες προβάλλει κ.λπ. Δυστυχώς, συνήθως μόνο το αρχείο καταγραφής του ιστότοπού σας είναι διαθέσιμο για μελέτη, επομένως η πειραματική μέθοδος παραμένει. Για να προσδιορίσετε την ταχύτητα ανίχνευσης, πρέπει να δημιουργήσετε μια σελίδα κειμένου κάπου, να την προσθέσετε στις μηχανές αναζήτησης και να δείτε πόσο γρήγορα αρχίζει να εμφανίζεται. Ή αλλάξτε μια υπάρχουσα σελίδα. Για να προσδιορίσετε τη συνάφεια των συνδέσμων, ελέγξτε τα έγγραφα τουλάχιστον στην πρώτη σελίδα της λίστας που βρέθηκαν για πολλά ερωτήματα. Το μήνυμα "Δεν βρέθηκε" υποδεικνύει ότι το έγγραφο δεν υπάρχει πλέον. 3. Ποιότητα αναζήτησης(υποκειμενικός δείκτης). Κάθε μηχανή αναζήτησης έχει τον δικό της αλγόριθμο για την ταξινόμηση των αποτελεσμάτων αναζήτησης. Όσο πιο κοντά στην κορυφή της λίστας βρίσκεται το έγγραφο που χρειάζεστε, τόσο καλύτερα λειτουργεί η συνάφεια. Πώς να ελέγξετε:Μόνο μέσω πειράματος. Συνιστάται να κάνετε ερωτήματα διαφορετικού μήκους για σύγκριση. Μπορείτε επίσης να χρησιμοποιήσετε μια γλώσσα ερωτημάτων και όσοι διστάζουν να διαβάσουν την περιγραφή μπορούν να χρησιμοποιήσουν τη διευρυμένη σελίδα ερωτημάτων ("προχωρημένη αναζήτηση" στο Aport και Yandex, "λεπτομερές ερώτημα" στο Rambler - επιλογές μετάφρασης στα ρωσικά "σύνθετη αναζήτηση"). Εκτός από τη συνάφεια, υπάρχουν σημαντικά χαρακτηριστικά χρήστη. 1. Ταχύτητα αναζήτησης.Εάν μια μηχανή αναζήτησης ανταποκρίνεται αργά, θα είναι αναποτελεσματική. Αξίζει να προστεθεί ότι η ταχύτητα που είναι ορατή στον χρήστη εξαρτάται όχι μόνο από την ίδια τη μηχανή αναζήτησης, αλλά και από τα κανάλια του Διαδικτύου. Πώς να ελέγξετε:Μέσω του πειραματισμού, πρέπει να αναζητήσετε αιτήματα διαφορετικής διάρκειας, διαφορετικής «βαρύτητας» λέξεων και σε διαφορετικές ώρες της ημέρας (το φορτίο του διακομιστή είναι σημαντικά ανομοιόμορφο κατά τη διάρκεια της ημέρας, η αιχμή είναι γύρω στις τρεις ή τέσσερις το απόγευμα) . 2. Δυνατότητες αναζήτησης (εργασία με γλώσσα εγγράφου, γλώσσα ερωτήματος).Ένα άλλο σημείο σύγκρισης είναι τι ακριβώς και πώς εισάγει η μηχανή αναζήτησης στο ευρετήριο. Μια μηχανή αναζήτησης πλήρους κειμένου ευρετηριάζει όλες τις λέξεις του κειμένου που είναι ορατές στον χρήστη. Η παρουσία της μορφολογίας καθιστά δυνατή την εύρεση των αναζητούμενων λέξεων σε όλες τις κλίσεις ή συζυγίες. Επιπλέον, στη γλώσσα HTML υπάρχουν ετικέτες που μπορούν επίσης να υποβληθούν σε επεξεργασία από μια μηχανή αναζήτησης (επικεφαλίδες, σύνδεσμοι, λεζάντες για εικόνες κ.λπ.). Σχεδόν όλα τα μηχανήματα έχουν μια γλώσσα ερωτημάτων με τη μορφή τυπικών λογικών τελεστών (AND, OR, NOT). Μερικοί άνθρωποι ξέρουν πώς να αναζητούν φράσεις ή λέξεις σε μια δεδομένη απόσταση - αυτό είναι συχνά σημαντικό για την επίτευξη ενός λογικού αποτελέσματος. Μια πρόσθετη δυνατότητα είναι η αναζήτηση σε περιοχές εγγράφων - επικεφαλίδες, σύνδεσμοι, λέξεις-κλειδιά (META KEYWORDS) κ.λπ. Ένα επιπλέον χαρακτηριστικό της γλώσσας ερωτήματος είναι ένα ερώτημα φυσικής γλώσσας που δεν απαιτεί γνώση τελεστών. Πώς να ελέγξετε:Συνήθως αυτές οι πληροφορίες δημοσιεύονται στον διακομιστή της μηχανής αναζήτησης (στη Βοήθεια, ωστόσο, συνιστάται να τις ελέγχετε σε πραγματικά αιτήματα, καθώς μερικές φορές αυτό που επιθυμείτε παρουσιάζεται ως πραγματικότητα). 3. Πρόσθετες ανέσεις.Αυτές είναι πρόσθετες δυνατότητες που παρέχει στους χρήστες η μηχανή αναζήτησης. Αυτό περιλαμβάνει όλα τα είδη επιλογών αναζήτησης (εξειδικευμένες σελίδες, αναζήτηση για παρόμοια έγγραφα, περιορισμός της περιοχής αναζήτησης) και μια λίστα διακομιστών που βρέθηκαν, και αναζήτηση κατά ημερομηνία και διακομιστή, καθώς και μια βολική διεπαφή μηχανής αναζήτησης και δυνατότητα εξατομίκευσης. Πώς να ελέγξετε:Οι πληροφορίες μπορεί να δημοσιεύονται εν μέρει στον διακομιστή της μηχανής αναζήτησης, αλλά είναι καλύτερο να προσπαθήσετε να εργαστείτε μόνοι σας με αυτές τις δυνατότητες. Οι μηχανές αναζήτησης αποτελούνται από αναζήτηση καταλόγων και ευρετηρίων αναζήτησης,Πολλά ευρετήρια αναζήτησης περιέχουν επίσης καταλόγους. Ας τους δούμε. 3.1 Αναζήτηση καταλόγων Κάθε βιβλίο αρχίζει με πίνακα περιεχομένων και τελειώνει με αλφαβητικό ευρετήριο. Παρά το γεγονός ότι βρίσκονται σε διαφορετικά σημεία του βιβλίου και φαίνονται εντελώς διαφορετικά, έχουν το ίδιο καθήκον: να σας βοηθήσουν να βρείτε ακριβώς την ενότητα του βιβλίου που χρειάζεστε αυτήν τη στιγμή. Τα περιεχόμενα είναι ένα παράδειγμα καταλογογράφησης. Όταν ένα άτομο επιλέγει ένα θέμα που τον ενδιαφέρει, το χρησιμοποιεί για να βρει τον αριθμό της σελίδας όπου συζητείται αυτό το θέμα. Ένα αλφαβητικό ευρετήριο είναι ένα παράδειγμα ευρετηρίασης (στα αγγλικά, το ευρετήριο είναι ευρετήριο). Ένα άτομο βρίσκει τον επιθυμητό όρο στο ευρετήριο και λαμβάνει τον αριθμό σελίδας στον οποίο εμφανίζεται. Οι κατάλογοι διαφέρουν από τις μηχανές αναζήτησης. Οι κατάλογοι είναι μια συλλογή τοποθεσιών που συλλέγονται σε θεματικές ενότητες. Αυτές οι επικεφαλίδες, με τη σειρά τους, μπορούν να χωριστούν σε υποκατηγορίες, οι οποίες μπορούν επίσης να έχουν ακόμη μικρότερους υποκαταλόγους κ.λπ. Από την πλευρά του χρήστη, οι κατάλογοι είναι ίδιοι με τις μηχανές αναζήτησης. Αλλά αυτοί οι κατάλογοι δεν είναι γεμάτοι με «ρομπότ», όπως στις πινακίδες, αλλά με τους πιο ζωντανούς ανθρώπους. Αυτό είναι πολύ καλό για τους χρήστες καθώς δίνει πιο σχετικά αποτελέσματα σε σύγκριση με τις μηχανές αναζήτησης. Εν μέρει, το ευρετήριο αναζήτησης περιέχει επίσης έναν κατάλογο που παρουσιάζεται με τη μορφή πινάκων περιεχομένων (υπερσυνδέσμων) για τα πιο δημοφιλή θέματα. Κατά την καταλογογράφηση ενός πόρου, ένας έμπειρος συντάκτης τον εξετάζει προσεκτικά, καθορίζει σε ποιο γνωστικό πεδίο ανήκει ο πόρος, καθορίζει την κατηγορία του σε αυτό το πεδίο και εισάγει τον πόρο στον κατάλογο. Ο μεγαλύτερος κατάλογος στο Διαδίκτυο είναι το Yahoo (www.yahoo.com). Απασχολεί περισσότερους από 150 καταρτισμένους συντάκτες. Αυτός είναι ένας μεγάλος οργανισμός, αλλά οι προσπάθειές του αρκούν μόνο για να διατηρήσει έναν κατάλογο περίπου 1 εκατομμυρίου πόρων. Η περαιτέρω επέκταση περιορίζεται από την ανάγκη στο ρωσικό τμήμα του Διαδικτύου στον πίνακα 1. [παράρτημα] 3.3 Ευρετήρια αναζήτησης Τα ευρετήρια αναζήτησης είναι αυτοματοποιημένα συστήματα. Είναι σε θέση να λειτουργούν χωρίς ανθρώπινη παρέμβαση και επομένως οι γνώσεις τους για τους γνήσιους πόρους του Διαδικτύου είναι πολύ μεγαλύτερες (αρκετές τάξεις μεγέθους) από αυτές των καταλόγων. Ο αριθμός των ιστοσελίδων με ευρετήριο μπορεί να είναι εκατοντάδες εκατομμύρια. Το ευρετήριο αναζήτησης λειτουργεί σε τρία στάδια, τα οποία υποδεικνύονται στην παράγραφο 2.2. Οι συγκεκριμένες συστάσεις για την επιλογή ενός ευρετηρίου αναζήτησης γίνονται πολύ γρήγορα ξεπερασμένες. Η κατάσταση στο Διαδίκτυο αλλάζει κυριολεκτικά μπροστά στα μάτια μας. Δεν περνούν σχεδόν έξι μήνες χωρίς να αλλάξει κάτι στις μηχανές αναζήτησης. Το σύστημα που ήταν το καλύτερο χθες μπορεί να μην είναι το καλύτερο σήμερα και πολύ κακό αύριο. Την ίδια στιγμή, η δημοτικότητα είναι ένα δύσκολο πράγμα. Είναι δύσκολο να κερδίσεις, αλλά διαρκεί πολύ. Ως αποτέλεσμα, πολύ συχνά αντιμετωπίζουμε μια κατάσταση όπου το πιο δημοφιλές σύστημα απέχει πολύ από το καλύτερο. Θα βοηθήσουμε τον αναγνώστη να μάθει πώς να ελέγχει ανεξάρτητα διαφορετικές μηχανές αναζήτησης και να επιλέγει αυτές που δίνουν τα καλύτερα αποτελέσματα. Κατά τον έλεγχο, το μέγεθος του ευρετηρίου αναζήτησης δεν είναι κρίσιμο. Δεν χρειαζόμαστε εκατομμύρια συνδέσμους, αλλά μόνο δύο ή τρεις, αλλά κατά προτίμηση τους καλύτερους. Επομένως, είναι σημαντικό όχι μόνο πόσες ιστοσελίδες ευρετηριάστηκε η μηχανή αναζήτησης, αλλά και πότε το έκανε τελευταία φορά, πόσο συχνά έλεγξε στη συνέχεια τη συνάφεια των συνδέσμων και πόσο σωστά παρουσιάζει τα αποτελέσματα αναζήτησης. Συγκριτική ανασκόπηση μηχανών αναζήτησης. Δεν χρειάζεται να μιλήσουμε λεπτομερώς για τον τρόπο χρήσης των καταλόγων αναζήτησης. Εφόσον χρειάζεται απλώς να μεταβείτε στον ιστότοπο, επιλέξτε την κατηγορία που σας ενδιαφέρει, επιλέξτε μια ενότητα σε αυτήν και ούτω καθεξής, μέχρι να ανοίξει μια λίστα με συγκεκριμένους συνδέσμους. Είναι πολύ πιο ενδιαφέρον να εξετάσουμε τις τεχνικές για τη χρήση ευρετηρίων αναζήτησης, ειδικά επειδή αυτές οι τεχνικές είναι διαφορετικές για διαφορετικά ευρετήρια. Αλλά προτού αρχίσετε να μελετάτε ένα συγκεκριμένο σύστημα, είναι απαραίτητο να εξετάσετε γενικές έννοιες που ισχύουν εξίσου για όλους τους δείκτες αναζήτησης ως παράδειγμα, θα θεωρήσω τόσο δημοφιλείς και κατά τη γνώμη μου, τους πιο βολικούς ευρετήρια αναζήτησης όπως το Yandex και το Rambler. Και θα ξεκινήσω εξετάζοντας τους κύριους τύπους αναζήτησης. Βασικά υπάρχουν μόνο τέσσερις τύποι αναζήτησης. Όλα τα ευρετήρια αναζήτησης εφαρμόζουν αρκετούς αλγόριθμους αναζήτησης. Αυτές περιλαμβάνουν: απλή αναζήτηση, σύνθετη αναζήτηση, αναζήτηση με βάση τα συμφραζόμενα και ειδική αναζήτηση. Απλή αναζήτηση.Με μια απλή αναζήτηση, μια ή περισσότερες λέξεις εισάγονται στο πεδίο ερωτήματος που μπορούν να χαρακτηρίσουν το περιεχόμενο του εγγράφου. Εάν αυτή είναι μια λέξη, τότε, κατά κανόνα, η απάντηση είναι τόσο μεγάλος αριθμός συνδέσμων που δεν είναι σαφές τι να κάνετε. Εάν εισαχθούν πολλές λέξεις, το αποτέλεσμα εξαρτάται από τον τρόπο εισαγωγής των λέξεων, το οποίο με τη σειρά του εξαρτάται από το συγκεκριμένο σύστημα που χρησιμοποιείται. Οι μέθοδοι απλής αναζήτησης σε διαφορετικές μηχανές αναζήτησης, κατά κανόνα, είναι διαφορετικές και πριν τις χρησιμοποιήσετε, συνιστάται να διαβάσετε τις οδηγίες. Μια απλή αναζήτηση στο Rambler παρουσιάζεται στο Εικ-8. Όταν εισαγάγετε τη φράση: Όλα είναι ανακατεμένα στο σπίτι των Oblonskys, τα ευρετήρια αναζήτησης παράγουν τα ακόλουθα αποτελέσματα: Rambler 9 (documents) Yandex 2400 (έγγραφα) Σύνθετη αναζήτηση.Μια σύνθετη αναζήτηση περιλαμβάνει πάντα ένα ερώτημα από μια ομάδα λέξεων. Σε μια σύνθετη αναζήτηση, στις περισσότερες περιπτώσεις επιτρέπεται η σύνδεση λέξεων-κλειδιών με τους λογικούς τελεστές AND (AND), OR (OR), NOT (NOT) και άλλους. Το κύριο πλεονέκτημα της προηγμένης αναζήτησης είναι ότι οι κανόνες για τη σύνταξη λέξεων-κλειδιών και λογικών τελεστών σε διαφορετικά συστήματα είναι είτε οι ίδιοι είτε πολύ παρόμοιοι. Επομένως, αφού κατακτήσετε τις τεχνικές προηγμένης αναζήτησης, μπορείτε να τις χρησιμοποιήσετε οπουδήποτε. Απλά πρέπει πρώτα να αλλάξετε το σύστημα στην επιθυμητή λειτουργία (Εικ. 9.) Όταν εισαγάγετε τη φράση: Όλα είναι ανακατεμένα στο σπίτι των Oblonskys, στη σύνθετη αναζήτηση, τα ευρετήρια αναζήτησης παράγουν τα ακόλουθα αποτελέσματα: Rambler 9 (έγγραφα) Yandex 2400 (έγγραφα) Εικ-8 Απλή αναζήτηση στο Rambler Εικ-9 Εναλλαγή του συστήματος σε λειτουργία σύνθετης αναζήτησης. Συμφραζόμενη αναζήτηση.Αυτός είναι ένας πολύ χρήσιμος τύπος αναζήτησης, ο οποίος, δυστυχώς, δεν εφαρμόζεται σε όλα τα ευρετήρια αναζήτησης. Τα συστήματα που το υποστηρίζουν θα πρέπει να εκτιμώνται ιδιαίτερα. Η αναζήτηση με βάση τα συμφραζόμενα απαιτεί μια ακριβή αντιστοίχιση μιας φράσης ή μιας ομάδας λέξεων, για παράδειγμα «Όλα ανακατεμένα στο σπίτι των Oblonsky». Στις περισσότερες μηχανές αναζήτησης που περιλαμβάνουν αυτή τη μέθοδο, η φράση-κλειδί πρέπει να περικλείεται σε εισαγωγικά: «Όλα είναι ανακατεμένα στο σπίτι του Oblonsky (Εικ. 10). Όταν εισαγάγετε τη φράση: "Τα πάντα είναι μπερδεμένα στο σπίτι των Oblonskys", οι δείκτες αναζήτησης παράγουν τα ακόλουθα αποτελέσματα: Rambler 0 (έγγραφα) Yandex 8 (έγγραφα) <table cellpadding="0" cellspacing="0"><tr><td height="30" bgcolor="white"> <table cellpadding="0" cellspacing="0"><tr><td> Εικ-10. Αναζήτηση με βάση τα συμφραζόμενα στο RAMDLER.RU </td> </tr></table></td> </tr></table> Ειδική αναζήτηση.Χρησιμοποιώντας ειδικές εντολές αναζήτησης, αναζητούνται πρόσθετες πληροφορίες. Για παράδειγμα, τέτοιες εντολές σάς επιτρέπουν να προσδιορίσετε πόσο συχνά βρίσκονται υπερσύνδεσμοι που οδηγούν σε έναν πόρο με τη βοήθειά τους, μπορείτε να βρείτε λέξεις-κλειδιά, περιλαμβάνονται στις κεφαλίδες των ιστοσελίδων κ.λπ. Κατά κανόνα, οι ειδικές εντολές αναζήτησης σε διαφορετικές μηχανές αναζήτησης είναι διαφορετικές. Είναι επίσης απαραίτητο να ληφθούν υπόψη οι γενικοί κανόνες για τη σύνταξη εντολών αναζήτησης. Γενικοί κανόνες για τη σύνταξη εντολών αναζήτησης: Λέξεις χωρισμένες με κενά Ας υποθέσουμε ότι ένας χρήστης πρέπει να βρει μια ιστοσελίδα που να λέει κάτι για το λειτουργικό σύστημα Microsoft Windows. Είναι λογικό να εισάγετε τις λέξεις Microsoft Windows στο πεδίο αναζήτησης και να περιμένετε το αποτέλεσμα. Αλλά το αποτέλεσμα μπορεί να είναι αποθαρρυντικό. Ορισμένες μηχανές αναζήτησης κατανοούν μια καταχώρηση όπως η Microsoft ΚΑΙ τα Windows - θα δώσουν αυτό που αναζητά ο χρήστης. Άλλοι μπορεί να κατανοήσουν αυτήν την καταχώριση ως Microsoft Ή Windows - τότε θα γίνει αναζήτηση σε όλες τις ιστοσελίδες που περιέχουν είτε την πρώτη λέξη, είτε τη δεύτερη ή και τις δύο. Ο χρήστης, φυσικά, ενδιαφέρεται μόνο για εκείνες τις σελίδες στις οποίες εμφανίζονται και οι δύο λέξεις μαζί, αλλά θα θάβονται κυριολεκτικά ανάμεσα σε άλλες σελίδες που δεν χρειάζεται. Όταν ξεκινάτε να εργάζεστε με ένα άγνωστο σύστημα, πρέπει να ξεκινήσετε ελέγχοντας πώς χειρίζεται ομάδες λέξεων-κλειδιών. Πρώτα, εισαγάγετε μία λέξη: Microsoft. Μπορείτε να δείτε πόσα αποτελέσματα θα παράγει το σύστημα. Rambler 28184 (έγγραφα) Yandex 1048379 (έγγραφα) Στη συνέχεια εισάγεται η δεύτερη λέξη: Windows. Η ποσότητα ελέγχεται ξανά. Εισάγονται και οι δύο λέξεις: Microsoft Windows. Όταν εισάγετε τη φράση: Microsoft, τα ευρετήρια αναζήτησης παράγουν τα ακόλουθα αποτελέσματα: Rambler 6641 (έγγραφα) Yandex 259276 (έγγραφα) Εάν ο αριθμός των ιστοσελίδων που βρέθηκαν είναι μεγαλύτερος από ό,τι στην πρώτη και στη δεύτερη περίπτωση, σημαίνει ότι το σύστημα θεωρεί ότι οι λέξεις-κλειδιά σχετίζονται με μια σχέση OR (τα σύνολα συνδυάζονται). Εάν το αποτέλεσμα είναι μικρότερο από κάθε ένα από τα πρώτα τεστ, τότε το σύστημα χρησιμοποιεί τη σχέση ΚΑΙ (τα σύνολα τέμνονται). Και στις δύο περιπτώσεις, θα πρέπει να συμβουλευτείτε τις πληροφορίες αναφοράς για να μάθετε πώς να έχετε το αντίθετο αποτέλεσμα. Για παράδειγμα, όλες οι μεγάλες ρωσικές μηχανές αναζήτησης χρησιμοποιούν από προεπιλογή τον τελεστή AND μεταξύ των λέξεων, αν και το σύστημα Yandex έχει τα δικά του χαρακτηριστικά (βλ. Πίνακα 2). Εκεί πιστεύεται ότι αυτές οι δύο λέξεις πρέπει να υπάρχουν ταυτόχρονα όχι στο έγγραφο, αλλά σε μία πρόταση. Εάν αρκεί η παρουσία τους στο έγγραφο, θα πρέπει να προηγείται κάθε λέξης ένα σημάδι<+>. Ταυτόχρονα, προκύπτει το αντίστροφο πρόβλημα: πώς να βεβαιωθείτε ότι γίνεται αναζήτηση εγγράφων που περιέχουν μία από τις συγκεκριμένες λέξεις-κλειδιά, δηλαδή πώς να ορίσετε την αναλογία OR; "Rambler": Microsoft Ή Windows. (50986 έγγραφα) "Yandex": Microsoft | Παράθυρα? (2034641 έγγραφα) Ο ρόλος των κεφαλαίων γραμμάτων Στις περισσότερες μηχανές αναζήτησης, το «ψωμί» δεν είναι ίσο με το «ΨΩΜΙ», αλλά το «ΨΩΜΙ»*«ψωμί». Ο γενικός κανόνας είναι ότι εάν ο πελάτης εισήγαγε πεζούς χαρακτήρες, τότε γίνεται αναζήτηση τόσο των πεζών όσο και των κεφαλαίων χαρακτήρων, αλλά εάν ο πελάτης χρησιμοποίησε κεφαλαία γράμματα, τότε γίνεται αναζήτηση για ακριβή αντιστοίχιση μόνο με κεφαλαία γράμματα. Κλασικό παράδειγμα είναι η Κοκκινοσκουφίτσα. Εάν τα εισάγετε ακριβώς με αυτόν τον τρόπο, χρησιμοποιώντας κεφαλαία γράμματα, τότε μόνο έγγραφα που περιέχουν συνδυασμός Κοκκινοσκουφίτσας. Ωστόσο, εάν οι λέξεις-κλειδιά είναι γραμμένες με κόκκινο καπάκι, τότε θα βρεθούν περισσότερα έγγραφα. Όλα τα έγγραφα που περιέχουν τους παρακάτω συνδυασμούς θα περάσουν από το κόσκινο επιλογής: κοκκινοσκουφίτσα, Κοκκινοσκουφίτσα, Κοκκινοσκουφίτσα και Κοκκινοσκουφίτσα. Επομένως, δεν χρειάζεται να γίνεται κατάχρηση της χρήσης κεφαλαίων γραμμάτων στο ερώτημα και να τα χρησιμοποιείτε μόνο όταν υπάρχει απόλυτη εμπιστοσύνη στο αποτέλεσμα. Ωστόσο, ορισμένες μηχανές αναζήτησης είναι διαφορετικές. Για παράδειγμα, στο σύστημα Rambler, κατά τη δημιουργία ευρετηρίου, όλα τα κεφαλαία γράμματα «μειώνονται» αναγκαστικά σε πεζά. Αυτό σημαίνει ότι η χρήση κεφαλαίων γραμμάτων σε ένα ερώτημα δεν είναι χρήσιμη σε αυτό το σύστημα. Όταν εισάγετε τη φράση: Κοκκινοσκουφίτσα, τα ευρετήρια αναζήτησης παράγουν τα ακόλουθα αποτελέσματα: Rambler 2921 (έγγραφα) Yandex 16458 (έγγραφα) Ο ρόλος των δεσμευμένων λέξεων Οι δεσμευμένες λέξεις είναι λέξεις που δεν λαμβάνονται υπόψη κατά την επεξεργασία ενός αιτήματος. Κατά την ευρετηρίαση ιστοσελίδων, το πρόγραμμα τις αφαιρεί από το κείμενο, γεγονός που μειώνει σημαντικά το μέγεθος των ευρετηρίων και μειώνει τον χρόνο αναζήτησης. Σε δεσμευμένες λέξεις συνήθως Αυτές περιλαμβάνουν μη πληροφοριακές λέξεις: προθέσεις, συνδέσμους, αντωνυμίες, άρθρα και άλλες μικρές λέξεις. Έτσι, για παράδειγμα, εάν αναζητήσετε τη φράση "Όλα ανακατεύτηκαν στο σπίτι των Oblonskys" στο σύστημα Yandex, τότε θα γίνει αναζήτηση και για έγγραφα που περιέχουν Τι ανακατεύτηκε στο σπίτι των Oblonskys; - και πού ανακατεύτηκε; Στο σπίτι των Oblonskys; Ορισμένα συστήματα ενδέχεται να επιφυλάσσουν λέξεις που εμφανίζονται εξαιρετικά συχνά και επομένως δεν είναι ενημερωτικές. Εάν, για παράδειγμα, το σύστημα εστιάζει στην αναζήτηση βιβλίων, τότε η λέξη βιβλίο δεν είναι ενημερωτική γι' αυτό. Η λέξη auto δεν είναι πληροφοριακή για ένα σύστημα αναζήτησης που ασχολείται με θέματα αυτοκινήτου και οι λέξεις υπολογιστής και Διαδίκτυο δεν είναι πληροφοριακές για συστήματα που επικεντρώνονται στην αναζήτηση πληροφοριών σχετικά με την τεχνολογία υπολογιστών. Είναι ιδιαίτερα σημαντικό να λαμβάνεται υπόψη ο ρόλος των δεσμευμένων λέξεων κατά τη διεξαγωγή μιας αναζήτησης με βάση τα συμφραζόμενα επειδή Η αναζήτηση με βάση τα συμφραζόμενα απαιτεί μια ακριβή αντιστοίχιση μεταξύ αυτού που παρήγγειλε ο χρήστης και αυτού που εμφανίζεται στα έγγραφα Ιστού. Εάν ένα σύστημα αναζήτησης «απαγόρευσε» τα έγγραφα Ιστού από δεσμευμένες λέξεις στο στάδιο της ευρετηρίασης, τότε δεν μπορεί να αντιμετωπίσει την αναζήτηση με βάση τα συμφραζόμενα, εκτός ίσως από το να «κοιτάξει» αντίγραφα ιστοσελίδων, εάν αποθηκεύει κάποια, αλλά αυτό απαιτεί πολύ χρόνο. Επομένως, η ειλικρινής αναζήτηση με βάση τα συμφραζόμενα στις μηχανές αναζήτησης είναι σπάνια. Στη Ρωσία, για παράδειγμα, τόσο η Yandex όσο και η Rambler προσποιούνται ότι παρέχουν δυνατότητες αναζήτησης με βάση τα συμφραζόμενα για αυτό, η φράση αναζήτησης πρέπει να περικλείεται σε εισαγωγικά. Ωστόσο, μετά από μερικές απλές δοκιμές, είναι εύκολο να διαπιστωθεί ότι στην πραγματικότητα δεν πρόκειται για αναζήτηση με βάση τα συμφραζόμενα, αλλά για αναζήτηση με ακρίβεια σε δεσμευμένες λέξεις. Ένα παράδειγμα όταν το ερώτημα "Όλα ανακατεύτηκαν στο σπίτι των Oblonskys" δίνει το αποτέλεσμα What was mixed up in the Oblonskys' house. Στον Πίνακα 2 δίνω μια συγκριτική περιγραφή των κύριων μηχανών αναζήτησης (μηχανές αναζήτησης). 4. Συγκριτικά χαρακτηριστικά δύο μηχανών αναζήτησης με βάσηRΕΝΑmbler. ruΚαιYandex. ru 4.1 RAMBLER Το Rambler.ru είναι ιστορικά (πριν από την εμφάνιση του Yandex) η πιο δημοφιλής μηχανή αναζήτησης στη Ρωσία. Άρχισε να λειτουργεί νωρίτερα από άλλα και για μεγάλο χρονικό διάστημα ήταν ο ηγέτης όσον αφορά το μέγεθος του ευρετηρίου αναζήτησης και την ποιότητα των υπηρεσιών αναζήτησης. Αλίμονο, σήμερα αυτά τα επιτεύγματα ανήκουν στο παρελθόν. Παρά το γεγονός ότι το μέγεθος του ευρετηρίου αναζήτησης Rambler είναι περίπου ίσο με 12 εκατομμύρια ιστοσελίδες, δεν έχει ενημερωθεί σωστά για μεγάλο χρονικό διάστημα και παράγει ξεπερασμένα αποτελέσματα. Σήμερα το Rambler είναι μια δημοφιλής πύλη, το καλύτερο σύστημα ταξινόμησης και αξιολόγησης στη Ρωσία, καθώς και μια διαφημιστική πλατφόρμα. (Εικ-10) Μέθοδοι αναζήτησης στο σύστημα Rambler: Γλώσσα αναζήτησης Το ερώτημα αναζήτησης μπορεί να αποτελείται από μία ή περισσότερες λέξεις και μπορεί να περιέχει σημεία στίξης. Μπορείτε να δημιουργήσετε απλά ερωτήματα χωρίς να μπείτε στις περιπλοκές της γλώσσας ερωτημάτων. Έτσι, εάν εισαγάγετε πολλές λέξεις στη γραμμή αναζήτησης χωρίς σημεία στίξης και λογικούς τελεστές, θα βρεθούν έγγραφα που περιέχουν όλες αυτές τις λέξεις (και σε περιορισμένη απόσταση μεταξύ τους). Ωστόσο, η γνώση και η σωστή χρήση της γλώσσας ερωτημάτων της μηχανής αναζήτησης θα βοηθήσει να γίνει η αναζήτηση στο Rambler γρήγορη και αποτελεσματική. Μητρώο Γενικά, η περίπτωση γραφής λέξεων αναζήτησης και τελεστών δεν έχει σημασία, δηλαδή, house και DOM, Not και nOt γίνονται αντιληπτά εξίσου. Και μόνο μερικές φορές, για να βελτιωθεί η ποιότητα της αναζήτησης, λαμβάνεται υπόψη η περίπτωση των λέξεων του ερωτήματος αναζήτησης. Για παράδειγμα, εάν το ερώτημα αποτελείται από δύο, τρεις ή τέσσερις λέξεις, καθεμία από τις οποίες είναι γραμμένη με κεφαλαίο γράμμα, τότε γίνεται η σωστή αναζήτηση ονόματος και το όριο απόστασης μεταξύ των λέξεων ερωτήματος αλλάζει αυτόματα από την προεπιλεγμένη τιμή σε (n -1)*2 , όπου n είναι ο αριθμός των λέξεων ερωτήματος. Αυτό σας επιτρέπει να βρείτε μια ομάδα λέξεων ερωτήματος εντός των οποίων δεν υπάρχουν περισσότερες από μία «επιπλέον» λέξεις ή σημεία στίξης, για παράδειγμα «Baden-Baden», «A Pushkin», «Fyodor Mikhailovich Dostoevsky». χειριστές Ένα ερώτημα πολλών λέξεων μπορεί να περιέχει τελεστές. Δεν υπάρχει αναζήτηση για τελεστές στο έγγραφο, χρησιμεύουν μόνο ως οδηγίες στη μηχανή αναζήτησης. Όλοι οι τελεστές μηχανών αναζήτησης είναι δυαδικοί, δηλαδή έχουν μια αριστερή και μια δεξιά πλευρά, καθένα από τα οποία είναι επίσης ένα ερώτημα (αποτελούμενο από μια λέξη από προεπιλογή). Οι παρενθέσεις και τα εισαγωγικά χρησιμοποιούνται για την αλλαγή του εύρους των τελεστών (ομαδοποίηση πολλαπλών λέξεων ερωτήματος σε ένα όρισμα τελεστή). Δύο ερωτήματα που συνδέονται με τον τελεστή AND (λογικό AND) σχηματίζουν ένα σύνθετο ερώτημα, το οποίο ικανοποιείται μόνο από εκείνα τα έγγραφα που ικανοποιούν ταυτόχρονα και τα δύο αυτά ερωτήματα. Με άλλα λόγια, το ερώτημα "σκύλος ΚΑΙ γάτα" θα βρει μόνο έγγραφα που περιέχουν τόσο τη λέξη "σκύλος" και τη λέξη "γάτα". Ένα σύνθετο ερώτημα, που αποτελείται από δύο ερωτήματα που συνδέονται από τον τελεστή OR (λογικό OR), ικανοποιείται από όλα τα έγγραφα που ικανοποιούν τουλάχιστον ένα από αυτά τα δύο ερωτήματα. Το ερώτημα "dog OR cat" θα βρει έγγραφα που περιέχουν τουλάχιστον μία από τις λέξεις "dog" ή "cat" (ή και οι δύο αυτές λέξεις μαζί). Ο τελεστής NOT (λογικό ΚΑΙ) δημιουργεί ένα ερώτημα που απαντάται από έγγραφα που ικανοποιούν την αριστερή πλευρά του ερωτήματος και δεν ικανοποιούν τη δεξιά. Έτσι, το αποτέλεσμα μιας αναζήτησης για το ερώτημα "dog NOT cat" θα είναι όλα τα έγγραφα που περιέχουν τη λέξη "dog" και δεν περιέχουν τη λέξη "cat". Εάν ο τελεστής δεν καθορίζεται ρητά, χρησιμοποιείται ο προεπιλεγμένος τελεστής AND: βρίσκονται μόνο έγγραφα που περιέχουν όλες τις λέξεις ερωτήματος. Έτσι, το αίτημα «πίστωση τεχνολογίας πληροφοριών» θα ερμηνευθεί ως «πληροφορία ΚΑΙ τεχνολογία ΚΑΙ πίστωση». Στη σελίδα Σύνθετη αναζήτηση, ο προεπιλεγμένος τελεστής μπορεί να αντικατασταθεί με OR (Λέξεις ερωτήματος αναζήτησης: τουλάχιστον μία). Κάθε χειριστής έχει μια συντομογραφία: Συντομογραφία χειριστή Ένα ερώτημα πολλών λέξεων που παρεμβάλλονται με τελεστές θα ερμηνεύεται σύμφωνα με την προτεραιότητά τους. Οι τελεστές AND και NOT έχουν παραδοσιακά υψηλότερη προτεραιότητα, επομένως κατά την επεξεργασία ενός ερωτήματος πολλών λέξεων, πρώτα ομαδοποιείται από τους τελεστές AND και NOT και μόνο μετά από τους τελεστές OR. Μπορείτε να αλλάξετε τη σειρά ομαδοποίησης χρησιμοποιώντας παρενθέσεις. Εισαγωγικά Μπορείτε να χρησιμοποιήσετε διπλά εισαγωγικά για να αναζητήσετε εισαγωγικά. Οι λέξεις ερωτήματος που περικλείονται σε διπλά εισαγωγικά αναζητούνται στα έγγραφα με την ακριβή σειρά και τις μορφές με τις οποίες εμφανίζονται στο ερώτημα. Έτσι, τα διπλά εισαγωγικά μπορούν επίσης να χρησιμοποιηθούν για απλή αναζήτηση μιας λέξης σε μια δεδομένη μορφή (οι λέξεις βρίσκονται σε όλες τις μορφές από προεπιλογή). Για παράδειγμα, το αίτημα "το αεροπλάνο προσγειώθηκε με καύσιμα" ικανοποιείται από ένα έγγραφο που περιέχει το κείμενο "... το αεροπλάνο προσγειώθηκε και ανεφοδιάστηκε...", και δεν ικανοποιείται από ένα έγγραφο που περιέχει ".. το αεροπλάνο προσγειώθηκε σε εφοδιάζω πάλι με καύσιμα...". Παρενθέσεις Κατά την κατασκευή ερωτημάτων, μερικές φορές καθίσταται απαραίτητος ο συνδυασμός λέξεων ερωτήματος σε ομάδες, οι οποίες θα είναι τα επιχειρήματα κάποιου τελεστή. Τέτοιες ομάδες περικλείονται σε παρένθεση. Το μέρος του ερωτήματος που περικλείεται σε παρένθεση είναι από μόνο του ένα ερώτημα και υπόκειται στους κανόνες της γλώσσας ερωτήματος. Χρησιμοποιώντας παρενθέσεις σας επιτρέπει να δημιουργήσετε ένθετα ερωτήματα και να τα μεταβιβάσετε σε τελεστές ως ορίσματα, καθώς και να παρακάμψετε τις προεπιλεγμένες προτεραιότητες τελεστή. Εάν το ερώτημα χωρίς παρενθέσεις «αεροπλάνο αυτοκινήτου |» είναι ισοδύναμο με το ερώτημα «αυτοκίνητο ΚΑΙ αεροπλάνο Ή αεροδρόμιο» και, σύμφωνα με τις προτεραιότητες των φορέων εκμετάλλευσης, σημαίνει «βρείτε έγγραφα που περιέχουν είτε τις λέξεις «αυτοκίνητο» και «αεροπλάνο» ή. η λέξη αεροδρόμιο και, στη συνέχεια, το ερώτημα με αγκύλες "αυτοκίνητο (αεροπλάνο | αεροδρόμιο)" είναι ισοδύναμο με το ερώτημα "αυτοκίνητο ΚΑΙ (αεροπλάνο Ή αεροδρόμιο)", που σημαίνει "βρες έγγραφα που περιέχουν τη λέξη "αυτοκίνητο" και μία από τις λέξεις "αεροσκάφος" "ή "αεροδρόμιο". Μεταχαρακτήρες Το Rambler δεν υποστηρίζει ακόμη την αναζήτηση συμβολοσειρών χρησιμοποιώντας μεταχαρακτήρες ("*", "?"), οι οποίοι συνήθως χρησιμοποιούνται για να σημαίνουν "οποιαδήποτε υποσυμβολοσειρά" και "αυθαίρετος μεμονωμένος χαρακτήρας", αντίστοιχα. Ωστόσο, αυτοί οι χειριστές προορίζονται για παρόμοια μελλοντική χρήση. Χρήση γλώσσας ερωτήματος Κάθε αίτημα που απευθύνεται στη μηχανή αναζήτησης Rambler επεξεργάζεται σύμφωνα με τους κανόνες της γλώσσας ερωτημάτων. Ορισμένες λέξεις και χαρακτήρες αντιμετωπίζονται ως τελεστές γλώσσας ερωτήματος και επεξεργάζονται με ειδικό τρόπο. Στην πραγματικότητα, η γλώσσα ερωτήματος περιγράφει έναν συγκεκριμένο τύπο που χρησιμοποιείται κατά την αναζήτηση - κάθε ένα από τα έγγραφα "ταιριάζεται" με αυτό και το αποτέλεσμα αναζήτησης είναι μόνο εκείνα τα έγγραφα που τον ικανοποιούν. Για παράδειγμα, το ερώτημα «αεροπλάνο» ικανοποιείται από όλα τα έγγραφα στα οποία η λέξη «αεροσκάφος» εμφανίζεται τουλάχιστον μία φορά σε οποιαδήποτε μορφή. Ένα ερώτημα πολλών λέξεων ικανοποιείται από έγγραφα που περιέχουν καθεμία από αυτές τις λέξεις σε οποιαδήποτε μορφή (υπό ορισμένες προϋποθέσεις). Το αν ένα έγγραφο ταιριάζει με ένα πιο σύνθετο ερώτημα καθορίζεται από τη λογική των τελεστών και των δομών της γλώσσας ερωτήματος. Μορφολογία Για κάθε λέξη ερωτήματος, η αναζήτηση πραγματοποιείται λαμβάνοντας υπόψη τους κανόνες κλίσης της αντίστοιχης γλώσσας. Ο Rambler κατανοεί και διακρίνει τις λέξεις στα ρωσικά και τα αγγλικά - από προεπιλογή, η αναζήτηση πραγματοποιείται σε όλες τις μορφές της λέξης. Για παράδειγμα, μια αναζήτηση για τη λέξη "πρόσωπο" θα βρει επίσης έγγραφα που περιέχουν τις λέξεις "πρόσωπο", "πρόσωπο", "πρόσωπο", ακόμη και "άνθρωποι". Για να αναζητήσετε μόνο μία συγκεκριμένη μορφή μιας λέξης, πρέπει να τη βάλετε σε διπλά εισαγωγικά ή να χρησιμοποιήσετε την αναζήτηση για την ακριβή φράση στη σύνθετη αναζήτηση. Ασφαλείς λέξεις Ορισμένες λέξεις και σύμβολα εξαιρούνται από το αίτημα από προεπιλογή λόγω του χαμηλού περιεχομένου πληροφοριών τους. Αυτές είναι οι λεγόμενες λέξεις stop - οι πιο κοινές λέξεις στη ρωσική και αγγλική γλώσσα, για παράδειγμα, προθέσεις, σωματίδια και άρθρα. Η παρουσία αυτών των λέξεων μπορεί να επιβραδύνει την αναζήτησή σας και να επηρεάσει αρνητικά την πληρότητα των αποτελεσμάτων σας. Είναι δυνατό να υποδείξετε την ανάγκη για αυτές τις λέξεις σε ένα ερώτημα κλείνοντας το ερώτημα σε διπλά εισαγωγικά ή χρησιμοποιώντας την αναζήτηση για μια ακριβή φράση στη σύνθετη αναζήτηση. Όριο απόστασης Εάν ένα ερώτημα αποτελείται από μία ή περισσότερες λέξεις χωρίς τη χρήση τελεστών και κατασκευών γλώσσας ερωτήματος, τότε θα βρεθούν έγγραφα που περιέχουν όλες τις λέξεις του ερωτήματος. Επιπλέον, για κάθε αίτημα υπάρχει πάντα ένα λεγόμενο όριο περιβάλλοντος - ένας θετικός αριθμός, εξ ορισμού ίσος με απόσταση 40 λέξεων. Ένα έγγραφο που περιέχει όλες τις λέξεις ερωτήματος θα επιστραφεί μόνο εάν η απόσταση σε λέξεις μεταξύ των εμφανίσεων των λέξεων ερωτήματος είναι μικρότερη από αυτόν τον αριθμό. Για παράδειγμα, το ερώτημα "κόκκινος στρατός" θα βρει εκείνα τα έγγραφα στα οποία οι λέξεις "κόκκινο" και "στρατός" εμφανίζονται τουλάχιστον μία φορά, με απόσταση μικρότερη από 40 λέξεις. Η τιμή του περιορισμού περιβάλλοντος μπορεί να αλλάξει με την κατασκευή "(αριθμός, ερώτημα)", όπου αριθμός είναι οποιοσδήποτε θετικός αριθμός, ερώτημα είναι κάθε ερώτημα που είναι σωστό από τη σκοπιά μιας μηχανής αναζήτησης, που αποτελείται από περισσότερες από μία λέξεις (προφανώς, το όριο απόστασης μεταξύ των λέξεων στην περίπτωση ενός ερωτήματος μιας λέξης δεν έχει νόημα). Έτσι, το ερώτημα "(2, κόκκινος στρατός)" θα βρει μόνο εκείνα τα έγγραφα στα οποία δεν υπάρχει ούτε μία λέξη μεταξύ των λέξεων "κόκκινο" και "στρατός" τουλάχιστον μία φορά (καθώς μόνο στην περίπτωση της άμεσης εγγύτητάς τους η διαφορά στους τακτικούς αριθμούς των λέξεων μικρότεροι από 2, δηλαδή ίσοι με 1) Λόγια που δεν έχουν βρεθεί Εάν το ερώτημα αποτελείται από πολλές λέξεις και ορισμένες από αυτές δεν ήταν καθόλου δυνατό να βρεθούν στο Διαδίκτυο, τότε τα αποτελέσματα αναζήτησης επιστρέφονται για ένα μερικό ερώτημα, από το οποίο εξαιρούνται οι λέξεις που δεν βρέθηκαν στο Διαδίκτυο. Σε αυτήν την περίπτωση, τα αντίστοιχα διαγνωστικά εμφανίζονται στη σελίδα αποτελεσμάτων αναζήτησης. Ταξινόμηση αποτελεσμάτων Από προεπιλογή, τα έγγραφα που βρέθηκαν ταξινομούνται κατά συνάφεια (συμμόρφωση με το ερώτημα). Ωστόσο, μπορείτε να ζητήσετε να τοποθετηθούν τα πιο πρόσφατα (ή, αντίθετα, τα παλαιότερα) έγγραφα στην κορυφή της λίστας. Για να το κάνετε αυτό, επιλέξτε την κατάλληλη ρύθμιση στο μενού "Ταξινόμηση κατά..." στη σελίδα λεπτομερούς αιτήματος. Μπορείτε επίσης να περιορίσετε την αναζήτησή σας σε έγγραφα που δημιουργήθηκαν κατά τη διάρκεια μιας συγκεκριμένης χρονικής περιόδου: για να το κάνετε αυτό, πρέπει να καθορίσετε "Από ημερομηνία... έως σήμερα..." στη σελίδα λεπτομερούς αιτήματος. Διάστημα μεταξύ των λέξεων Μπορείτε να ζητήσετε από το Rambler να επιστρέψει μόνο εκείνα τα έγγραφα όπου οι λέξεις από το αίτημα βρίσκονται σε ελάχιστη απόσταση μεταξύ τους. Η λειτουργία "Περιορισμός απόστασης μεταξύ λέξεων" μπορεί να ενεργοποιηθεί σε ένα λεπτομερές ερώτημα. Όλοι οι κανόνες που αναφέρονται παραπάνω μπορούν να χρησιμοποιηθούν σε συνδυασμό μεταξύ τους με την απαιτούμενη σειρά. Παράδοση αποτελεσμάτων Από προεπιλογή, τα αποτελέσματα αναζήτησης επιστρέφονται σε παρτίδες των 15 εγγράφων. Το μενού "Έξοδος κατά..." στη σελίδα λεπτομερούς αιτήματος σάς επιτρέπει να αυξήσετε αυτόν τον αριθμό σε 30 ή 50. Το μενού "Έξοδος φόρμας..." σάς επιτρέπει να λαμβάνετε περιγραφές εγγράφων με αυξημένες ή μειωμένες λεπτομέρειες. 4.2 YANDEX Το Yandex.ru είναι μια μηχανή αναζήτησης που μπορεί, κατόπιν αιτήματος, να βρει τις πιο κατάλληλες ιστοσελίδες στο ρωσικό τμήμα του Διαδικτύου. Το Yandex ανιχνεύει εκατοντάδες χιλιάδες ιστοσελίδες καθημερινά αναζητώντας αλλαγές ή νέους συνδέσμους. Η συλλογή των συνδέσμων αυξάνεται συνεχώς. Το Yandex δεν απαιτεί γνώση ειδικών εντολών αναζήτησης. Το Yandex θα βρει όλους όσους έχουν συνδεθεί στη σελίδα, αρχεία με την επιθυμητή εικόνα, τα τελευταία νέα ή προϊόντα σε ηλεκτρονικά καταστήματα. Το σύστημα Yandex βασίζεται στο μεγαλύτερο ευρετήριο - περίπου 27 εκατομμύρια ιστοσελίδες, αλλά δεν είναι μόνο θέμα μεγέθους. Αυτό δεν είναι απλώς ένας δείκτης στους πόρους, αλλά ένας δείκτης στους πιο πρόσφατους πόρους. Όσον αφορά τη συνάφεια, η Yandex είναι σήμερα ο αδιαμφισβήτητος ηγέτης (Εικ. 4) Τεχνικές αναζήτησης στο σύστημα Yandex Πριν ξεκινήσω να περιγράφω τη γλώσσα ερωτημάτων του συστήματος Yandex, θα σημειώσω ότι είναι αισθητά πιο ισχυρή και πιο περίπλοκη από τις γλώσσες ερωτημάτων άλλων εγχώριων μηχανών αναζήτησης. Ωστόσο, ο μέσος χρήστης δεν χρειάζεται να φοβάται. Ακόμα κι αν πραγματικά δεν του αρέσει να διαβάζει και, ιδιαίτερα, να μελετά οδηγίες, μπορεί να εργαστεί με το σύστημα διαισθητικά. Κατ 'αρχήν, το σύστημα Yandex χρησιμοποιεί ευρετικούς αλγόριθμους που δεν είναι εντελώς αυστηροί από μαθηματική άποψη. Ως αποτέλεσμα, ο χρήστης μπορεί να λάβει διαφορετικά αποτελέσματα, για παράδειγμα, εάν αναζητήσει έγγραφα με τις λέξεις Bush Gore εκλογές και Bush Gore εκλογές. Όμως, χάρη σε αυτούς τους αλγόριθμους, μια διαισθητική προσέγγιση για τη δημιουργία ερωτημάτων (χωρίς οδηγίες ανάγνωσης) δίνει πολύ καλά αποτελέσματα και σε πολύ σύντομο χρονικό διάστημα. Αναζήτηση με μία λέξη Όταν ο χρήστης εισάγει τη λέξη αναζήτησης στο πεδίο αναζήτησης και κάνει κλικ στο κουμπί Εύρεση, οι λέξεις αναζητούνται λαμβάνοντας υπόψη όλες τις πιθανές μορφές λέξης, κάτι που είναι ιδιαίτερα σημαντικό για τη ρωσική γλώσσα. Για παράδειγμα, εάν εισαγάγετε τη λέξη snow, τότε θα βρεθούν έγγραφα που περιέχουν τις λέξεις snow, snows, κ.λπ., αλλά όχι snowy, snowy, κ.λπ. Εάν η αναζήτηση για φόρμες λέξεων δεν απαιτείται, τότε μπορεί να ακυρωθεί χρησιμοποιώντας ένα θαυμαστικό, για παράδειγμα, χιόνι! Αναζήτηση ανά ομάδα λέξεων Εάν οι λέξεις χωρίζονται με κενό, τότε γίνεται αναζήτηση εγγράφων στα οποία όλες οι λέξεις που εισάγονται εμφανίζονται σε μία πρόταση. Έτσι, κατόπιν αιτήματος των εκλογών του Μπους Γκορ το σύστημα παράγει έγγραφα με φράσεις όπως... Την παραμονή των εκλογών, χάκερ χάκαραν τις ιστοσελίδες του Μπους και του Γκορ. Μεταξύ των αποτελεσμάτων μιας τέτοιας αναζήτησης, είναι δυνατοί οι χαλαροί αγώνες - η μηχανή αναζήτησης δείχνει τη νοημοσύνη της. Για να διασφαλίσετε αυστηρά την εμφάνιση των λέξεων σε μια πρόταση, πρέπει να βάλετε ένα σύμβολο + μπροστά τους, για παράδειγμα: +Bush +Gore +εκλογές. Το σύμβολο + πρέπει να γράφεται μαζί με τη λέξη στην οποία αναφέρεται (χωρίς κενό). Ο χώρος λειτουργεί ως τελεστής ΚΑΙ, ο οποίος μπορεί επίσης να εισαχθεί ρητά (το σύμβολο &), για παράδειγμα: +Bush& +Gore& +elections. Πρέπει να υπάρχουν κενά δεξιά και αριστερά του λογικού τελεστή. Εάν απαιτείται η ταυτόχρονη παρουσία λέξεων όχι μόνο σε μια πρόταση, αλλά σε ολόκληρο το έγγραφο, χρησιμοποιείται ο τελεστής &&, για παράδειγμα: +Bush&& +Gore&& +elections. Τώρα θα εξετάσω τεχνικές για την εξαίρεση λέξεων από την αναζήτηση. Για να το κάνετε αυτό, χρησιμοποιήστε το σύμβολο - (αυστηρή εξαίρεση από την πρόταση), το σύμβολο ~ (μη αυστηρή εξαίρεση από την πρόταση) και το σύμβολο ~~ (εξαίρεση από ολόκληρο το έγγραφο). Έτσι, για παράδειγμα, το αίτημα +Bush +Gore ~~εκλογές θα επιτρέψει επιλέξτε έγγραφα στα οποία οι λέξεις Μπους και Γκορ εμφανίζονται σε μία πρόταση, αλλά ολόκληρο το έγγραφο δεν περιέχει τη λέξη εκλογές και τα παράγωγά της (επιλογή, στις εκλογές, μετά τις εκλογές, κ.λπ.). Σε περιπτώσεις όπου είναι απαραίτητο να συνδυαστούν λέξεις-κλειδιά χρησιμοποιώντας τον τελεστή OR, χρησιμοποιείται το σύμβολο |. (κάθετη μπάρα). Για παράδειγμα, το αίτημα Bush | Οι εκλογές Gore&& + θα επιλέξουν έγγραφα που αναφέρουν είτε τον George W. Bush είτε τον Albert Gore, αλλά πρέπει Εμφανίζεται η λέξη εκλογές. Αναζήτηση με απόσταση Πριν από πολύ καιρό, ο χειριστής NEAR εμφανίστηκε στις μηχανές αναζήτησης, επιτρέποντάς σας να βρείτε έγγραφα στα οποία δύο λέξεις βρίσκονται κοντά η μία στην άλλη. Είναι αλήθεια ότι κάθε σύστημα κατανοεί διαφορετικά τι είναι το «κοντό». Στη μηχανή αναζήτησης Yandex, μπορείτε να υποδείξετε συγκεκριμένα σε ποια απόσταση μεταξύ τους θα πρέπει να βρίσκονται αυτές οι λέξεις. Σε ένα έγγραφο, κάθε λέξη έχει τον δικό της αριθμό θέσης. Οι αριθμοί θέσεων δύο γειτονικών λέξεων διαφέρουν κατά μία (ο αριθμός θέσης της λέξης στα δεξιά είναι μεγαλύτερος). Ο τελεστής απόστασης γράφεται ως /+n, όπου n είναι ο αριθμός που αντιστοιχεί στην απόσταση. Για παράδειγμα, ο τελεστής /+1 ταιριάζει με δύο λέξεις στη σειρά, επομένως το Microsoft/+1 Windows είναι το ίδιο με το "Microsoft Windows". Ο χειριστής απόστασης μπορεί επίσης να έχει αρνητική τιμή. Αυτό σημαίνει ότι η δεύτερη λέξη που καθορίζεται στο ερώτημα πρέπει να εμφανίζεται πριν από την πρώτη στο έγγραφο. Για παράδειγμα, ένα ερώτημα Microsoft/-5 Windows μπορεί να παρέχει έναν σύνδεσμο προς ένα έγγραφο που περιέχει μια φράση σχετικά με τα λειτουργικά συστήματα που θα αντικαταστήσουν τα Windows, δήλωσε στέλεχος της Microsoft. Όταν πραγματοποιείτε αναζήτηση με ένδειξη απόστασης, μπορείτε να καθορίσετε όχι την ακριβή απόσταση μεταξύ των λέξεων, αλλά ένα εύρος, για παράδειγμα /(-5 +5). Σε αυτήν την περίπτωση, θα επιλεγούν έγγραφα στα οποία οι λέξεις που καθορίζονται στο ερώτημα ως λέξεις-κλειδιά εμπίπτουν στο καθορισμένο εύρος. Στην πραγματικότητα, εάν το πρόσημο της παραμέτρου δεν έχει καθοριστεί, τότε αυτό είναι επίσης μια αναζήτηση στο εύρος. Άρα, ο τελεστής /5 πρέπει στην πραγματικότητα να θεωρείται ως εύρος /(-5 +5). Το ερώτημα Bush/5 Gore θα βρει προτάσεις όπως: Γυναίκες συμπάσχουν τον Μπους και άνδρες - Ο Γκορ ή ο Γκορ Μπους δεν είναι πιο γλυκός. Το σύστημα Yandex έχει μάλλον πολύπλοκους κανόνες γλώσσας ερωτημάτων (σε σύγκριση με το Rambler), αλλά έχει εκτεταμένες δυνατότητες. Για παράδειγμα, οι αποστάσεις μπορούν να μετρηθούν όχι μόνο μεταξύ λέξεων, αλλά και μεταξύ προτάσεων. Αυτή η μονάδα μέτρησης χρησιμοποιείται όταν χρησιμοποιείται ένας διπλός χαρακτήρας && ή ~~ στο ερώτημα. Έτσι, το ερώτημα Bush/+1&&Gore θα επιστρέψει έγγραφα στα οποία οι λέξεις Bush και Gore εμφανίζονται είτε στην ίδια πρόταση είτε σε παρακείμενες. Χρησιμοποιώντας παρενθέσεις Μια εργασία αναζήτησης είναι ουσιαστικά μια Boolean έκφραση που λειτουργεί ως φίλτρο κατά την προβολή εγγράφων που περιλαμβάνονται στη βάση δεδομένων της μηχανής αναζήτησης. ΣΕ Σε μια λογική έκφραση, όπως και σε μια αριθμητική έκφραση, μπορείτε να χρησιμοποιήσετε παρενθέσεις. Χρησιμεύουν για τον έλεγχο της σειράς των ενεργειών. Χαρακτηριστικό παράδειγμα: Bush&Gore&(εκλογές | ψηφοφορία). Αυτό το ερώτημα θα επιστρέψει συνδέσμους σε ιστοσελίδες που περιέχουν προτάσεις που περιέχουν τις λέξεις Bush, Gore, εκλογές ή Bush, Gore, vote. Διαχείριση κατάταξης Ο σκοπός της κατάταξης είναι να εξασφαλιστεί ότι οι ιστοσελίδες αυτά που ταίριαζαν καλύτερα με το ερώτημα εμφανίζονταν στη λίστα των αποτελεσμάτων όσο το δυνατόν νωρίτερα. Οι αλγόριθμοι που χρησιμοποιεί μια μηχανή αναζήτησης κατά την κατάταξη είναι η δουλειά της. Οι χρήστες είτε είναι ικανοποιημένοι με την εργασία τους είτε στρέφονται σε άλλη μηχανή αναζήτησης. Στο σύστημα Yandex, μπορείτε να αλλάξετε ανεξάρτητα τον αλγόριθμο του μηχανισμού κατάταξης χρησιμοποιώντας συντελεστές στάθμισης. Αυτό το βάρος μπορεί να εκχωρηθεί σε οποιαδήποτε λέξη-κλειδί ή ολόκληρη έκφραση, αρκεί να περικλείεται σε παρένθεση: Τα βάρη εισάγονται με άνω και κάτω τελεία, για παράδειγμα εκλογές Bush:5 Gore. Με αυτό το ερώτημα, δίνεται προτεραιότητα στα έγγραφα στα οποία η λέξη Bush εμφανίζεται πιο συχνά και εμφανίζονται σε υψηλότερες θέσεις στη λίστα που προκύπτει. Μια άλλη τεχνική για τη διαχείριση της κατάταξης σχετίζεται με τη λέξη που πληροί τις προϋποθέσεις. Αυτή είναι μια λέξη που δεν χρειάζεται απαραίτητα να περιέχεται στα επιλεγμένα έγγραφα, αλλά εάν υπάρχει, τότε αυτό το έγγραφο λαμβάνει ένα πλεονέκτημα στην κατάταξη. Η κατάλληλη λέξη εισάγεται μετά τους χαρακτήρες<_. Например, при поиске по ключевым словам Гор Буш<_младший выборы получат преимущество Web-страницы, в которых речь идет не просто о Джордже Буше, а о Джордже Буше-младшем. Ειδική αναζήτηση Ιδιαίτερα αξιοσημείωτες είναι οι τεχνικές αναζήτησης πληροφοριών που περιέχονται σε ειδικά πεδία στις κεφαλίδες ιστοσελίδων (κάθε ιστοσελίδα έχει πεδία υπηρεσιών στην επικεφαλίδα της) ή αναζήτηση ειδικών στοιχείων που περιλαμβάνονται σε ιστοσελίδες, όπως υπερσυνδέσεις. Στο σύστημα Yandex, ξεκινούν ειδικές εντολές αναζήτησης στα πεδία κεφαλίδας με το σύμβολο $ και εντολές αναζήτησης για μεμονωμένα στοιχεία ιστοσελίδων - με το σύμβολο #. Όλα τα ειδικά εργαλεία αναζήτησης λειτουργούν αισθητά πιο αργά από τα κανονικά. <table><tr><td valign="top"> Ομάδα </td> <td valign="top"> Περιγραφή </td> <td valign="top"> Παράδειγμα </td> <td valign="top"> Εξήγηση </td> </tr><tr><td valign="top"> $title (έκφραση) </td> <td valign="top"> Η αναζήτηση για λέξεις-κλειδιά που καθορίζονται στην έκφραση πραγματοποιείται μόνο στους τίτλους των ιστοσελίδων </td> <td valign="top"> $title (Διάστημα) </td> <td valign="top"> Γίνεται αναζήτηση μόνο ιστοσελίδων που έχουν τη λέξη Space στους τίτλους τους (Εικ. 7.10) </td> </tr><tr><td valign="top"> </td> <td valign="top"> Η αναζήτηση για λέξεις-κλειδιά που καθορίζονται στην έκφραση πραγματοποιείται μόνο στις αγκυρώσεις εσωτερικών συνδέσμων ιστοσελίδων </td> <td valign="top"> $anchor (εισαγωγή) </td> <td valign="top"> Οικιακός (έκφραση) </td> </tr><tr><td valign="top"> #λέξεις-κλειδιά = (έκφραση) </td> <td valign="top"> </td> <td valign="top"> #keywords - (ειδήσεις) </td> <td valign="top"> </td> </tr><tr><td valign="top"> #abstract = (έκφραση) </td> <td valign="top"> Αναζήτηση σε σχολιασμό ιστοσελίδας </td> <td valign="top"> #abstract = (Μπους | Γκορ) </td> <td valign="top"> </td> </tr><tr><td valign="top"> #image = "όνομα αρχείου" </td> <td valign="top"> Αναζήτηση για αρχεία εικονογράφησης με το όνομά τους </td> <td valign="top"> #image -"Μπους.*" </td> <td valign="top"> Εάν δεν είναι γνωστό εκ των προτέρων ποια επέκταση μπορεί να έχει το όνομα αρχείου, χρησιμοποιήστε τον χαρακτήρα μπαλαντέρ "*", ο οποίος αντικαθιστά οποιονδήποτε αριθμό αυθαίρετων χαρακτήρων </td> </tr><tr><td valign="top"> #υπαινιγμός- (έκφραση) </td> <td valign="top"> Βρείτε λέξεις σε εικονογραφήσεις εναλλακτικού κειμένου </td> <td valign="top"> (Μπους | Γκορ) </td> <td valign="top"> </td> </tr><tr><td valign="top"> #url = " URL-διεύθυνση" </td> <td valign="top"> Αναζητήστε έναν ιστότοπο ή μια ιστοσελίδα </td> <td valign="top"> #uri.= "www.anysite.ru" </td> <td valign="top"> Συνήθως χρησιμοποιείται για την τοπική προσαρμογή αναζητήσεων. Για παράδειγμα, για να περιορίσετε την αναζήτηση σε έναν ιστότοπο ή, αντίθετα, να τον εξαιρέσετε από την περιοχή αναζήτησης </td> </tr><tr><td valign="top"> #σύνδεσμος - διεύθυνση" </td> <td valign="top"> </td> <td valign="top"> </td> <td valign="top"> Συνήθως χρησιμοποιείται " URL- για να εντοπίσετε ιστοσελίδες που έχουν υπερσυνδέσμους που οδηγούν στη δική σας σελίδα </td> </tr></table>Σύναψη Μπόρεσα να απαντήσω πλήρως στις ερωτήσεις που τέθηκαν και να κατανοήσω αυτό το θέμα (πώς να πραγματοποιήσω μια αποτελεσματική αναζήτηση στο Διαδίκτυο;). Ήμουν πεπεισμένος από τη δική μου εμπειρία ότι στην εποχή της υψηλής τεχνολογίας μας, η αποτελεσματική αναζήτηση πληροφοριών δεν μπορεί να λυθεί και παραμένει ένα από τα κύρια προβλήματα. Μπορώ να το εξηγήσω ως εξής. Πρώτον, δεν είναι η τελειότητα των ίδιων των μηχανών αναζήτησης, που θέτει σε αμφιβολία οποιαδήποτε αναζήτηση. Οι μηχανές αναζήτησης στερούνται τάξης, δομής, δομής, δομής, καθώς και συστήματος, συστηματοποίησης, συστηματοποίησης, τα ρομπότ των περισσότερων μηχανών αναζήτησης φέρνουν έναν τεράστιο αριθμό άχρηστων υπερσυνδέσμων, Δεύτερον, η απειρία των χρηστών επειδή... Η αναζήτηση και η εύρεση αυτού που χρειάζεστε σε ένα σωρό κείμενα στο Διαδίκτυο είναι μια ικανότητα όχι μόνο της μηχανής αναζήτησης, αλλά και του χρήστη που κάνει την ερώτηση. Τρίτον, η απληστία των προγραμματιστών και των διαφημιστικών εταιρειών που τους προσλαμβάνουν, οι οποίοι θέλουν οι ιστοσελίδες τους να ζητούνται όσο το δυνατόν συχνότερα. Αυτοί οι «άπληστοι» προγραμματιστές εξαπατούν τα ρομπότ και βγάζουν έναν ιστότοπο στο Διαδίκτυο που υποτίθεται ότι περιέχει τις πληροφορίες που χρειάζεται ο χρήστης, αλλά υπάρχουν διαφημιστικά φυλλάδια ή ένας αυτόματος υπερσύνδεσμος που ζητά έναν ιστότοπο διαφήμισης ή, ακόμη χειρότερα, έναν ιστότοπο επί πληρωμή. Αν και οι ειδικοί που εξυπηρετούν τις μηχανές αναζήτησης παλεύουν με αυτό το φαινόμενο, εξακολουθεί να γίνεται όλο και πιο διαδεδομένο κάθε μέρα. Σήμερα, το Διαδίκτυο χρησιμοποιείται ως αναφορά από το 23% των χρηστών, ως εργαλείο έρευνας από το 15%, ως ψυχαγωγία από το 14% και μόνο ως πηγή ειδήσεων από το 12%. Δεν είναι αισιόδοξη άποψη ότι το 10% των χρηστών πάντα, αλλά το 73% καταφέρνει συχνά να βρει τις απαραίτητες πληροφορίες. Σε αυτήν την ερώτηση, ποια μηχανή αναζήτησης είναι η καλύτερη και ποια θα προτιμούσα να χρησιμοποιήσω, θα απαντήσω ως εξής: θα πρέπει να χρησιμοποιήσετε το μηχάνημα που είναι πιο βολικό και είναι πιο βολικό για μένα να χρησιμοποιήσω το Yandex. Το Διαδίκτυο έχει κάνει την αναζήτηση ευκολότερη και απαιτεί συγκεκριμένες γνώσεις σχετικά με την αναζήτηση σήμερα δεν είναι πάντα αποτελεσματική. Και επομένως, δεν πρέπει να ξεχνάμε την παλιά όχι λιγότερο αποτελεσματική αναζήτηση πληροφοριών - βιβλίων και βιβλιοθηκών, αυτή η πηγή πληροφοριών έχει δικαιολογηθεί από την εποχή της «Αλεξανδρινής Βιβλιοθήκης» και το Διαδίκτυο θα είναι πιο αποτελεσματικό μόνο στο εγγύς μέλλον και θα γίνει σχεδόν αναντικατάστατο. Κατάλογος χρησιμοποιημένης βιβλιογραφίας 1. Andrey Alikberov «Λίγα λόγια για το πώς λειτουργούν τα ρομπότ μηχανών αναζήτησης». #"#">Χρησιμοποιείται η γλώσσα της μηχανής αναζήτησης Yandex <td rowspan="5" valign="top"> </td> <td rowspan="5" valign="top"> </td> <td rowspan="5" valign="top"> </td> <td valign="top"> </td> <td valign="top"> </td> <tr><td valign="top"> Αναζήτηση με φράση </td> <td valign="top"> </td> <td valign="top"> </td> </tr><tr><td valign="top"> Προθέματα </td> <td valign="top"> </td> <td valign="top"> </td> </tr><tr><td valign="top"> Επαναληπτική αναζήτηση (στα αποτελέσματα) </td> <td valign="top"> </td> <td valign="top"> Αφού συνδεθείτε, κάντε κλικ στο Περισσότερα... </td> </tr><tr><td valign="top"> αντικατάσταση μέρους μιας λέξης </td> <td valign="top"> </td> <td valign="top"> * (όχι πάντα σωστό) </td> </tr> Πίνακας-2 <table><tr><td colspan="7" valign="top"> Συνοπτικός πίνακας κορυφαίων μηχανών αναζήτησης </td> </tr><tr><td valign="top"> </td> <td valign="top"> εγώδείκτης </td> <td colspan="2" valign="top"> </td> <td valign="top"> Εξαγωγή! </td> <td valign="top"> AltaVista </td> <td valign="top"> </td> </tr><tr><td valign="top"> Περιοχή αναζήτησης, όγκος βάσης δεδομένων </td> <td valign="top"> Ρωσικό μέρος του Διαδικτύου. Αναζήτηση μέσω σελίδων ιστοτόπων από την ενότητα καταλόγου, ανά περιοχή. </td> <td colspan="2" valign="top"> Ειδική αναζήτηση για νέα, προϊόντα, εικόνες. </td> <td valign="top"> Ρωσικό μέρος του Διαδικτύου. </td> <td valign="top"> Ρωσικό μέρος του Διαδικτύου. Εξειδικευμένη αναζήτηση ειδήσεων, προϊόντων, εικόνων, MP3 </td> <td valign="top"> Εξειδικευμένη αναζήτηση ειδήσεων, προϊόντων, ψυχαγωγίας, ήχου (MP3) και βίντεο. </td> </tr><tr><td valign="top"> Εξειδικευμένη αναζήτηση για πανεπιστήμια των ΗΠΑ, Apple, Linux, BSD </td> <td valign="top"> Βασικός όγκος στις αρχές του 2001 </td> <td colspan="2" valign="top"> Περισσότερα από 31 εκατομμύρια έγγραφα </td> <td valign="top"> Περισσότερα από 12 εκατομμύρια έγγραφα </td> <td valign="top"> Περισσότερα από 14 εκατομμύρια έγγραφα </td> <td valign="top"> Περισσότερα από 250 εκατομμύρια έγγραφα </td> </tr><tr><td valign="top"> 1,25 δισεκατομμύρια σελίδες </td> <td valign="top"> Τύπος ευρετηρίασης </td> <td colspan="2" valign="top"> Τύπος ευρετηρίασης </td> <td valign="top"> </td> <td valign="top"> Τύπος ευρετηρίασης </td> <td valign="top"> ευρετηρίαση πλήρους κειμένου </td> </tr><tr><td valign="top"> ευρετηρίαση πλήρους κειμένου και ευρετηρίαση με συνδέσμους </td> <td valign="top"> Διαθεσιμότητα πρόσθετων υπηρεσιών </td> <td colspan="2" valign="top"> </td> <td valign="top"> Το σύστημα συνδυάζει μια μηχανή αναζήτησης και έναν κατάλογο, καθώς και μια σειρά από πρόσθετα έργα (Zakladki.Ru, Narod.Ru, σύστημα για έξυπνη επιλογή προϊόντων, CY, κ.λπ.). </td> <td valign="top"> Το σύστημα συνδυάζει μια μηχανή αναζήτησης, έναν κατάλογο και πρόσθετες υπηρεσίες (διαδικτυακές αγορές κ.λπ.) </td> <td valign="top"> Το σύστημα συνδυάζει μια μηχανή αναζήτησης, έναν κατάλογο και μια σειρά από πρόσθετες υπηρεσίες (φιλοξενία, κατοχύρωση ονόματος τομέα, μετάφραση κ.λπ.) </td> </tr><tr><td colspan="7" valign="top"> Το σύστημα συνδυάζει μια μηχανή αναζήτησης και έναν κατάλογο που περιέχει 15 ενότητες και 1,5 εκατομμύρια ιστοσελίδες. </td> </tr><tr><td valign="top"> Σύνταξη γλώσσας αναζήτησης </td> <td colspan="2" valign="top"> λογικό ΚΑΙ </td> <td valign="top"> διάστημα ή & (μέσα σε πρόταση)&& (εντός εγγράφου) </td> <td valign="top"> ΚΑΙ, &, κενό μεταξύ των λέξεων από προεπιλογή </td> <td valign="top"> AND, AND, &,+, κενό μεταξύ των λέξεων από προεπιλογή </td> <td valign="top"> ΚΑΙ, & (μόνο για σύνθετες αναζητήσεις) </td> </tr><tr><td valign="top"> προεπιλογή για όλες τις λέξεις αναζήτησης </td> <td colspan="2" valign="top"> </td> <td valign="top"> </td> <td valign="top"> </td> <td valign="top"> λογικό Ή </td> <td valign="top"> </td> </tr><tr><td valign="top"> Ή (προεπιλογή για απλή αναζήτηση), | (μόνο για σύνθετες αναζητήσεις) </td> <td colspan="2" valign="top"> δυαδικός τελεστής NAND ~ (μέσα σε μια πρόταση) </td> <td valign="top"> ~ ~ (εντός εγγράφου) </td> <td valign="top"> δεν χρησιμοποιείται </td> <td valign="top"> αντικαθίσταται από τον τελεστή προθέματος "-" (ΚΑΙ είναι ένα κενό από προεπιλογή) </td> <td valign="top"> ΚΑΙ ΟΧΙ, ! (μόνο για σύνθετες αναζητήσεις) </td> </tr><tr><td valign="top"> αντικαταστάθηκε από τον τελεστή προθέματος "-" </td> <td colspan="2" valign="top"> </td> <td valign="top"> προθέματα απαιτούμενων (+) και απαγορευμένων (-) λέξεων </td> <td valign="top"> </td> <td valign="top"> δεν χρησιμοποιείται </td> <td valign="top"> </td> </tr><tr><td valign="top"> +, - (μόνο για απλή αναζήτηση) </td> <td colspan="2" valign="top"> </td> <td valign="top"> </td> <td valign="top"> </td> <td valign="top"> </td> <td valign="top"> ~ ~ (εντός εγγράφου) </td> </tr><tr><td valign="top"> ομαδοποίηση λέξεων </td> <td colspan="2" valign="top"> απόσταση μεταξύ των λέξεων-κλειδιών κατά την αναζήτηση </td> <td valign="top"> /(n m) - σε λέξεις, &&/(n m) - σε προτάσεις (- πίσω, + εμπρός) </td> <td valign="top"> με προηγμένη αναζήτηση - εμφάνιση εγγράφων μόνο με ελάχιστη απόσταση μεταξύ των λέξεων </td> <td valign="top"> sl2(...), с2(...), w2(...), (- πίσω, + εμπρός) </td> <td valign="top"> ~ ~ (εντός εγγράφου) </td> </tr><tr><td valign="top"> ΚΟΝΤΑ (μέσα σε 10 λέξεις, μόνο για σύνθετες αναζητήσεις) </td> <td colspan="2" valign="top"> </td> <td valign="top"> </td> <td valign="top"> </td> <td valign="top"> </td> <td valign="top"> </td> </tr><tr><td valign="top"> αναζήτηση φράσεων </td> <td colspan="2" valign="top"> </td> <td valign="top"> *, ? (αντικαταστήστε οποιονδήποτε χαρακτήρα) </td> <td valign="top"> * (μόνο στο τέλος μιας λέξης) </td> <td valign="top"> </td> <td valign="top"> </td> </tr><tr><td valign="top"> περιορισμός γλώσσας εγγράφου </td> <td colspan="2" valign="top"> επιλογή: οποιοδήποτε, κυριλλικό, λατινικό </td> <td valign="top"> επιλογή: οποιαδήποτε, ρωσικά, αγγλικά </td> <td valign="top"> επιλογή: Ρώσικα, Αγγλικά </td> <td valign="top"> επιλογή 25 γλωσσών </td> <td valign="top"> επιλογή 25 γλωσσών </td> </tr><tr><td valign="top"> μορφολογία </td> <td colspan="2" valign="top"> όλες οι κλίσεις και οι συζυγίες από προεπιλογή, ! (αναζητήστε την ακριβή μορφή λέξης) </td> <td valign="top"> # (όλες οι μορφές λέξεων), @ (λέξεις με την ίδια ρίζα) </td> <td valign="top"> ! </td> <td valign="top"> </td> <td valign="top"> </td> </tr><tr><td valign="top"> (ένδειξη κανονικής μορφής) </td> <td colspan="2" valign="top"> </td> <td valign="top"> </td> <td valign="top"> </td> <td valign="top"> </td> <td valign="top"> </td> </tr><tr><td valign="top"> αναζήτηση κατά ημερομηνίες </td> <td colspan="2" valign="top"> </td> <td valign="top"> περιορίστε την αναζήτηση κατά πεδία </td> <td valign="top"> </td> <td valign="top"> </td> <td valign="top"> </td> </tr><tr><td colspan="7" valign="top"> Αναζήτηση σε τίτλους, διευθύνσεις, ονόματα εγγράφων (μόνο με σύνθετη αναζήτηση). </td> </tr><tr><td valign="top"> Αναζητήστε παρόμοια έγγραφα. </td> <td colspan="2" valign="top"> Προηγμένες δυνατότητες φόρμας, ποιότητα βοήθειας </td> <td valign="top"> ρύθμιση μιας προηγμένης φόρμας </td> <td valign="top"> ρύθμιση φίλτρου λεξικού, ρυθμίσεις κατά ημερομηνία, ανά τοποθεσία, σύνδεσμο, εικόνα, ειδικό αντικείμενο </td> <td valign="top"> κατά λειτουργίες εγγράφου, ημερομηνίας, ΚΑΙ, Ή, απόσταση μεταξύ λέξεων, περικοπή λέξης </td> <td valign="top"> </td> </tr><tr><td valign="top"> κατά έγγραφο, τίτλο, εικόνα, ημερομηνία, 5 ενότητες (ιστοσελίδες, MP3, εικόνες, προϊόντα, ειδήσεις) </td> <td colspan="2" valign="top"> </td> <td valign="top"> από ερωτηματολόγιο Boole, ημερομηνία, τοποθεσία, σύνδεσμο, εικόνα, κείμενο κ.λπ. </td> <td valign="top"> ρύθμιση εξόδου αποτελεσμάτων </td> <td valign="top"> ρύθμιση του αριθμού των αποτελεσμάτων ανά σελίδα, φόρμα εξόδου </td> <td valign="top"> ρύθμιση του αριθμού των αποτελεσμάτων ανά σελίδα, φόρμα εξόδου </td> </tr><tr><td valign="top"> προσδιορίζοντας το έντυπο έκδοσης </td> <td colspan="2" valign="top"> </td> <td valign="top"> ορίζοντας τον αριθμό των αποτελεσμάτων στη σελίδα, όλα τα στοιχεία της φόρμας εξόδου </td> <td valign="top"> κατάταξη των αποτελεσμάτων αναζήτησης </td> <td valign="top"> ταξινόμηση κατά συνάφεια ή ημερομηνία </td> <td valign="top"> με βάση τη δημοτικότητα του ιστότοπου </td> </tr><tr><td valign="top"> σύμφωνα με τους όρους που καθορίζονται στο SORT </td> <td colspan="2" valign="top"> με παραπομπή (σύνδεσμοι σε σελίδα από άλλες σελίδες) </td> <td valign="top"> επαναληπτική αναζήτηση (στα αποτελέσματα αναζήτησης) </td> <td valign="top"> Ναί. Εκτελείται επιλέγοντας το πλαίσιο ελέγχου </td> <td valign="top"> Ναί. Εκτελείται με χρήση του διακόπτη εύρους αναζήτησης </td> <td valign="top"> </td> </tr><tr><td valign="top"> Εκτελείται επιλέγοντας το πλαίσιο ελέγχου </td> <td colspan="2" valign="top"> Εκτελείται με χρήση </td> <td valign="top"> ενότητα ποιότητας βοήθειας </td> <td valign="top"> υπάρχει μια λεπτομερής περιγραφή της γλώσσας ερωτήματος, ένας πίνακας σύνταξης και μια ενότητα για την αναζήτηση σε κατηγορίες </td> <td valign="top"> σύντομη ενότητα ΒΟΗΘΕΙΑ </td> <td valign="top"> μια λεπτομερής αναφορά στη γλώσσα ερωτημάτων, υπάρχουν πολλά ρωσικά συνώνυμα για τους βασικούς τελεστές </td> </tr><tr><td valign="top"> το μεγαλύτερο σε απευθείας σύνδεση σεμινάριο για τη γλώσσα ερωτημάτων που συζητείται σε αυτόν τον πίνακα </td> <td colspan="2" valign="top"> </td> <td valign="top"> </td> <td valign="top"> </td> <td valign="top"> </td> <td valign="top"> </td> </tr><tr height="0"><td> </td> <td> </td> <td width="1"> </td> <td> </td> <td> </td> <td> </td> <td> </td> </tr></table> πολύ περιορισμένη ενότητα ΒΟΗΘΕΙΑΣ οικογενειακό φίλτρο Η αναζήτηση πληροφοριών είναι μια από τις πιο συνηθισμένες και ταυτόχρονα τις πιο δύσκολες εργασίες που έχει να αντιμετωπίσει κάθε χρήστης στο Διαδίκτυο. Ο λόγος για τις δυσκολίες που προκύπτουν κατά την αναζήτηση πληροφοριών στο Διαδίκτυο καθορίζεται από δύο βασικούς παράγοντες. Πρώτον, ο αριθμός των πηγών στο Διαδίκτυο είναι εξαιρετικά μεγάλος. Δεύτερον, η ποσότητα των πληροφοριών στο Διαδίκτυο δεν είναι μόνο κολοσσιαία σε όγκο, αλλά και εξαιρετικά δυναμική. Στο μισό λεπτό που αφιερώνουμε διαβάζοντας τις πρώτες γραμμές αυτής της ενότητας, περίπου εκατό νέα ή αλλαγμένα έγγραφα θα εμφανιστούν στο εικονικό σύμπαν, δεκάδες θα μετακινηθούν σε νέες διευθύνσεις και μερικά θα πάψουν να υπάρχουν για πάντα. Η ανάγκη και η σημασία του προβλήματος της ανάκτησης πληροφοριών οδήγησε στη δημιουργία μιας ολόκληρης βιομηχανίας στο ίδιο το Διαδίκτυο, καθήκον της οποίας είναι ακριβώς να βοηθήσει τον χρήστη στην πλοήγησή του στον κυβερνοχώρο. Αυτός ο κλάδος αποτελείται από ειδικές υπηρεσίες ή υπηρεσίες αναζήτησης. Συμβατικά, μπορούν να χωριστούν σε καταλόγους (καταλόγους) και μηχανές αναζήτησης (μηχανές αναζήτησης). Αυτές οι ποικιλίες είναι πολύ παρόμοιες στην εμφάνιση, καθώς κάθε κατάλογος, κατά κανόνα, έχει τη δική του μηχανή αναζήτησης και κάθε μηχανή αναζήτησης έχει τον δικό της κατάλογο. Ωστόσο, οι αρχές της δουλειάς τους βασίζονται σε εντελώς διαφορετικές προσεγγίσεις και τεχνολογίες. Κάθε ένα από αυτά τα εργαλεία έχει ορισμένα πλεονεκτήματα και η κύρια διαφορά μεταξύ τους είναι η ανθρώπινη συμμετοχή/μη συμμετοχή. Οι μηχανές αναζήτησης εκτελούν λογισμικό "spiders" στον Ιστό που ταξιδεύουν από σελίδα σε σελίδα και ευρετηριάζουν το πλήρες κείμενο κάθε σελίδας. Οι κατάλογοι σχηματίζονται από ανθρώπινους συντάκτες που διαβάζουν σελίδες, εξαλείφουν τις ακατάλληλες και ταξινομούν τους κόμβους ανά θέμα. Επιπλέον, κάθε τύπος υπηρεσίας αναζήτησης χρησιμοποιείται για την επίλυση ενός συγκεκριμένου τύπου προβλήματος. Η σωστή επιλογή εργαλείου καθορίζει σε μεγάλο βαθμό τη στρατηγική αναζήτησης και, τελικά, το αποτέλεσμα της αναζήτησης. Όταν ξεκινάτε μια αναζήτηση πληροφοριών στο Διαδίκτυο, θα πρέπει πάντα να θυμάστε μερικά βασικά σημεία. Πρώτα απ 'όλα, κανένα εργαλείο πλοήγησης - κατάλογοι ή μηχανές αναζήτησης - δεν καλύπτει ολόκληρη την τρέχουσα σειρά πληροφοριών του Διαδικτύου. Σύμφωνα με ορισμένες εκτιμήσεις, ακόμη και τέτοιοι αναγνωρισμένοι ηγέτες στην διαδικτυακή αναζήτηση όπως η Google δεν αντικατοπτρίζουν περισσότερο από το ένα τρίτο του συνολικού περιεχομένου του Ιστού. Ο λόγος για αυτό είναι η συνεχής κολοσσιαία αύξηση του όγκου των πληροφοριών στο Διαδίκτυο, η οποία, παρά όλες τις προσπάθειες των υπηρεσιών πλοήγησης, περιέχει έναν τεράστιο αριθμό τυφλών σημείων. Εκτός από την ταχεία ανάπτυξη και αλλαγή στη θέση των εγγράφων, οι περισσότερες μηχανές αναζήτησης έχουν εσωτερικούς περιορισμούς στην αντανάκλαση του υλικού από έναν ιστότοπο και στον όγκο του ευρετηριασμένου τμήματος της σελίδας. Τα προγράμματα ρομπότ συχνά δεν μπαίνουν βαθύτερα στον διακομιστή πέρα από έναν συγκεκριμένο κατάλογο, γεγονός που μειώνει επίσης τον αριθμό των ανακλώμενων υλικών. Ταυτόχρονα, πολλοί μεγάλοι ιστότοποι έχουν το δικό τους σύστημα αναζήτησης, το οποίο αντικατοπτρίζει ολόκληρη τη σειρά πληροφοριών τους. Έχοντας εντοπίσει τέτοιους διακομιστές χρησιμοποιώντας καταλόγους, μπορείτε να κάνετε μια πιο λεπτομερή εξέτασή τους χρησιμοποιώντας έναν τοπικό μηχανισμό αναζήτησης. Έτσι, για να επιτευχθούν τα πιο ολοκληρωμένα αποτελέσματα, οι κατάλογοι και οι μηχανές αναζήτησης θα πρέπει να χρησιμοποιούνται σε συνδυασμό μεταξύ τους. Υπάρχουν επίσης ορισμένες γενικές απαιτήσεις για τις δραστηριότητες αναζήτησης, η τήρηση των οποίων αυξάνει την αποτελεσματικότητα και εξοικονομεί χρόνο που αφιερώνεται στην αναζήτηση δεδομένων. 1. Για να αναζητήσετε υλικά για ένα εξαιρετικά στενό, συγκεκριμένο θέμα, θα πρέπει να ξεκινήσετε με καταλόγους. 2. Για να λάβετε πιο ολοκληρωμένα αποτελέσματα για ένα σύνθετο ερώτημα, συνιστάται η διεξαγωγή αναζήτησης ξεχωριστά σε κάθε μηχανή αναζήτησης. Οι μηχανές αναζήτησης έχουν μεγάλη ποικιλομορφία στην αντανάκλαση των εγγράφων και η συνεπής χρήση τους διευρύνει σημαντικά την κάλυψη του υλικού. 3. Κατά την αναζήτηση εγγράφων σχετικά με μια συγκεκριμένη χώρα ή σε μια συγκεκριμένη γλώσσα, θα πρέπει να προτιμώνται τα εθνικά/περιφερειακά εργαλεία αναζήτησης. 4. Το αίτημα πρέπει να δημιουργηθεί όσο το δυνατόν ακριβέστερα, χρησιμοποιώντας όλες τις δυνατότητες του μηχανισμού δημιουργίας αιτημάτων. Ο χρόνος που αφιερώνεται στη λεπτομερή συλλογή οδηγιών αναζήτησης αποδίδει καρπούς κατά την ανάλυση των αποτελεσμάτων αναζήτησης. Με τον ακριβή σχηματισμό ερωτημάτων, το ποσοστό του θορύβου πληροφοριών θα είναι πολύ χαμηλότερο. Κατά τη συστηματική πρόσβαση στα εργαλεία αναζήτησης, είναι απαραίτητο να παρακολουθείτε συνεχώς ειδήσεις που σχετίζονται με την υπηρεσία αναζήτησης. Στον κόσμο γύρω μας γενικά, και ακόμη περισσότερο στον ψηφιακό κόσμο, δεν υπάρχει τίποτα αιώνιο. Κάθε μηχανή αναζήτησης περνά από περιόδους γέννησης, ευημερίας και παρακμής. Μην φοβάστε να σταματήσετε να χρησιμοποιείτε την αγαπημένη σας αλλά ξεπερασμένη μηχανή αναζήτησης και να μεταβείτε σε νέα εργαλεία αναζήτησης που είναι πιο αποτελεσματικά. 1.2 Αναζήτηση με χρήση καταλόγων 1.2.1 Αρχή λειτουργίας, πλεονεκτήματα και μειονεκτήματα των καταλόγων Οι κατάλογοι είναι οι πρωτοπόροι της πλοήγησης στο διαδίκτυο. Ο κατάλογος αντιπροσωπεύει δεδομένα δομημένα ανά θέμα με τη μορφή ιεραρχικών δομών. Κατά τη φόρτωση του καταλόγου, εμφανίζεται στην οθόνη η πιο γενική λίστα των τομέων ανθρώπινης δραστηριότητας: ΤΕΧΝΗ, ΕΚΠΑΙΔΕΥΣΗ, ΕΠΙΧΕΙΡΗΣΕΙΣ, ΕΠΙΣΤΗΜΗ, ΠΑΙΧΝΙΔΙΑ, ΑΘΛΗΤΙΣΜΟΣ κ.λπ. Οι κατάλογοι έχουν μια ιεραρχική δομή, δηλαδή ο χρήστης, μπαίνοντας σε οποιοδήποτε τμήμα του καταλόγου, βλέπει συνεχώς όλο και πιο λεπτομερείς λεπτομέρειες. Οι περισσότεροι κατάλογοι δημιουργούνται από συντάκτες που προσθέτουν ιστοσελίδες στον ιστότοπό τους σε μια υπάρχουσα λίστα συνδέσμων. Οι κατάλογοι αναζήτησης δημιουργούνται χειροκίνητα, π.χ. πληροφορίες εισάγονται σε αυτά από άτομα. Οι συντάκτες υψηλής ειδίκευσης εξετάζουν προσωπικά τον χώρο πληροφοριών του WWW, επιλέγουν αυτό που θεωρούν ότι είναι δημόσιου ενδιαφέροντος και το καταγράφουν. Χάρη στον «ανθρώπινο» παράγοντα, οι πληροφορίες στους καταλόγους οργανώνονται αρκετά καθαρά, γεγονός που σε ορισμένες περιπτώσεις σας επιτρέπει να επιτύχετε το επιθυμητό αποτέλεσμα πιο γρήγορα από τη χρήση μηχανών αναζήτησης. Το κύριο πρόβλημα των καταλόγων αναζήτησης είναι το εξαιρετικά χαμηλό ποσοστό κάλυψης των πόρων του WWW. Μόνο οι καλύτερες σελίδες περιλαμβάνονται στους καταλόγους. Ως εκ τούτου, η εύρεση αρκετά συγκεκριμένων πληροφοριών στον κατάλογο είναι συχνά πολύ δύσκολη. Εκτός από τις κύριες ενότητες, πολλοί κατάλογοι έχουν πρόσθετους, στους οποίους οι ιστότοποι ταξινομούνται σε διαφορετική βάση: περιοχή, χώρα. αλφάβητο; δημοτικότητα. Η ιδιαιτερότητα των καταλόγων είναι ότι είναι πιο αποτελεσματικοί όταν αναζητούν συλλογές πληροφοριών για ένα συγκεκριμένο γενικό θέμα, για παράδειγμα, «συνδικαλιστικό κίνημα», «συντακτικά γραφεία εφημερίδων στα Ουράλια», παρά όταν αναζητούν μια απάντηση σε συγκεκριμένη ερώτηση! Οι κατάλογοι μπορεί να είναι: · καθολική, που σας επιτρέπει να κάνετε αναζήτηση σε διάφορα θέματα. Οι πληροφορίες ομαδοποιούνται σε ενότητες. Κάθε ενότητα έχει πολλές υποενότητες. Για παράδειγμα, www.ru, referal.ru, www.freeedom.ru. Στα Windows, κάθε εφαρμογή DOS είχε το δικό της εγχειρίδιο χρήσης, που απαιτούσε κάθε εφαρμογή να μελετηθεί ξεχωριστά. 2 ΒΑΣΙΚΕΣ ΤΕΧΝΙΚΕΣ ΑΝΑΖΗΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΣΤΟ ΔΙΑΔΙΚΤΥΟ 2.1 Βασικές απαιτήσεις για αναζήτηση Τα αποτελέσματα αναζήτησης υπόκεινται στις απαιτήσεις της πλήρους κάλυψης των πόρων, της αξιοπιστίας των πληροφοριών που λαμβάνονται, του ελάχιστου χρόνου και της μέγιστης ταχύτητας αναζήτησης. ... Πληροφορίες με χρήση ειδικών θεματικών ενοτήτων (θεματικοί κατάλογοι) σε μηχανές αναζήτησης. Αυτή η μέθοδος αναζήτησης πληροφοριών στο Διαδίκτυο πραγματοποιείται κοιτάζοντας τον κατάλογο της βιβλιοθήκης. Για παράδειγμα, εάν πρέπει να βρείτε πληροφορίες σχετικά με τον υπολογισμό της απόσβεσης των παγίων στοιχείων, θα πρέπει να ανατρέξετε στην ενότητα "Λογιστική". Σε αυτό, επιλέξτε την ενότητα "Πάγια στοιχεία ενεργητικού". Και στην ενότητα "Πάγια" -... Χρησιμοποιώντας τα πλαίσια ελέγχου που βρίσκονται σε αυτήν τη σελίδα. Το σύστημα έχει επίσης τη δυνατότητα να ακολουθεί συνδέσμους. ΚΕΦΑΛΑΙΟ 2. ΛΟΓΙΣΤΙΚΗ ΕΚΚΑΘΑΡΙΣΜΟΥΣ ΚΑΙ ΤΡΕΧΟΥΣΕΣ ΥΠΟΧΡΕΩΣΕΙΣ ΜΕ ΑΓΟΡΑΣΤΕΣ ΚΑΙ ΠΕΛΑΤΕΣ Κατά την αναζήτηση πληροφοριών σχετικά με το θέμα «Λογιστική για τρέχουσες υποχρεώσεις και διακανονισμούς με αγοραστές και πελάτες», μηχανές αναζήτησης όπως http://www.altavista.com, http:/ /www aport.ru, http:// ... Εκπαιδευτικοί πόροι www.spb. osi.ru/ic/distant Εξ αποστάσεως εκπαίδευση στο Διαδίκτυο www.examen.ru Εξετάσεις και τεστ www.kbsu.ru/~book/ Εγχειρίδιο πληροφορικής Mega. km.ru Εγκυκλοπαίδειες και λεξικά Αναζήτηση πληροφοριών στο Διαδίκτυο: παγίδες Τα προβλήματα που δεν βρίσκονται στην επιφάνεια συχνά γίνονται αισθητά μόνο "εκ των υστέρων", αφού έχει ολοκληρωθεί ένα ορισμένο στάδιο της εργασίας αναζήτησης και, ... ΥΠΟΥΡΓΕΙΟ ΠΑΙΔΕΙΑΣ ΚΑΙ ΕΠΙΣΤΗΜΗΣ ΤΗΣ ΡΩΣΙΑΣ Κρατικό εκπαιδευτικό ίδρυμα ανώτατης επαγγελματικής εκπαίδευσης "ΡΩΣΙΚΟΣ ΚΡΑΤΙΚΟ ΑΝΘΡΩΠΙΣΤΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ» Παράρτημα του Ρωσικού Κρατικού Πανεπιστημίου για τις Ανθρωπιστικές Επιστήμες στην Αγία Πετρούπολη. Αγία Πετρούπολη 2011 Εισαγωγή 3 1. Το Διαδίκτυο ως σύγχρονη πηγή πληροφοριών 4 2. Ιδιαιτερότητα των πληροφοριών στις εκπαιδευτικές δραστηριότητες του μαθητή 6 3. Δυνατότητες χρήσης του Διαδικτύου στην αναζήτηση πληροφοριών για εκπαιδευτικές δραστηριότητες μαθητών 8 Συμπέρασμα 13 Κατάλογος πηγών και βιβλιογραφίας 14 <h2>Εισαγωγή</h2> Σήμερα, ένας μαθητής δεν μπορεί να κάνει χωρίς υπολογιστή. Η επικοινωνία με έναν υπολογιστή ξεκινά στο σχολείο, όπου οι μαθητές μαθαίνουν τα βασικά της τεχνολογίας των υπολογιστών και εξοικειώνονται με εκπαιδευτικούς ιστότοπους στο Διαδίκτυο. Κατά κανόνα, όταν εισέρχονται σε ένα πανεπιστήμιο, πολλοί υποψήφιοι είναι ήδη εξοικειωμένοι με έναν υπολογιστή και οι περισσότεροι έχουν έναν στο σπίτι. Για να κάνουν τη μαθησιακή διαδικασία ευκολότερη για τους εαυτούς τους, οι μαθητές καταφεύγουν συχνά στο Διαδίκτυο, κατεβάζοντας περιλήψεις και δοκίμια. Για την ώρα μπορεί κανείς να ξεφύγει από μια τέτοια στάση απέναντι στις τάξεις. Ωστόσο, η φοίτηση σε ένα πανεπιστήμιο απαιτεί μια πιο σοβαρή προσέγγιση και απαιτεί γνώση διαφόρων ειδικών επιστημών. Υπό αυτή την έννοια, το Διαδίκτυο παύει να είναι μια αξιόπιστη πηγή πληροφοριών και από κάποια άποψη είναι εντελώς επιβλαβές. Το σύγχρονο Διαδίκτυο έχει πολλές κοινωνικές και πολιτιστικές πτυχές, είναι ένα παγκόσμιο περιβάλλον πληροφοριών. Από αυτή την άποψη, το θέμα του Διαδικτύου ως πηγής πληροφοριών στις εκπαιδευτικές δραστηριότητες ενός μαθητή είναι σχετικό. Οι στόχοι της εργασίας είναι: <ol>Περιγράψτε το Διαδίκτυο ως μια σύγχρονη πηγή πληροφοριών.Αποκαλύψτε τις ιδιαιτερότητες των πληροφοριών στις εκπαιδευτικές δραστηριότητες του μαθητή.Εξετάστε τα χαρακτηριστικά της χρήσης του Διαδικτύου για την αναζήτηση πληροφοριών για τις εκπαιδευτικές δραστηριότητες ενός μαθητή. </ol><h2>1. Το Διαδίκτυο ως σύγχρονη πηγή πληροφοριών</h2> Σύμφωνα με το wikipedia.org: Το Διαδίκτυο (προφέρεται [διαδίκτυο], Αγγλικά Διαδίκτυο) είναι ένα παγκόσμιο σύστημα διασυνδεδεμένων δικτύων υπολογιστών που βασίζεται στη χρήση του πρωτοκόλλου IP και στη δρομολόγηση των πακέτων δεδομένων. Το Διαδίκτυο αποτελεί έναν παγκόσμιο χώρο πληροφοριών και χρησιμεύει ως φυσική βάση για τον Παγκόσμιο Ιστό και πολλά άλλα συστήματα μετάδοσης δεδομένων (πρωτόκολλα). Συχνά αναφέρεται ως "World Wide Web" και "Wide Area Network". Στην καθημερινή ζωή μερικές φορές λένε «Διαδίκτυο» 1. Στις μέρες μας, όταν η λέξη «Διαδίκτυο» χρησιμοποιείται στην καθημερινή ζωή, σημαίνει συχνότερα τον Παγκόσμιο Ιστό και τις διαθέσιμες πληροφορίες σε αυτόν και όχι το ίδιο το φυσικό δίκτυο. Σήμερα, το Διαδίκτυο γίνεται μια από τις κύριες πηγές πληροφοριών λόγω του τεράστιου όγκου δεδομένων που δημοσιεύονται στο διαδίκτυο και της δυνατότητας εύκολης πρόσβασης σε αυτά. Ταυτόχρονα, η αναζήτηση στο Διαδίκτυο γίνεται ολοένα και πιο πρακτική, αφού με τη ραγδαία αύξηση του όγκου των διαθέσιμων δεδομένων, η διαδικασία εύρεσης των απαραίτητων πληροφοριών γίνεται όλο και πιο περίπλοκη 2. Υπάρχει τεράστιος όγκος πληροφοριακών πόρων στο Διαδίκτυο. Σύμφωνα με ορισμένες εκτιμήσεις, ο αριθμός των εγγράφων έχει ξεπεράσει τα 65 εκατομμύρια και συνεχίζει να αυξάνεται ραγδαία 3 . Ένας τέτοιος όγκος πληροφοριών απαιτεί σωστή οργάνωση της διαδικασίας αναζήτησης και χρήση ειδικών τεχνολογικών εργαλείων, όπως οι μηχανές αναζήτησης. Μια απλή αναζήτηση λέξεων-κλειδιών συνήθως αποδίδει από δεκάδες χιλιάδες έως αρκετά εκατομμύρια συνδέσμους. Εκτός από το πρόβλημα αναζήτησης, υπάρχει και το πρόβλημα της αξιοπιστίας των πληροφοριών στο Διαδίκτυο. Η ευκολία πρόσβασης και δημοσίευσης δεδομένων καθιστά δυνατή την εύκολη διάδοση εσφαλμένων και συχνά εσκεμμένα ψευδών πληροφοριών 4 . Αυτά τα δύο προβλήματα: η αναζήτηση και η αξιοπιστία καθορίζουν τις ιδιαιτερότητες του Διαδικτύου ως πηγής πληροφοριών. <h2>2. Ειδικότητα πληροφοριών στις εκπαιδευτικές δραστηριότητες ενός μαθητή</h2> Σύμφωνα με το wikipedia.org: Ο όρος πληροφορία προέρχεται από τη λατινική λέξη information, που σημαίνει «πληροφορία, εξήγηση, παρουσίαση» 5 . Επί του παρόντος, η επιστήμη προσπαθεί να βρει γενικές ιδιότητες και πρότυπα που ενυπάρχουν στην έννοια της «πληροφορίας», αλλά μέχρι στιγμής αυτή η έννοια παραμένει σε μεγάλο βαθμό διαισθητική και λαμβάνει διαφορετικό σημασιολογικό περιεχόμενο σε διάφορους κλάδους της ανθρώπινης δραστηριότητας. Στην καθημερινή ζωή, πληροφορίες είναι οποιαδήποτε δεδομένα ή πληροφορίες που ενδιαφέρουν κάποιον, για παράδειγμα, ένα μήνυμα για οποιαδήποτε γεγονότα, για τις δραστηριότητες κάποιου κ.λπ. «Πληροφορώ» με αυτή την έννοια σημαίνει «να επικοινωνώ κάτι που ήταν προηγουμένως άγνωστο». Οι πληροφορίες είναι πληροφορίες για αντικείμενα και φαινόμενα του περιβάλλοντος, τις παραμέτρους, τις ιδιότητες και την κατάστασή τους, που μειώνουν τον βαθμό αβεβαιότητας και την ελλιπή γνώση για αυτά 6 . Το ίδιο ενημερωτικό μήνυμα (άρθρο σε εφημερίδα, διαφήμιση, επιστολή, τηλεγράφημα, πιστοποιητικό, ιστορία, σχέδιο, ραδιοφωνική μετάδοση, κ.λπ.) μπορεί να περιέχει διαφορετικές ποσότητες πληροφοριών για διαφορετικά άτομα, ανάλογα με τη συσσωρευμένη γνώση και το επίπεδο κατανόησης αυτού του μηνύματος και ενδιαφέροντος για αυτό 7. Με βάση τα παραπάνω, μπορούμε να συμπεράνουμε ότι οι πληροφορίες στις εκπαιδευτικές δραστηριότητες ενός μαθητή πρέπει να έχουν μια σειρά από συγκεκριμένα χαρακτηριστικά. 1. Οι πληροφορίες πρέπει να αντιστοιχούν στο επίπεδο ετοιμότητας και στο επίπεδο γνώσεων του μαθητή. Το πολύ υψηλό επίπεδο δυσκολίας μειώνει τη μάθηση και τα κίνητρα των μαθητών. Πολύ χαμηλό επίπεδο - μειώνει το περιεχόμενο πληροφοριών και επηρεάζει αρνητικά την αποτελεσματικότητα της μαθησιακής διαδικασίας. 2. Οι πληροφορίες που χρησιμοποιεί ο μαθητής πρέπει να είναι επίκαιρες, δηλ. αντιστοιχούν στο σύγχρονο επίπεδο επιστημονικής γνώσης και ανάπτυξης της κοινωνίας. 3. Οι πληροφορίες που χρησιμοποιεί ο μαθητής πρέπει να είναι αξιόπιστες. 4. Οι πληροφορίες πρέπει να είναι προσβάσιμες όσον αφορά την καταλογογράφηση και την αναζήτησή τους. <h2>3. Χαρακτηριστικά της χρήσης του Διαδικτύου στην αναζήτηση πληροφοριών για τις εκπαιδευτικές δραστηριότητες ενός μαθητή</h2> Ο σύγχρονος μαθητής, οπλισμένος με έναν προσωπικό υπολογιστή, γνωρίζει καλά τι και πού υπάρχει στο Διαδίκτυο. Αποκτά με μεγάλη μαεστρία στο Διαδίκτυο όλα όσα χρειάζεται για να δημιουργήσει την επόμενη υποχρεωτική δημιουργία του: ένα δοκίμιο, ένα δοκίμιο, ένα πρόγραμμα μαθημάτων, ένα δίπλωμα κ.λπ. Και μετά από μια μικρή τροποποίηση, η οποία συχνά αποτελείται μόνο από την ένδειξη του επωνύμου και του αριθμού της ομάδας σας, την εκτύπωσή του σε έναν εκτυπωτή, υποβάλλετε την «εργασία σας» στον δάσκαλο 8 . Ταυτόχρονα, η τεμπελιά του αυξάνεται πολλές φορές και αυτή η προσέγγιση μειώνει την πιθανότητα επιτυχίας στη μελλοντική του καριέρα. Αξίζει να σημειωθεί ότι η πρακτική της εξαπάτησης, η οποία είναι ουσιαστικά λογοκλοπή, είναι πολύ πιο κοινή στη Ρωσία από ό,τι στη Δύση, γεγονός που μειώνει τις πιθανότητες απόκτησης θέσης κύρους σε ανταγωνισμό με αποφοίτους δυτικών πανεπιστημίων. Για να επιτύχετε στον ανταγωνισμό, θα πρέπει να μάθετε να επεξεργάζεστε τεράστιες ποσότητες πληροφοριών, να μπορείτε να κοιτάζετε μέσα από δείγματα γραπτής εργασίας, να παρατηρείτε τα δυνατά και τα αδύνατα σημεία τους και να προσπαθείτε να «ανατέμνετε» το κείμενο κάποιου άλλου προκειμένου να επισημάνετε το πιο σημαντικό μέρος του το. Με βάση τον σκελετό που προκύπτει, ο μαθητής θα πρέπει να μάθει να δημιουργεί το απαιτούμενο έργο. Ουσιαστικά, τέτοιες εργασίες πραγματοποιήθηκαν σε βιβλιοθήκες με βιβλία πριν εμφανιστεί η έκρηξη της πληροφορίας στο Διαδίκτυο 9. Σημαντική εδώ είναι και η δουλειά του δασκάλου, ο οποίος θα πρέπει να καθοδηγεί αρμοδίως τον μαθητή, χωρίς να απαγορεύει τη χρήση του Διαδικτύου, αλλά να επισημαίνει πιθανές παγίδες και να δίνει οδηγίες χρήσης. Για παράδειγμα, για να περιορίσει την αναζήτηση, ένας δάσκαλος μπορεί να προτείνει ορισμένες πηγές πληροφοριών, διασφαλίζοντας έτσι ότι το διδακτικό υλικό είναι προσαρμοσμένο στην προετοιμασία του μαθητή, επιπλέον, ο δάσκαλος θα βοηθήσει να φιλτράρει τις ψευδείς και εσφαλμένες πληροφορίες. Στη σύγχρονη κοινωνία της πληροφορίας, ο ρόλος του εκπαιδευτικού αυξάνεται ολοένα και περισσότερο. Για παράδειγμα, οι δάσκαλοι του «παλιού σχολείου» μπορούν να δίνουν τις ίδιες διαλέξεις για χρόνια, χωρίς να ενδιαφέρονται καθόλου για τα τελευταία επιτεύγματα σε αυτόν τον κλάδο ή τομέα δραστηριότητας. Επιπλέον, ένας μαθητής με οποιαδήποτε φορητή συσκευή συνδεδεμένη στο Διαδίκτυο μπορεί να μπερδέψει οποιονδήποτε δάσκαλο. Ο δάσκαλος δεν θεωρείται πλέον ως η μόνη πηγή γνώσης. Ανά πάσα στιγμή, ένας μαθητής με το Διαδίκτυο μπορεί να διορθώσει τον δάσκαλο, να τον επικρίνει ή να θέσει ένα άλυτο ερώτημα. Ο δάσκαλος πρέπει να είναι προετοιμασμένος για αυτό, αυτή είναι η πρόκληση της σύγχρονης κοινωνίας στο σύγχρονο εκπαιδευτικό σύστημα. Ο δάσκαλος δεν πρέπει να θυμώνει, να αποφεύγει να απαντήσει ή να φτιάχνει μια απάντηση εν κινήσει. Αν προηγουμένως η σχέση δασκάλου-μαθητή βασιζόταν στην αρχή του ανώτερου-κατώτερου, τώρα θα πρέπει να είναι πιο κοντά στην αρχή του Διαδικτύου: ομότιμος. Υπάρχει ένας άλλος κίνδυνος που ενέχει η κινητικότητα του Διαδικτύου, δηλαδή η έλλειψη ανάγκης να θυμόμαστε οτιδήποτε. Γιατί; Εάν μπορείτε πάντα να ρωτάτε το Yandex. Για να μην πέσει σε αυτή την παγίδα, ο μαθητής πρέπει να ολοκληρώσει όλα τα καθήκοντα του προδότη, να μην είναι τεμπέλης, να γράψει, να θυμηθεί, να διδάξει. Είναι το απόθεμα γνώσης στην ανθρώπινη μνήμη που διαμορφώνει τη γενική του πολυμάθεια και την ικανότητά του να επιλύει εφαρμοσμένα προβλήματα σε μια δεδομένη θεματική περιοχή. Το άκρο αυτού του φαινομένου κινητικότητας είναι ότι ένας μαθητής, που συναντά έναν άγνωστο όρο, λέει στον εαυτό του: «Μπορώ να αναζητήσω την έννοια αυτού του όρου στο Διαδίκτυο ανά πάσα στιγμή. Δεν έχω χρόνο τώρα, θα κοιτάξω αργότερα» - έτσι προκύπτουν τα κενά στην εκπαίδευση. Πριν από την εποχή του Διαδικτύου, ένας μαθητής θα σκεφτόταν διαφορετικά: «Μπορώ να αναζητήσω την έννοια αυτού του όρου σε ένα λεξικό (εγχειρίδιο, εγκυκλοπαίδεια, ...). Δεν έχω χρόνο αυτή τη στιγμή, αλλά θα πρέπει να ψάξω τη σημασία του όρου και να τον θυμάμαι γιατί δεν μπορώ να κουβαλάω λεξικό συνέχεια». Από τη σκοπιά της αυτοεκπαίδευσης, ο μαθητής, αλλά και ολόκληρη η κοινωνία, αντιμετωπίζει το πρόβλημα της κρίσης πληροφόρησης 10 . Η κρίση πληροφόρησης έγκειται στην αντιφατική ενότητα της «πληροφοριακής πείνας» και της «έκρηξης πληροφοριών», δηλαδή στην έλλειψη πληροφοριών σε συνθήκες υπερπαραγωγής της 11 . Ο όγκος των πληροφοριών για μια συγκεκριμένη περιοχή της ανθρώπινης δραστηριότητας υπερβαίνει τις δυνατότητες του ανθρώπινου εγκεφάλου 12 . Επομένως, αυξάνεται η ανάγκη συστηματοποίησης των πληροφοριών και φιλτραρίσματος του θορύβου πληροφοριών. Ο μαθητής θα πρέπει να χρησιμοποιεί επαληθευμένες πηγές που προτείνει ο δάσκαλος, που αναφέρονται στους καταλόγους αναφοράς των σχολικών βιβλίων. Ο ρυθμός αύξησης της πληροφορίας μπορεί να εκτιμηθεί. Ο βιβλιοθηκάριος R. Barton και ο φυσικός R. Kebler από τις ΗΠΑ εισήγαγαν την έννοια του «ημιζωής» των επιστημονικών άρθρων κατ' αναλογία με τον χρόνο ημιζωής των ραδιενεργών ουσιών. Ο χρόνος ημίσειας ζωής μιας δημοσίευσης είναι ο χρόνος κατά τον οποίο δημοσιεύτηκε το ήμισυ της βιβλιογραφίας που χρησιμοποιείται επί του παρόντος για οποιοδήποτε τομέα ή θέμα 13 . Για παράδειγμα, εάν ο χρόνος ημιζωής μιας δημοσίευσης στη φυσική είναι 4,6 χρόνια, αυτό σημαίνει ότι το 50% όλων των δημοσιεύσεων που χρησιμοποιούνται (αναφέρονται) επί του παρόντος σε αυτόν τον τομέα δεν είναι άνω των 4,6 ετών. Αν και ένας τέτοιος ορισμός παρέχει μια αριθμητική αξιολόγηση της γήρανσης των πληροφοριών, μια τέτοια αξιολόγηση πρέπει να αντιμετωπίζεται με προσοχή και, τελικά, κάθε ειδικός καθορίζει ο ίδιος το βάθος και τον βαθμό περιορισμού που χρειάζεται σε κάθε συγκεκριμένη περίπτωση 14. Για τον μαθητή, ο βαθμός συνάφειας των πληροφοριών θα καθοριστεί από τον επιβλέποντα. Ένα άλλο χαρακτηριστικό της πληροφορίας στο Διαδίκτυο είναι η διασπορά της σε ένα σύνολο πηγών – ο νόμος του Μπράντφορντ 15 . Με απλοποιημένο τρόπο, αυτό μπορεί να διατυπωθεί ως εξής: Το 1/3 των επιστημονικών άρθρων για ένα συγκεκριμένο θέμα θα δημοσιευθεί σε μικρό αριθμό πηγών που σχετίζονται άμεσα με αυτό το θέμα. Το επόμενο τρίτο θα δημοσιευθεί σε περισσότερες πηγές σχετικές με το θέμα. Και το τελευταίο τρίτο θα δημοσιευθεί σε πηγές που δεν έχουν καμία σχέση με το θέμα και η αναλογία του αριθμού των πηγών σε αυτές τις ζώνες σύμφωνα με τον Μπράντφορντ είναι ίση. Λαμβάνοντας υπόψη αυτό το μοτίβο, θα πρέπει να σημειωθεί ότι η επίτευξη πλήρους περιεχομένου πληροφοριών για ένα συγκεκριμένο θέμα είναι αδύνατη εάν ο ερευνητής περιορίζεται στο εύρος των πηγών για αυτό το θέμα, χωρίς να καταφύγει στη βοήθεια ειδικών πληροφοριών, υπηρεσιών και βιβλιογραφικών υπηρεσιών. Στις περισσότερες περιπτώσεις, το πρώτο τρίτο θα είναι αρκετό για τον φοιτητή, ωστόσο, για πιο εμπεριστατωμένη εργασία, όπως μαθήματα σε εξειδικευμένους κλάδους, μια διατριβή, ο φοιτητής πρέπει να αναζητήσει βοήθεια από αυτού του είδους τους ηλεκτρονικούς καταλόγους. Παρά το γεγονός ότι η ελευθερία πρόσβασης των χρηστών του Διαδικτύου σε πόρους πληροφοριών δεν περιορίζεται από τα κρατικά σύνορα, τα γλωσσικά όρια παραμένουν. Η κυρίαρχη γλώσσα του Διαδικτύου είναι τα αγγλικά. Η δεύτερη πιο δημοφιλής γλώσσα είναι τα κινέζικα και η τρίτη είναι τα ισπανικά. Η ρωσική γλώσσα κατατάσσεται στην 9η 16η θέση. Από αυτή την άποψη, ένας μαθητής που μιλά ξένες γλώσσες, κυρίως αγγλικά, έχει πρόσβαση σε πολύ περισσότερες πληροφορίες. Αν μιλάμε για τη διαίρεση των πληροφοριών στο Διαδίκτυο, αξίζει να σημειωθεί ότι οι πληροφορίες για διάφορους τομείς της ανθρώπινης δραστηριότητας δεν παρουσιάζονται ομοιόμορφα ως προς τον όγκο. Το Διαδίκτυο περιέχει περισσότερες τεχνικές πληροφορίες που σχετίζονται με τον προγραμματισμό, την τεχνολογία πληροφοριών, το σχεδιασμό ηλεκτρονικών υπολογιστών και λιγότερες πληροφορίες που σχετίζονται με τις ανθρωπιστικές επιστήμες. Αυτό μπορεί να εξηγηθεί από το γεγονός ότι οι τεχνικοί ειδικοί συνδέονται με τον ένα ή τον άλλο τρόπο με την τεχνολογία της πληροφορίας και το Διαδίκτυο λόγω της φύσης των δραστηριοτήτων τους, και ως εκ τούτου ο αριθμός των υλικών που δημοσιεύουν είναι μεγαλύτερος. <h2>Σύναψη</h2> Συνοψίζοντας τις θεωρούμενες πτυχές του Διαδικτύου ως πηγή πληροφοριών στις εκπαιδευτικές δραστηριότητες ενός μαθητή, μπορούμε να επισημάνουμε τα κύρια βασικά χαρακτηριστικά και συστάσεις. <ol>Ο μαθητής πρέπει να μπορεί να χρησιμοποιεί το Διαδίκτυο και ταυτόχρονα να βελτιώνει συνεχώς τις δεξιότητές του στη χρήση του Διαδικτύου.Ο μαθητής πρέπει να βασίζεται σε πληροφορίες στο Διαδίκτυο για να ελέγξει την αξιοπιστία και τη συνάφειά τους.Για την αναζήτηση πληροφοριών για ένα δεδομένο θέμα, συνιστάται η χρήση εξειδικευμένων ηλεκτρονικών βιβλιογραφικών καταλόγων.Για να αυξηθεί η αποτελεσματικότητα της χρήσης του Διαδικτύου, ένας μαθητής θα πρέπει να βελτιώσει τα Αγγλικά, ως την πιο κοινή γλώσσα στο Διαδίκτυο.Αντιμετωπίζοντας τις προκλήσεις της κοινωνίας της πληροφορίας, ο μαθητής πρέπει να είναι σε θέση να επεξεργάζεται μεγάλους όγκους δεδομένων, εξάγοντας βασικές πληροφορίες από αυτά και φιλτράροντας περιττά και περιττά δεδομένα.Το Διαδίκτυο όχι μόνο παρέχει τεράστιες ευκαιρίες για απόκτηση πληροφοριών, αλλά θέτει επίσης έναν κίνδυνο με τη μορφή ενός cheat sheet, το οποίο συχνά ζημιώνει τη διαδικασία μάθησης. </ol>Σημειώνεται ότι σύμφωνα με τα σημεία 2 και 3 ο μαθητής πρέπει να εργάζεται σε άμεση επαφή με τον επιβλέποντα καθηγητή του. <h2>Κατάλογος πηγών και βιβλιογραφίας</h2> Λογοτεχνία <ol>Blumenau, V.I. / D.I Blumenau.– Λ.: Nauka, 1989.– 192 σελ.Efimov, A. N. Έκρηξη πληροφοριών: πραγματικά και φανταστικά προβλήματα / A. N. Efimov. – Μ.: Nauka, 1985. – 160 σελ.Αναζήτηση πληροφοριών στο Διαδίκτυο: σχολικό βιβλίο. εγχειρίδιο / V. I. Averchenkov, V. V. Miroshnikov, S. M. Roshchin, κ.λπ.; Μπράιαν.κατάσταση τεχν. University - Bryansk, 2001. - 28 p.Kuzin, F. A. Διατριβή υποψηφίου: μέθοδοι γραφής, κανόνες εκτέλεσης και διαδικασία υπεράσπισης: πρακτική εργασία.Εγχειρίδιο για μεταπτυχιακούς φοιτητές και υποψήφιους ακαδημαϊκούς. Πτυχία / F. A. Kuzin. – . – Μ.: Os-89, 1999. – 208 σελ.Kuznetsov I. N. Διαδίκτυο στην εκπαιδευτική και επιστημονική εργασία: Ένας πρακτικός οδηγός.– 2η έκδ. - M.: Εκδοτική και εμπορική εταιρεία "Dashkov and Co", 2005. - 192 σελ.Kuznetsov I. N. Εγχειρίδιο πληροφοριών και αναλυτικής εργασίας. </ol>M.: Yauza, 2001. – 320 p. <ol>Mikhailov, O. A. Νέα στην αναζήτηση στο Διαδίκτυο με βάση τις πηγές του έτους 2000 / O. A. Mikhailov; Ρος. κατάσταση αψίδα. επιστημονικό-τεχνικό απόδειξη με έγγραφα. – Μ.: Max Press, 2001. – 171 σελ.Parshukova G. B. Μέθοδοι αναζήτησης επαγγελματικών πληροφοριών: εκπαιδευτική μέθοδος. </ol>Εγχειρίδιο / G. B. Parshukova – St. Petersburg: Profession, 2009. – 224 p. Solomenchuk V. G. Διαδίκτυο: Μια σύντομη πορεία. Αγία Πετρούπολη: Peter, 2001 – 322 p.απόδειξη με έγγραφα. – Μ.: Max Press, 2001. – 171 σελ. Πόροι του ΔιαδικτύουURL:Πρέπει όμως να σημειωθεί ότι η προσβασιμότητα και η ευκολία δημοσίευσης πληροφοριών, καθώς και η σχεδόν πλήρης ανεξαρτησία των διακομιστών μεταξύ τους στο Διαδίκτυο, μετέτρεψαν ένα παγκόσμιο επίτευγμα σε χάος. Γι' αυτό, χρόνο με το χρόνο, το πρόβλημα της εύρεσης των απαραίτητων πληροφοριών στο Διαδίκτυο γίνεται όλο και πιο επείγον. Αυτό είναι ιδιαίτερα σημαντικό σε συνθήκες περιορισμένου χρόνου και στην περίπτωση που η λήψη αποφάσεων πρέπει να βασίζεται σε συγκεκριμένο έγγραφο.Ο ευκολότερος τρόπος για να βρείτε κάτι είναι να εισάγετε λέξεις-κλειδιά απευθείας στη γραμμή διευθύνσεων του προγράμματος περιήγησής σας. Η αναζήτηση πραγματοποιείται στο σύστημα αναζήτησης Microsoft WSN.Εικ. 18 Σύστημα αναζήτησης WSNΜια άλλη μέθοδος αναζήτησης παρέχεται από το κουμπί Αναζήτηση στον πίνακα του προγράμματος περιήγησης. Όταν χρησιμοποιείτε αυτό το κουμπί, το παράθυρο χωρίζεται σε δύο μέρη. Στα αριστερά υπάρχει μια γραμμή για την εισαγωγή λέξεων-κλειδιών, μια λίστα με τις σελίδες που βρέθηκαν και στα δεξιά μπορείτε να δείτε επιλεγμένες σελίδες. Μπορείτε να χρησιμοποιήσετε άλλη μηχανή αναζήτησης χρησιμοποιώντας το κουμπί Αρμονίαστον πίνακα Ερευνα.Μηχανές αναζήτησης στο Διαδίκτυο:Οι μηχανές αναζήτησης μπορούν να χωριστούν στις ακόλουθες ομάδες:<ul>αναζήτηση καταλόγωνμηχανές αναζήτησης ή ευρετήρια αναζήτησης </ul><h2>Αναζήτηση καταλόγων.</h2>Οι κατάλογοι πόρων - παγκόσμιοι, τοπικοί, εξειδικευμένοι - είναι βάσεις δεδομένων με διευθύνσεις πόρων που βρίσκονται στο Διαδίκτυο. Αυτές οι βάσεις δεδομένων μπορεί να έχουν διαφορετικές ποσότητες συσσωρευμένων πληροφοριών. Συνήθως έχουν ιεραρχική δομή.Οι κατάλογοι αναζήτησης οργανώνονται με την ίδια αρχή με τους θεματικούς καταλόγους μεγάλων βιβλιοθηκών. Γυρίζοντας στη διεύθυνση του καταλόγου αναζήτησης, βρίσκουμε στην κύρια σελίδα του μια λίστα με θεματικές κατηγορίες, για παράδειγμα, "Νομολογία", "Εκπαίδευση", "Αθλητισμός" κ.λπ.Κάθε καταχώρηση στη λίστα κατηγοριών είναι ένας υπερσύνδεσμος. Κάνοντας κλικ πάνω του ανοίγει η επόμενη σελίδα του καταλόγου αναζήτησης, όπου παρουσιάζεται αναλυτικότερα το επιλεγμένο θέμα. Συνεχίζοντας να βουτήξετε στο θέμα, μπορείτε να φτάσετε σε μια λίστα με συγκεκριμένες ιστοσελίδες και να επιλέξετε τον πόρο που είναι πιο κατάλληλος για την επίλυση του προβλήματός σας. Μπορείτε επίσης να χρησιμοποιήσετε το κουμπί Αναζήτηση στον κατάλογο αναζήτησης για να κάνετε πιο συγκεκριμένη την αναζήτησή σας για τις σελίδες που χρειάζεστε.Οι κατάλογοι αναζήτησης δημιουργούνται κυρίως με το χέρι από άρτια εκπαιδευμένους συντάκτες που σαρώνουν το WWW, επιλέγουν αυτό που πιστεύουν ότι είναι δημόσιου ενδιαφέροντος και εισάγουν διευθύνσεις στον κατάλογο.Yahoo(www.yahoo.com) –αναγνωρίζεται ως ο πιο δημοφιλής κατάλογος σε όλο τον κόσμο. Δυνατότητα αναζήτησης στα ρωσικά.Ρωσικοί κατάλογοι:« Λίστα. Ru» (www. λίστα. ru),"Αστερισμός Διαδίκτυο" (www. αστέρια. ru),"Η Ρωσία στο Διαδίκτυο" (www.ru) και άλλα. <script>document.write("<img style='display:none;' src='//counter.yadro.ru/hit;artfast_after?t44.1;r"+ escape(document.referrer)+((typeof(screen)=="undefined")?"": ";s"+screen.width+"*"+screen.height+"*"+(screen.colorDepth? screen.colorDepth:screen.pixelDepth))+";u"+escape(document.URL)+";h"+escape(document.title.substring(0,150))+ ";"+Math.random()+ "border='0' width='1' height='1' loading=lazy loading=lazy>");</script> </div> </div> </div> </div> <div class="right -is-sticky"> <div class="articles-conseilles"> <div id="tamanu2" style="height:500px;width:266px;" align="center"></div> </div> </div> </div> <div class="a-decouvrir"> <h3>Συνιστούμε να διαβάσετε</h3> <div class="featured"> <div class="view view-articles view-id-articles view-display-id-block_4 view-dom-id-169dc93f512a102548b755435ccd1346"> <div class="view-content"> <div class="row"> <article class="preview-article"> <header class="preview-article__header"> <a href="https://qpprosto.ru/el/skachat-programmu-ekvalaizer-dlya-vindovs-7-ispolzovanie.html"> <figure class=""> <img src="https://i1.wp.com/chopen.net/wp-content/uploads/2015/02/equalizer_2.jpg" alt="Χρησιμοποιώντας το Windows Equalizer" loading=lazy loading=lazy> </figure> </a> </header> <div class="preview-article__content"> <div class="views-field views-field-title"> <a href="https://qpprosto.ru/el/skachat-programmu-ekvalaizer-dlya-vindovs-7-ispolzovanie.html">Χρησιμοποιώντας το Windows Equalizer</a> </div> <div class="views-field views-field-body"> <div class="field-content"> Σήμερα θα δούμε: Οι αληθινοί γνώστες της μουσικής γνωρίζουν ότι για την ποιότητα... </div> </div> <div class="views-field views-field-field-article-categorie"> <div class="field-content"> </div> </div> </div> </article> <article class="preview-article"> <header class="preview-article__header"> <a href="https://qpprosto.ru/el/programma-dlya-tablic-excel-skachat-primery-excel-s-formulami-i.html"> <figure class=""> <img src="https://i1.wp.com/atmosoft.ru/full/Excel%202016.png" alt="Ποιο πρόγραμμα περιήγησης να επιλέξετε για έναν αδύναμο υπολογιστή" loading=lazy loading=lazy> </figure> </a> </header> <div class="preview-article__content"> <div class="views-field views-field-title"> <a href="https://qpprosto.ru/el/programma-dlya-tablic-excel-skachat-primery-excel-s-formulami-i.html">Ποιο πρόγραμμα περιήγησης να επιλέξετε για έναν αδύναμο υπολογιστή</a> </div> <div class="views-field views-field-body"> <div class="field-content"> Αρχεία *.xlsx με παραδείγματα υπολογισμών τύπων και συναρτήσεων. Και επίσης δωρεάν... </div> </div> <div class="views-field views-field-field-article-categorie"> <div class="field-content"> </div> </div> </div> </article> <article class="preview-article"> <header class="preview-article__header"> <a href="https://qpprosto.ru/el/moshchnyi-ekvalaizer-dlya-windows-7-ispolzovanie-ekvalaizera.html"> <figure class=""> <img src="https://i0.wp.com/composs.ru/wp-content/uploads/2017/11/ekvalajzer_na_kompyuter2.jpg" alt="Χρησιμοποιώντας το Windows Equalizer" loading=lazy loading=lazy> </figure> </a> </header> <div class="preview-article__content"> <div class="views-field views-field-title"> <a href="https://qpprosto.ru/el/moshchnyi-ekvalaizer-dlya-windows-7-ispolzovanie-ekvalaizera.html">Χρησιμοποιώντας το Windows Equalizer</a> </div> <div class="views-field views-field-body"> <div class="field-content"> Τα λειτουργικά συστήματα Windows που ξεκινούν με Vista χρησιμοποιούν ενσωματωμένο... </div> </div> <div class="views-field views-field-field-article-categorie"> <div class="field-content"> </div> </div> </div> </article> </div> </div> </div> </div> </div> </div> <a href="#skip-link" class="visually-hidden visually-hidden--focusable" id="main-menu" tabindex="-1">Κορυφή</a> </div> </section> <div class="region region-bottom"> <div class="block block-block first last odd" id="block-block-7"> <ul> <li><a href="https://qpprosto.ru/el/category/baby-products/">Παιδικά προϊόντα</a></li> <li><a href="https://qpprosto.ru/el/category/auto/">Αυτο</a></li> <li><a href="https://qpprosto.ru/el/category/electronics/">Ηλεκτρονική</a></li> <li><a href="https://qpprosto.ru/el/category/tool/">Εργαλείο</a></li> <li><a href="https://qpprosto.ru/el/category/appliances/">Πρόγραμμα Kerish Doctor.</a></li> <li><a href="https://qpprosto.ru/el/category/baby-products/">Παιδικά προϊόντα</a></li> </ul> <a href="https://qpprosto.ru/el/" id="choosit"><img alt="" height="13" src="/sites/all/themes/lanutrition/img/logo-choosit.svg" width="50" / loading=lazy loading=lazy></a> </div> </div> <div class="search-modal" id="search-modal"><button class="close-button" id="close-search" aria-label="Close reveal" type="button">×</button> <div class="search-modal__content"> <div class="block block-search first odd" role="search" id="block-search-form"> <form class="search-form" role="search" action="/" method="get" id="search-block-form" accept-charset="UTF-8"> <div> <div class="container-inline"> <h2 class="element-invisible">Αναζήτηση στον ιστότοπο</h2> <div class="form-item form-type-textfield form-item-search-block-form"> <input title="" class="custom-search-box form-text" placeholder="εισάγετε μια λέξη" type="text" id="edit-search-block-form--2" name="s" value="" size="15" maxlength="128" /> </div> <div class="form-actions form-wrapper" id="edit-actions"><input type="submit" id="edit-submit" name="op" value="Rechercher" class="form-submit" /></div> </div> </div> </form> </div> </div> </div> </body> </html>