Πόσοι χαρακτήρες υπάρχουν στον πίνακα κωδικών ascii. Κωδικοποίηση ASCII (Αμερικανικός τυπικός κώδικας για ανταλλαγή πληροφοριών) - βασική κωδικοποίηση κειμένου για το λατινικό αλφάβητο

Ηλεκτρονική 22.06.2019

Επισκόπηση προγράμματος Η έκδοση υπολογιστή του Microsoft Excel Viewer θα επιτρέψει...

Chercher

Για να χρησιμοποιήσετε σωστά το ASCII, είναι απαραίτητο να διευρύνετε τις γνώσεις σας σε αυτόν τον τομέα και σχετικά με τις δυνατότητες κωδικοποίησης.

Τι είναι αυτό;

Το ASCII είναι ένας πίνακας κωδικοποίησης με εκτυπώσιμους χαρακτήρες (βλ. στιγμιότυπο οθόνης No. 1) πληκτρολογημένος πληκτρολόγιο υπολογιστή, για μετάδοση πληροφοριών και ορισμένων κωδικών. Με άλλα λόγια, το αλφάβητο είναι κωδικοποιημένο και δεκαδικά ψηφίασε κατάλληλα σύμβολα που αντιπροσωπεύουν και φέρουν τις απαραίτητες πληροφορίες.

Το ASCII αναπτύχθηκε στην Αμερική, επομένως το τυπικό σύνολο χαρακτήρων περιλαμβάνει συνήθως το αγγλικό αλφάβητο με αριθμούς, για συνολικά περίπου 128 χαρακτήρες. Αλλά τότε τίθεται ένα δίκαιο ερώτημα: τι να κάνουμε εάν απαιτείται κωδικοποίηση του εθνικού αλφαβήτου;

Άλλες εκδόσεις του πίνακα ASCII έχουν αναπτυχθεί για την αντιμετώπιση παρόμοιων ζητημάτων. Για παράδειγμα, για γλώσσες με δομή ξένης γλώσσας, τα γράμματα του αγγλικού αλφαβήτου είτε αφαιρέθηκαν είτε προστέθηκαν πρόσθετους χαρακτήρεςμε τη μορφή εθνικού αλφαβήτου. Έτσι, η κωδικοποίηση ASCII μπορεί να περιέχει ρωσικά γράμματα για εθνική χρήση (βλ. στιγμιότυπο οθόνης Νο. 2).

Πού χρησιμοποιείται το σύστημα κωδικοποίησης ASCII;

Αυτό το σύστημα κωδικοποίησης είναι απαραίτητο όχι μόνο για την κλήση πληροφορίες κειμένουστο πληκτρολόγιο. Χρησιμοποιείται επίσης στα γραφικά. Για παράδειγμα, στο πρόγραμμα ASCII Art Maker γραφικές εικόνες διάφορες επεκτάσειςαποτελείται από μια σειρά χαρακτήρων ASCII (δείτε στιγμιότυπο οθόνης No. 3).

Κατά κανόνα, παρόμοια προγράμματαμπορεί να χωριστεί σε αυτά που εκτελούν τη λειτουργία συντάκτες γραφικών, αντιστρέφοντας μια εικόνα σε κείμενο και αυτές που μετατρέπουν μια εικόνα σε γραφικά ASCII. Το γνωστό emoticon (ή όπως λέγεται επίσης " χαμογελαστά ανθρώπινο πρόσωπο ") είναι επίσης ένα παράδειγμα ενός χαρακτήρα κωδικοποίησης.

Αυτή η μέθοδος κωδικοποίησης μπορεί επίσης να χρησιμοποιηθεί κατά τη διάρκεια της γραφής ή της δημιουργίας έγγραφο HTML. Για παράδειγμα, εισάγετε ένα συγκεκριμένο και απαραίτητο σύνολο χαρακτήρων και κατά την προβολή της ίδιας της σελίδας, το σύμβολο που αντιστοιχεί σε αυτόν τον κωδικό θα εμφανιστεί στην οθόνη.

Μεταξύ άλλων αυτού του τύπουΗ κωδικοποίηση είναι απαραίτητη κατά τη δημιουργία ενός πολύγλωσσου ιστότοπου, επειδή οι χαρακτήρες που δεν περιλαμβάνονται σε έναν συγκεκριμένο εθνικό πίνακα θα πρέπει να αντικατασταθούν με κωδικούς ASCII. Εάν ο αναγνώστης συνδέεται άμεσα με τις τεχνολογίες πληροφοριών και επικοινωνιών (ΤΠΕ), τότε θα είναι χρήσιμο για αυτόν να εξοικειωθεί με συστήματα όπως:

Φορητό σύνολο χαρακτήρων.
χαρακτήρες ελέγχου.
EBCDIC;
VISCII;
YUSCII;
Unicode;
τέχνη ASCII;
KOI-8.

Ιδιότητες πίνακα ASCII

Όπως κάθε συστηματικό πρόγραμμα, το ASCII έχει τις δικές του χαρακτηριστικές ιδιότητες. Έτσι, για παράδειγμα, το δεκαδικό σύστημα αριθμών (ψηφία από το 0 έως το 9) μετατρέπεται στο δυαδικό σύστημα αριθμών (δηλαδή, κάθε δεκαδικό ψηφίο μετατρέπεται σε δυαδικό 288 = 1001000, αντίστοιχα).

Τα γράμματα που βρίσκονται στην επάνω και στην κάτω στήλη διαφέρουν μεταξύ τους μόνο κατά ένα κομμάτι, γεγονός που μειώνει σημαντικά το επίπεδο πολυπλοκότητας του ελέγχου και της επεξεργασίας της υπόθεσης.

Με όλες αυτές τις ιδιότητες, η κωδικοποίηση ASCII λειτουργεί ως οκτώ bit, αν και αρχικά προοριζόταν να είναι επτά bit.

Εφαρμογή του ASCII σε προγράμματα της MicrosoftΓραφείο:

Αν χρειαστεί αυτή την επιλογήΗ κωδικοποίηση πληροφοριών μπορεί να χρησιμοποιηθεί στο Microsoft Notepad και Microsoft OfficeΛέξη. Σε αυτές τις εφαρμογές, το έγγραφο μπορεί να αποθηκευτεί σε μορφή ASCII, αλλά σε αυτήν την περίπτωση, δεν θα μπορείτε να χρησιμοποιήσετε ορισμένες λειτουργίες κατά την πληκτρολόγηση κειμένου.

Ειδικότερα, τολμηρή και τολμηρός, επειδή η κωδικοποίηση διατηρεί μόνο το νόημα των πληκτρολογημένων πληροφοριών και όχι γενική άποψηκαι σχήμα. Μπορείτε να προσθέσετε τέτοιους κωδικούς σε ένα έγγραφο χρησιμοποιώντας τις ακόλουθες εφαρμογές λογισμικού.

Ένας υπολογιστής κατανοεί τη διαδικασία μετατροπής του σε μορφή που επιτρέπει την πιο βολική μετάδοση, αποθήκευση ή αυτόματη επεξεργασία αυτών των δεδομένων. Για το σκοπό αυτό χρησιμοποιούνται διάφοροι πίνακες. Το ASCII ήταν το πρώτο σύστημα που αναπτύχθηκε στις Ηνωμένες Πολιτείες για εργασία με αγγλόφωνο κείμενο, το οποίο στη συνέχεια έγινε ευρέως διαδεδομένο σε όλο τον κόσμο. Το παρακάτω άρθρο είναι αφιερωμένο στην περιγραφή, τα χαρακτηριστικά, τις ιδιότητες και την περαιτέρω χρήση του.

Εμφάνιση και αποθήκευση πληροφοριών σε υπολογιστή

Σύμβολα σε οθόνη υπολογιστή ή κινητό τηλέφωνο ψηφιακό gadgetδιαμορφώνονται με βάση σύνολα διανυσματικών μορφών διαφόρων χαρακτήρων και έναν κώδικα που σας επιτρέπει να βρείτε μεταξύ τους τον χαρακτήρα που πρέπει να εισαχθεί σε σωστό μέρος. Αντιπροσωπεύει μια ακολουθία bits. Έτσι, κάθε χαρακτήρας πρέπει να αντιστοιχεί μοναδικά σε ένα σύνολο μηδενικών και μονάδων, τα οποία εμφανίζονται με μια συγκεκριμένη, μοναδική σειρά.

Πώς ξεκίνησαν όλα

Ιστορικά, οι πρώτοι υπολογιστές ήταν αγγλόφωνοι. Για την κωδικοποίηση συμβολικών πληροφοριών σε αυτά, αρκούσε να χρησιμοποιηθούν μόνο 7 bit μνήμης, ενώ για το σκοπό αυτό διατέθηκε 1 byte αποτελούμενο από 8 bit. Ο αριθμός των χαρακτήρων που κατανοούσε ο υπολογιστής σε αυτή την περίπτωση ήταν 128. Αυτοί οι χαρακτήρες περιελάμβαναν το αγγλικό αλφάβητο με τα σημεία στίξης, τους αριθμούς και ορισμένους ειδικούς χαρακτήρες. Η αγγλόφωνη κωδικοποίηση επτά bit με τον αντίστοιχο πίνακα (σελίδα κώδικα), που αναπτύχθηκε το 1963, ονομάστηκε Αμερικανικός Τυπικός Κώδικας για Ανταλλαγή Πληροφοριών. Συνήθως, η συντομογραφία "ASCII encoding" χρησιμοποιήθηκε και εξακολουθεί να χρησιμοποιείται για να την υποδηλώσει.

Μετάβαση στην πολυγλωσσία

Με τον καιρό, οι υπολογιστές χρησιμοποιούνται ευρέως σε μη αγγλόφωνες χώρες. Από αυτή την άποψη, υπήρχε ανάγκη για κωδικοποιήσεις που να επιτρέπουν τη χρήση εθνικών γλωσσών. Αποφασίστηκε να μην επανεφεύρουμε τον τροχό και να πάρουμε Βάση ASCII. Ο πίνακας κωδικοποίησης στη νέα έκδοση έχει επεκταθεί σημαντικά. Η χρήση του 8ου bit κατέστησε δυνατή τη μετάφραση σε γλώσσα υπολογιστήήδη 256 χαρακτήρες.

Περιγραφή

Η κωδικοποίηση ASCII έχει έναν πίνακα που χωρίζεται σε 2 μέρη. Γενικά αποδεκτό διεθνές πρότυποΕίναι σύνηθες να εξετάζουμε μόνο το πρώτο μισό του. Περιλαμβάνει:

Χαρακτήρες με σειριακούς αριθμούς από το 0 έως το 31, κωδικοποιημένοι σε ακολουθίες από 00000000 έως 00011111. Προορίζονται για χαρακτήρες ελέγχου που ελέγχουν τη διαδικασία εμφάνισης κειμένου στην οθόνη ή τον εκτυπωτή, την τροφοδοσία ηχητικό σήμακαι τα λοιπά.
Χαρακτήρες με NN στον πίνακα από 32 έως 127, κωδικοποιημένοι από ακολουθίες από 00100000 έως 01111111 αποτελούν το τυπικό μέρος του πίνακα. Αυτά περιλαμβάνουν κενό διάστημα (N 32), γράμματα του λατινικού αλφαβήτου (πεζά και κεφαλαία), δεκαψήφιους αριθμούς από το 0 έως το 9, σημεία στίξης, αγκύλες διαφορετικών στυλ και άλλα σύμβολα.
Χαρακτήρες με σειριακούς αριθμούς από 128 έως 255, κωδικοποιημένοι από ακολουθίες από 10000000 έως 11111111. Αυτοί περιλαμβάνουν γράμματα εθνικά αλφάβητα, διαφορετικό από τα λατινικά. Είναι αυτό το εναλλακτικό τμήμα του πίνακα ASCII που χρησιμοποιείται για τη μετατροπή σε φόρμα υπολογιστήΡωσικά σύμβολα.

Μερικές ιδιότητες

Τα χαρακτηριστικά της κωδικοποίησης ASCII περιλαμβάνουν τη διαφορά μεταξύ των γραμμάτων "A" - "Z" χαμηλότερα και κεφαλαίομόνο ένα κομμάτι. Αυτή η περίσταση απλοποιεί σημαντικά τη μετατροπή του μητρώου, καθώς και τον έλεγχο του αν ανήκει σε ένα δεδομένο εύρος τιμών. Επιπλέον, όλα τα γράμματα στο σύστημα κωδικοποίησης ASCII αντιπροσωπεύονται από τους δικούς τους αριθμούς ακολουθίας στο αλφάβητο, οι οποίοι είναι γραμμένοι με 5 ψηφία στο δυαδικό σύστημαΟι αριθμοί που προηγούνται από το 011 2 για τα πεζά γράμματα και το 010 2 για τα κεφαλαία γράμματα.

Μεταξύ των χαρακτηριστικών της κωδικοποίησης ASCII είναι η αναπαράσταση 10 ψηφίων - "0" - "9". Στο δεύτερο αριθμητικό σύστημα ξεκινούν με 00112 και τελειώνουν με 2 αριθμητικές τιμές. Άρα, το 0101 2 είναι ισοδύναμο δεκαδικός αριθμόςπέντε, οπότε το σύμβολο "5" γράφεται ως 0011 01012. Με βάση αυτά που ειπώθηκαν, μπορείτε εύκολα να μετατρέψετε δυαδικούς δεκαδικούς αριθμούςσε μια συμβολοσειρά ASCII προσθέτοντας την ακολουθία bit 00112 σε κάθε τσιμπίδα στα αριστερά.

"Unicode"

Όπως γνωρίζετε, απαιτούνται χιλιάδες χαρακτήρες για την εμφάνιση κειμένων στις γλώσσες της ομάδας της Νοτιοανατολικής Ασίας. Ένας τέτοιος αριθμός από αυτούς δεν μπορεί να περιγραφεί με κανέναν τρόπο σε ένα byte πληροφοριών, επομένως ακόμη και οι εκτεταμένες εκδόσεις του ASCII δεν θα μπορούσαν πλέον να ικανοποιήσουν τις αυξημένες ανάγκες χρηστών από διαφορετικές χώρες.

Έτσι, προέκυψε η ανάγκη δημιουργίας μιας καθολικής κωδικοποίησης κειμένου, την ανάπτυξη της οποίας, σε συνεργασία με πολλούς ηγέτες της παγκόσμιας βιομηχανίας πληροφορικής, ανέλαβε η κοινοπραξία Unicode. Οι ειδικοί του δημιούργησαν το σύστημα UTF 32 Σε αυτό, κατανεμήθηκαν 32 bit για να κωδικοποιήσουν 1 χαρακτήρα, αποτελώντας 4 byte πληροφοριών. Το κύριο μειονέκτημα ήταν η απότομη αύξηση του όγκου απαιτούμενη μνήμηέως και 4 φορές, πράγμα που συνεπαγόταν πολλά προβλήματα.

Ταυτόχρονα, για τις περισσότερες χώρες με επίσημες γλώσσες, που ανήκει στην ινδοευρωπαϊκή ομάδα, ο αριθμός των χαρακτήρων ίσος με 2 32 είναι κάτι παραπάνω από υπερβολικός.

Ως αποτέλεσμα περαιτέρω εργασίαΕιδικοί από την κοινοπραξία Unicode εισήγαγαν την κωδικοποίηση UTF-16. Έγινε η επιλογή για τη μετατροπή συμβολικών πληροφοριών που ταίριαζαν σε όλους τόσο ως προς την ποσότητα της απαιτούμενης μνήμης όσο και ως προς τον αριθμό των κωδικοποιημένων χαρακτήρων. Αυτός είναι ο λόγος για τον οποίο το UTF-16 υιοθετήθηκε από προεπιλογή και απαιτεί δέσμευση 2 byte για έναν χαρακτήρα.

Ακόμη και αυτή η αρκετά προηγμένη και επιτυχημένη έκδοση του Unicode είχε κάποια μειονεκτήματα και μετά τη μετάβαση από την εκτεταμένη έκδοση του ASCII στο UTF-16, το βάρος του εγγράφου διπλασιάστηκε.

Από αυτή την άποψη, αποφασίστηκε να χρησιμοποιηθεί η κωδικοποίηση μεταβλητό μήκος UTF-8. Σε αυτή την περίπτωση, κάθε χαρακτήρας κείμενο πηγήςκωδικοποιημένη ως ακολουθία μήκους από 1 έως 6 byte.

Επικοινωνήστε με τον αμερικανικό τυπικό κωδικό για ανταλλαγή πληροφοριών

Όλοι οι λατινικοί χαρακτήρες στο μεταβλητό μήκος UTF-8 κωδικοποιούνται σε 1 byte, όπως στο σύστημα κωδικοποίησης ASCII.

Ένα ιδιαίτερο χαρακτηριστικό του YTF-8 είναι ότι στην περίπτωση κειμένου στα Λατινικά χωρίς τη χρήση άλλων χαρακτήρων, ακόμη και τα προγράμματα που δεν κατανοούν το Unicode θα εξακολουθούν να μπορούν να το διαβάσουν. Με άλλα λόγια, το βασικό μέρος της κωδικοποίησης Κείμενο ASCIIγίνεται απλώς μέρος ενός νέου UTF μεταβλητού μήκους. Οι κυριλλικοί χαρακτήρες στο YTF-8 καταλαμβάνουν 2 byte και, για παράδειγμα, οι γεωργιανοί χαρακτήρες - 3 byte. Με τη δημιουργία των UTF-16 και 8, λύθηκε το κύριο πρόβλημα της δημιουργίας ενός ενιαίου χώρου κώδικα σε γραμματοσειρές. Από τότε, οι κατασκευαστές γραμματοσειρών μπορούν να γεμίσουν τον πίνακα μόνο με διανυσματικές μορφές χαρακτήρων κειμένου με βάση τις ανάγκες τους.

Σε διάφορα λειτουργικά συστήματαδίνεται προτίμηση διαφορετικές κωδικοποιήσεις. Για να μπορείτε να διαβάζετε και να επεξεργάζεστε κείμενα που έχουν πληκτρολογηθεί με διαφορετική κωδικοποίηση, χρησιμοποιούνται ρωσικά προγράμματα μετατροπής κειμένου. Μερικοί συντάκτες κειμένουπεριέχουν ενσωματωμένους transcoders και σας επιτρέπουν να διαβάζετε κείμενο ανεξάρτητα από την κωδικοποίηση.

Τώρα γνωρίζετε πόσοι χαρακτήρες υπάρχουν στην κωδικοποίηση ASCII και πώς και γιατί αναπτύχθηκε. Φυσικά, σήμερα το πρότυπο Unicode είναι πιο διαδεδομένο στον κόσμο. Ωστόσο, δεν πρέπει να ξεχνάμε ότι βασίζεται στο ASCII, επομένως πρέπει να εκτιμηθεί η συμβολή των προγραμματιστών του στον τομέα της πληροφορικής.

Επικάλυψη χαρακτήρων

Ο χαρακτήρας BS (backspace) επιτρέπει στον εκτυπωτή να εκτυπώνει έναν χαρακτήρα πάνω στον άλλο. Το ASCII προέβλεπε την προσθήκη διακριτικών στα γράμματα με αυτόν τον τρόπο, για παράδειγμα:

α ΒΣ "→ ά
a BS ` → à
ένα BS ^ → â
o BS / → ø
c BS , → ç
n BS ~ → с

Σημείωμα: σε παλιές γραμματοσειρές, η απόστροφη σχεδιάστηκε λοξά προς τα αριστερά και η περισπίδα ~ μετατοπίστηκε προς τα πάνω, έτσι απλά ταιριάζουν με τον ρόλο μιας οξείας και μιας περισπωμένης στην κορυφή.

Εάν το ίδιο σύμβολο υπερτίθεται σε ένα σύμβολο, το αποτέλεσμα είναι τολμηρός, και αν μια υπογράμμιση υπερτίθεται σε έναν χαρακτήρα, τότε προκύπτει υπογραμμισμένο κείμενο.

a BS a → ένα
aBS_→ ένα

Σημείωμα: αυτό χρησιμοποιείται για παράδειγμα σε σύστημα βοήθειαςάνθρωπος.

Εθνικές παραλλαγές ASCII

Το πρότυπο ISO 646 (ECMA-6) προβλέπει τη δυνατότητα τοποθέτησης εθνικών συμβόλων στη θέση τους @ [ \ ] ^ ` { | } ~ . Εκτός από αυτό, επί τόπου # μπορεί να αναρτηθεί £ , και στη θέση του $ - ¤ . Αυτό το σύστημα είναι κατάλληλο για ευρωπαϊκές γλώσσες όπου χρειάζονται μόνο μερικοί επιπλέον χαρακτήρες. Παραλλαγή ASCIIχωρίς εθνικούς χαρακτήρες ονομάζεται US-ASCII ή "Διεθνής Έκδοση Αναφοράς".

Στη συνέχεια, αποδείχθηκε ότι ήταν πιο βολικό να χρησιμοποιείτε κωδικοποιήσεις 8-bit (σελίδες κώδικα), όπου το κάτω μισό του πίνακα κωδικών (0-127) καταλαμβάνεται από χαρακτήρες US-ASCII και το πάνω μισό (128-255) με πρόσθετους χαρακτήρες, συμπεριλαμβανομένου ενός συνόλου εθνικών χαρακτήρων. Έτσι, το πάνω μισό του πίνακα ASCII, πριν από την ευρεία υιοθέτηση του Unicode, χρησιμοποιήθηκε ενεργά για να αναπαραστήσει εντοπισμένους χαρακτήρες, γράμματα της τοπικής γλώσσας. Απουσία ενιαίο πρότυποΗ τοποθέτηση κυριλλικών χαρακτήρων στον πίνακα ASCII προκάλεσε πολλά προβλήματα με τις κωδικοποιήσεις (KOI-8, Windows-1251 και άλλα). Άλλες γλώσσες με μη λατινικές γραφές υπέφεραν επίσης από πολλές διαφορετικές κωδικοποιήσεις.

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.ΕΝΑ	.ΣΙ	.ΝΤΟ	.ΡΕ	.ΜΙ	.ΦΑ
0.	NUL	SOM	ΕΟΑ	ΕΟΜ	EQT	W.R.U.	RU	ΚΟΥΔΟΥΝΙ	BKSP	HT	LF	VT	FF	CR	ΕΤΣΙ	ΣΙ.
1.	DC 0	DC 1	DC 2	DC 3	DC 4	ΠΛΑΝΩΜΑΙ	ΣΥΓΧΡΟΝΙΣΜΟΣ	L.E.M.	S 0	S 1	S 2	S 3	S 4	S 5	S 6	S 7
2.
3.
4.	ΚΕΝΟ	!	"	#	$	%	&	"	(	)	*	+	,	-	.	/
5.	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
6.
7.
8.
9.
ΕΝΑ.	@	ΕΝΑ	σι	ντο	ρε	μι	φά	σολ	H	εγώ	J	Κ	μεγάλο	Μ	Ν	Ο
ΣΙ.	Π	Q	R	μικρό	Τ	U	V	W	Χ	Υ	Ζ	[	\	]		←
ΝΤΟ.
ΡΕ.
ΜΙ.		ένα	σι	ντο	ρε	μι	φά	σολ	η	εγώ	ι	κ	μεγάλο	m	n	ο
ΦΑ.	σελ	q	r	μικρό	t	u	v	w	x	y	z				ESC	ΔΕΛ

Σε εκείνους τους υπολογιστές όπου η ελάχιστη διευθυνσιοδοτούμενη μονάδα μνήμης ήταν μια λέξη 36-bit, αρχικά χρησιμοποιήθηκαν χαρακτήρες 6-bit (1 λέξη = 6 χαρακτήρες). Μετά τη μετάβαση στο ASCII, τέτοιοι υπολογιστές άρχισαν να περιέχουν είτε 5 χαρακτήρες επτά bit (1 bit έμεινε επιπλέον) είτε 4 χαρακτήρες εννέα bit σε μία λέξη.

Οι κωδικοί ASCII χρησιμοποιούνται επίσης για τον προσδιορισμό του πλήκτρου που θα πατηθεί κατά τον προγραμματισμό. Για ένα τυπικό πληκτρολόγιο QWERTY, ο πίνακας κωδικών μοιάζει με αυτό:

[Κωδικοποιήσεις 8-bit: ASCII, KOI-8R και CP1251] Οι πρώτοι πίνακες κωδικοποίησης που δημιουργήθηκαν στις Ηνωμένες Πολιτείες δεν χρησιμοποιούσαν το όγδοο bit σε ένα byte. Το κείμενο αντιπροσωπεύτηκε ως μια ακολουθία byte, αλλά το όγδοο bit δεν ελήφθη υπόψη (χρησιμοποιήθηκε για επίσημους σκοπούς).

Ο πίνακας έχει γίνει ένα γενικά αποδεκτό πρότυπο ASCII(American Standard Code for Information Interchange). Οι πρώτοι 32 χαρακτήρες του πίνακα ASCII (00 έως 1F) χρησιμοποιήθηκαν για χαρακτήρες που δεν εκτυπώνονται. Σχεδιάστηκαν για να ελέγχουν μια συσκευή εκτύπωσης κ.λπ. Οι υπόλοιποι - από 20 έως 7 F - είναι κανονικοί (εκτυπώσιμοι) χαρακτήρες.

Πίνακας 1 - Κωδικοποίηση ASCII

Δεκ	Γοητεύω	Οκτ	Απανθρακώνω	Περιγραφή
0	0	000		άκυρος
1	1	001		έναρξη του τίτλου
2	2	002		αρχή του κειμένου
3	3	003		τέλος του κειμένου
4	4	004		τέλος μετάδοσης
5	5	005		έρευνα
6	6	006		αναγνωρίζω
7	7	007		κουδούνι
8	8	010		backspace
9	9	011		οριζόντια καρτέλα
10	ΕΝΑ	012		νέα γραμμή
11	σι	013		κάθετη καρτέλα
12	ντο	014		νέα σελίδα
13	ρε	015		επιστροφή άμαξα
14	μι	016		μετατόπιση έξω
15	φά	017		μετατόπιση μέσα
16	10	020		διαφυγή συνδέσμου δεδομένων
17	11	021		έλεγχος συσκευής 1
18	12	022		έλεγχος συσκευής 2
19	13	023		έλεγχος συσκευής 3
20	14	024		έλεγχος συσκευής 4
21	15	025		αρνητική αναγνώριση
22	16	026		σύγχρονη αδράνεια
23	17	027		τέλος του μεταφρ. φραγμός
24	18	030		ματαίωση
25	19	031		τέλος του μέσου
26	1Α	032		υποκατάστατο
27	1Β	033		διαφυγή
28	1C	034		διαχωριστικό αρχείων
29	1Δ	035		διαχωριστικό ομάδας
30	1Ε	036		διαχωριστικό ρεκόρ
31	1ΣΤ	037		διαχωριστικό μονάδων
32	20	040		χώρος
33	21	041	!
34	22	042	"
35	23	043	#
36	24	044	$
37	25	045	%
38	26	046	&
39	27	047	"
40	28	050	(
41	29	051	)
42	2Α	052	*
43	2Β	053	+
44	2C	054	,
45	2D	055	-
46	2Ε	056	.
47	2ΣΤ	057	/
48	30	060	0
49	31	061	1
50	32	062	2
51	33	063	3
52	34	064	4
53	35	065	5
54	36	066	6
55	37	067	7
56	38	070	8
57	39	071	9
58	3Α	072	:
59	3Β	073	;
60	3C	074	<
61	3D	075	=
62	3Ε	076	>
63	3F	077	?

Δεκ	Γοητεύω	Οκτ	Απανθρακώνω
64	40	100	@
65	41	101	ΕΝΑ
66	42	102	σι
67	43	103	ντο
68	44	104	ρε
69	45	105	μι
70	46	106	φά
71	47	107	σολ
72	48	110	H
73	49	111	εγώ
74	4Α	112	J
75	4Β	113	Κ
76	4C	114	μεγάλο
77	4D	115	Μ
78	4Ε	116	Ν
79	4F	117	Ο
80	50	120	Π
81	51	121	Q
82	52	122	R
83	53	123	μικρό
84	54	124	Τ
85	55	125	U
86	56	126	V
87	57	127	W
88	58	130	Χ
89	59	131	Υ
90	5Α	132	Ζ
91	5Β	133	[
92	5C	134	\
93	5Δ	135	]
94	5Ε	136	^
95	5F	137	_
96	60	140	`
97	61	141	ένα
98	62	142	σι
99	63	143	ντο
100	64	144	ρε
101	65	145	μι
102	66	146	φά
103	67	147	σολ
104	68	150	η
105	69	151	εγώ
106	6Α	152	ι
107	6Β	153	κ
108	6C	154	μεγάλο
109	6D	155	m
110	6Ε	156	n
111	6F	157	ο
112	70	160	σελ
113	71	161	q
114	72	162	r
115	73	163	μικρό
116	74	164	t
117	75	165	u
118	76	166	v
119	77	167	w
120	78	170	x
121	79	171	y
122	7Α	172	z
123	7Β	173	{
124	7C	174	\|
125	7Δ	175	}
126	7Ε	176	~
127	7F	177	ΔΕΛ

Όπως είναι εύκολο να δούμε, μόνο σε αυτήν την κωδικοποίηση λατινικά γράμματα, και αυτά που χρησιμοποιούνται στα αγγλικά. Υπάρχουν επίσης αριθμητικά και άλλα σύμβολα υπηρεσίας. Δεν υπάρχουν όμως ούτε ρωσικά γράμματα, ούτε καν ειδικά λατινικά για τα γερμανικά ή τα γαλλικά. Αυτό είναι εύκολο να εξηγηθεί - η κωδικοποίηση αναπτύχθηκε ακριβώς όπως Αμερικανικό πρότυπο. Καθώς οι υπολογιστές άρχισαν να χρησιμοποιούνται σε όλο τον κόσμο, χρειάστηκε να κωδικοποιηθούν και άλλοι χαρακτήρες.

Για να γίνει αυτό, αποφασίστηκε να χρησιμοποιηθεί το όγδοο bit σε κάθε byte. Αυτό έκανε διαθέσιμες 128 περισσότερες τιμές (από 80 έως FF) που θα μπορούσαν να χρησιμοποιηθούν για την κωδικοποίηση χαρακτήρων. Ο πρώτος από τους πίνακες των οκτώ bit είναι "εκτεταμένος ASCII" ( Εκτεταμένο ASCII) - περιλαμβάνεται διάφορες επιλογέςΛατινικοί χαρακτήρες που χρησιμοποιούνται σε ορισμένες γλώσσες της Δυτικής Ευρώπης. Περιείχε επίσης άλλα πρόσθετα σύμβολα, συμπεριλαμβανομένων ψευδογραφικών.

Οι ψευδογραφικοί χαρακτήρες επιτρέπουν, μόνο με την εμφάνιση χαρακτήρες κειμένου, παρέχει κάποια εμφάνιση γραφικών. Χρησιμοποιώντας ψευδογραφήματα, για παράδειγμα, λειτουργεί ένα πρόγραμμα ελέγχου ΜΑΚΡΙΑ αρχείαΔιευθυντής.

Δεν υπήρχαν ρωσικά γράμματα στον πίνακα Extended ASCII. Η Ρωσία (πρώην ΕΣΣΔ) και άλλες χώρες δημιούργησαν τις δικές τους κωδικοποιήσεις που επέτρεψαν την αναπαράσταση συγκεκριμένων «εθνικών» χαρακτήρων σε αρχεία κειμένου 8-bit - λατινικά γράμματα της πολωνικής και τσεχικής γλώσσας, κυριλλικά (συμπεριλαμβανομένων των ρωσικών γραμμάτων) και άλλα αλφάβητα.

Σε όλες τις κωδικοποιήσεις που έχουν γίνει ευρέως διαδεδομένες, οι πρώτοι 127 χαρακτήρες (δηλαδή η τιμή byte με το όγδοο bit ίσο με 0) είναι ίδιοι με το ASCII. Έτσι, ένα αρχείο ASCII λειτουργεί σε οποιαδήποτε από αυτές τις κωδικοποιήσεις. επιστολές Αγγλική γλώσσαπαρουσιάζονται εξίσου.

Οργάνωση ISO(Διεθνής Οργανισμός Τυποποίησης) υιοθέτησε μια ομάδα προτύπων ISO 8859. Ορίζει κωδικοποιήσεις 8-bit για διαφορετικές ομάδεςγλώσσες. Έτσι, το ISO 8859-1 είναι ένας εκτεταμένος πίνακας ASCII για τις ΗΠΑ και τη Δυτική Ευρώπη. Και το ISO 8859-5 είναι ένας πίνακας για το κυριλλικό αλφάβητο (συμπεριλαμβανομένου του ρωσικού).

Ωστόσο, για ιστορικούς λόγους, η κωδικοποίηση ISO 8859-5 δεν ριζώθηκε. Στην πραγματικότητα, οι ακόλουθες κωδικοποιήσεις χρησιμοποιούνται για τη ρωσική γλώσσα:

Κωδικός Σελίδα 866 ( CP866), γνωστός και ως "DOS", γνωστός και ως "εναλλακτική κωδικοποίηση GOST". Χρησιμοποιείται ευρέως μέχρι τα μέσα της δεκαετίας του '90. χρησιμοποιείται πλέον σε περιορισμένο βαθμό. Πρακτικά δεν χρησιμοποιείται για τη διανομή κειμένων στο Διαδίκτυο.
- KOI-8. Αναπτύχθηκε τη δεκαετία του 70-80. Είναι ένα γενικά αποδεκτό πρότυπο για τη μετάδοση μηνυμάτων αλληλογραφίας σε Ρωσικό Διαδίκτυο. Χρησιμοποιείται ευρέως σε λειτουργικά συστήματα Οικογένεια Unix, συμπεριλαμβανομένου του Linux. Η έκδοση KOI-8, σχεδιασμένη για ρωσικά, ονομάζεται KOI-8R; Υπάρχουν εκδόσεις για άλλες κυριλλικές γλώσσες (για παράδειγμα, το KOI8-U είναι μια έκδοση για την ουκρανική γλώσσα).
- Κωδικός Σελίδα 1251, CP1251,Windows-1251. Αναπτύχθηκε από τη Microsoft για την υποστήριξη της ρωσικής γλώσσας στα Windows.

Το κύριο πλεονέκτημα του CP866 ήταν η διατήρηση των ψευδο-γραφικών χαρακτήρων στα ίδια σημεία όπως στο Extended ASCII. Επομένως, τα ξένα θα μπορούσαν να λειτουργήσουν χωρίς αλλαγές προγράμματα κειμένου, για παράδειγμα, το περίφημο Norton Commander. Το CP866 χρησιμοποιείται πλέον για προγράμματα Windows που εκτελούνται σε παράθυρα κειμένου ή σε λειτουργία κειμένου πλήρους οθόνης, συμπεριλαμβανομένου του FAR Manager.

Κείμενα σε CP866 τα τελευταία χρόνιαείναι αρκετά σπάνια (αλλά χρησιμοποιείται για την κωδικοποίηση των ρωσικών ονομάτων αρχείων στα Windows). Επομένως, θα σταθούμε λεπτομερέστερα σε δύο άλλες κωδικοποιήσεις - KOI-8R και CP1251.

Όπως μπορείτε να δείτε, στον πίνακα κωδικοποίησης CP1251, τα ρωσικά γράμματα είναι ταξινομημένα με αλφαβητική σειρά (με εξαίρεση, ωστόσο, το γράμμα Ε). Χάρη σε αυτή την τοποθεσία προγράμματα υπολογιστώνΕίναι πολύ εύκολο να ταξινομηθεί αλφαβητικά.

Αλλά στο KOI-8R η σειρά των ρωσικών γραμμάτων φαίνεται τυχαία. Αλλά στην πραγματικότητα αυτό δεν ισχύει.

Σε πολλά παλαιότερα προγράμματα, το 8ο bit χάθηκε κατά την επεξεργασία ή τη μετάδοση κειμένου. (Τώρα τέτοια προγράμματα είναι πρακτικά «εξαφανισμένα», αλλά στα τέλη της δεκαετίας του '80 - αρχές της δεκαετίας του '90 ήταν ευρέως διαδεδομένα). Για να λάβετε μια τιμή 7-bit από μια τιμή 8-bit, απλώς αφαιρέστε το 8 από το πιο σημαντικό ψηφίο. για παράδειγμα, το E1 γίνεται 61.

Συγκρίνετε τώρα το KOI-8R με τον πίνακα ASCII (Πίνακας 1). Θα διαπιστώσετε ότι τα ρωσικά γράμματα τοποθετούνται σε σαφή αντιστοιχία με τα λατινικά. Εάν εξαφανιστεί το όγδοο bit, τα πεζά ρωσικά γράμματα μετατρέπονται σε κεφαλαία λατινικά γράμματα και τα κεφαλαία ρωσικά γράμματα σε πεζά λατινικά γράμματα. Έτσι, το E1 στο KOI-8 είναι το ρωσικό "A", ενώ το 61 στο ASCII είναι το λατινικό "a".

Έτσι, το KOI-8 σάς επιτρέπει να διατηρείτε την αναγνωσιμότητα του ρωσικού κειμένου όταν χάνεται το 8ο bit. Το "γεια σε όλους" γίνεται "pRIWET WSEM".

ΣΕ πρόσφαταΚαι αλφαβητική σειράΗ διάταξη των χαρακτήρων στον πίνακα κωδικοποίησης και η αναγνωσιμότητα με την απώλεια του 8ου bit, έχουν χάσει την αποφασιστική τους σημασία. Όγδοο μπιτ μέσα σύγχρονους υπολογιστέςδεν χάνεται κατά τη μετάδοση ή την επεξεργασία. Και η αλφαβητική ταξινόμηση γίνεται λαμβάνοντας υπόψη την κωδικοποίηση, και όχι απλή σύγκρισηκωδικούς (Παρεμπιπτόντως, οι κωδικοί CP1251 δεν είναι πλήρως διατεταγμένοι αλφαβητικά - το γράμμα Ε δεν είναι στη θέση του).

Λόγω του γεγονότος ότι υπάρχουν δύο κοινές κωδικοποιήσεις, όταν εργάζεστε με το Διαδίκτυο (ταχυδρομείο, περιήγηση σε ιστότοπους), μπορείτε μερικές φορές να δείτε ένα σύνολο γραμμάτων χωρίς νόημα αντί για ρωσικό κείμενο. Για παράδειγμα, "Είμαι ο SBYUFEMHEL". Αυτές είναι απλώς οι λέξεις «με σεβασμό». αλλά κωδικοποιήθηκαν σε κωδικοποίηση CP1251 και ο υπολογιστής αποκωδικοποίησε το κείμενο χρησιμοποιώντας τον πίνακα KOI-8. Αν, αντίθετα, οι ίδιες λέξεις κωδικοποιούνταν στο KOI-8 και ο υπολογιστής αποκωδικοποιούσε το κείμενο σύμφωνα με τον πίνακα CP1251, το αποτέλεσμα θα ήταν "U KHBTSEOYEN".

Μερικές φορές συμβαίνει ότι ένας υπολογιστής αποκρυπτογραφεί γράμματα στη ρωσική γλώσσα χρησιμοποιώντας έναν πίνακα που δεν προορίζεται για τη ρωσική γλώσσα. Στη συνέχεια, αντί για ρωσικά γράμματα, εμφανίζεται ένα σύνολο συμβόλων χωρίς νόημα (για παράδειγμα, λατινικά γράμματα των γλωσσών της Ανατολικής Ευρώπης). Συχνά ονομάζονται «κροκόζυβρες».

Στις περισσότερες περιπτώσεις σύγχρονα προγράμματανα αντιμετωπίσει τον προσδιορισμό των κωδικοποιήσεων των εγγράφων του Διαδικτύου ( emailsκαι ιστοσελίδες) ανεξάρτητα. Αλλά μερικές φορές "αστοχούν" και μετά μπορείτε να δείτε περίεργες ακολουθίες ρωσικών γραμμάτων ή "krokozyabry". Κατά κανόνα, σε μια τέτοια κατάσταση, για να εμφανίσετε πραγματικό κείμενο στην οθόνη, αρκεί να επιλέξετε την κωδικοποίηση χειροκίνητα στο μενού προγράμματος.

Για αυτό το άρθρο χρησιμοποιήθηκαν πληροφορίες από τη σελίδα http://open-office.edusite.ru/TextProcessor/p5aa1.html.

Υλικό από τον ιστότοπο:

Παρεμπιπτόντως, στον ιστότοπό μας μπορείτε να μετατρέψετε οποιοδήποτε κείμενο σε δεκαδικό, δεκαεξαδικό, δυάδικος κώδικαςχρησιμοποιώντας την ηλεκτρονική αριθμομηχανή κωδικών.

πίνακας ASCII

ASCII (American Standard Code for Information Interchange)

Συνοπτικός πίνακας κωδικών ASCII

Πίνακας κωδικών χαρακτήρων ASCII Windows (Win-1251)

		Σύμβολο









		ειδικός. Κατάταξη εις πίνακα
		ειδικός. LF (Μεταφορά Επιστροφής)


		ειδικός. CR( Νέα γραμμή)


















		συμπλέκτης SP (Διάστημα)

		Σύμβολο

Εκτεταμένος πίνακας κωδικών ASCII

Μορφοποίηση συμβόλων.

	Backspace (Επιστροφή ενός χαρακτήρα). Υποδεικνύει ότι ο μηχανισμός εκτύπωσης ή ο κέρσορας της οθόνης μετακινείται μία θέση πίσω.
	Οριζόντια Πίνακας. Υποδεικνύει τη μετακίνηση της μηχανής εκτύπωσης ή του δρομέα της οθόνης στην επόμενη προδιαγεγραμμένη "καρτέλα".
	Τροφοδοσία γραμμής. Υποδεικνύει κίνηση του μηχανισμού εκτύπωσης ή του δρομέα της οθόνης στην αρχή επόμενη γραμμή(μία γραμμή κάτω).
	Κάθετη Πινακοποίηση. Υποδεικνύει την κίνηση της μηχανής εκτύπωσης ή του δρομέα της οθόνης στην επόμενη ομάδα γραμμών.
	Ροή φόρμας. Υποδεικνύει την κίνηση του μηχανισμού εκτύπωσης ή του δρομέα της οθόνης στην αρχική θέση επόμενη σελίδα, φόρμα ή οθόνη.
	Επιστροφή άμαξα. Υποδεικνύει τη μετακίνηση του μηχανισμού εκτύπωσης ή του δρομέα της οθόνης στην αρχική (αριστερά) θέση της τρέχουσας γραμμής.

Μεταφορά δεδομένων.

	Έναρξη Επικεφαλίδας. Χρησιμοποιείται για τον ορισμό της αρχής μιας κεφαλίδας, η οποία μπορεί να περιέχει πληροφορίες δρομολόγησης ή μια διεύθυνση.
	Έναρξη κειμένου. Εμφανίζει την αρχή του κειμένου και ταυτόχρονα το τέλος του τίτλου.
	Τέλος κειμένου. Ισχύει όταν τελειώνει κείμενο που ξεκινά με τον χαρακτήρα STX.
	Ερευνα. Αίτημα για δεδομένα αναγνώρισης (όπως "Ποιος είσαι;") από έναν απομακρυσμένο σταθμό.
	Αναγνωρίζω. Η συσκευή λήψης μεταδίδει αυτόν τον χαρακτήρα στον αποστολέα ως επιβεβαίωση της επιτυχούς λήψης των δεδομένων.
	Αρνητική Αναγνώριση. Η συσκευή λήψης μεταδίδει αυτόν τον χαρακτήρα στον αποστολέα σε περίπτωση άρνησης (αστοχίας) λήψης δεδομένων.
	Σύγχρονη/Αδράνεια. Χρησιμοποιείται σε συγχρονισμένα συστήματα μετάδοσης. Όταν δεν υπάρχει μετάδοση δεδομένων, το σύστημα στέλνει συνεχώς σύμβολα SYN για να εξασφαλίσει το συγχρονισμό.
	Τέλος του μπλοκ μετάδοσης. Υποδεικνύει το τέλος ενός μπλοκ δεδομένων για λόγους επικοινωνίας. Χρησιμοποιείται για χωρισμό σε ξεχωριστά μπλοκ μεγάλους όγκουςδεδομένα.

Διαιρώντας σημάδια κατά τη μετάδοση πληροφοριών.

Άλλα σύμβολα.

	Ακυρος. (Χωρίς χαρακτήρα - χωρίς δεδομένα). Χρησιμοποιείται για μετάδοση όταν δεν υπάρχουν δεδομένα.
	Κουδούνι (Κλήση). Χρησιμοποιείται για τον έλεγχο συσκευών συναγερμού.
	Shift Out. Δείχνει ότι όλα τα επόμενα συνδυασμούς κωδικώνπρέπει να ερμηνεύεται σύμφωνα με το σύνολο εξωτερικών χαρακτήρων πριν από την άφιξη του χαρακτήρα SI.
	Shift In. Υποδεικνύει ότι οι επόμενοι συνδυασμοί κωδικών πρέπει να ερμηνεύονται σύμφωνα με τυπικό σετχαρακτήρες.
	Σύνδεσμος δεδομένωνΔιαφυγή. Αλλαγή της σημασίας των παρακάτω χαρακτήρων. Ισχύει για πρόσθετος έλεγχοςή να μεταδώσει έναν αυθαίρετο συνδυασμό bit.
DC1, DC2, DC3, DC4	Χειριστήρια συσκευής. Σύμβολα για τη λειτουργία βοηθητικών συσκευών (ειδικές λειτουργίες).
	Ματαίωση. Υποδεικνύει ότι τα δεδομένα που προηγούνται αυτού του χαρακτήρα σε ένα μήνυμα ή μπλοκ θα πρέπει να αγνοηθούν (συνήθως εάν εντοπιστεί σφάλμα).
	Τέλος Μέσου. Υποδεικνύει το φυσικό άκρο μιας ταινίας ή άλλου αποθηκευτικού μέσου
	Υποκατάστατο. Χρησιμοποιείται για την αντικατάσταση ενός λανθασμένου ή μη έγκυρου χαρακτήρα.
	Escape (Επέκταση). Χρησιμοποιείται για την επέκταση του κώδικα υποδεικνύοντας ότι ένας επόμενος χαρακτήρας έχει μια εναλλακτική σημασία.
	Χώρος. Ένας μη εκτυπωτικός χαρακτήρας που χρησιμοποιείται για το διαχωρισμό λέξεων ή τη μετακίνηση της μηχανής εκτύπωσης ή του δρομέα της οθόνης προς τα εμπρός μία θέση.
	Διαγράφω. Χρησιμοποιείται για την αφαίρεση (διαγραφή) του προηγούμενου χαρακτήρα σε ένα μήνυμα