Πόσοι χαρακτήρες υπάρχουν στον πίνακα κωδικών ascii. Κωδικοποίηση ASCII (Αμερικανικός τυπικός κώδικας για ανταλλαγή πληροφοριών) - βασική κωδικοποίηση κειμένου για το λατινικό αλφάβητο

Ηλεκτρονική 22.06.2019
Επισκόπηση προγράμματος Η έκδοση υπολογιστή του Microsoft Excel Viewer θα επιτρέψει...
Chercher

Για να χρησιμοποιήσετε σωστά το ASCII, είναι απαραίτητο να διευρύνετε τις γνώσεις σας σε αυτόν τον τομέα και σχετικά με τις δυνατότητες κωδικοποίησης.

Τι είναι αυτό;

Το ASCII είναι ένας πίνακας κωδικοποίησης με εκτυπώσιμους χαρακτήρες (βλ. στιγμιότυπο οθόνης No. 1) πληκτρολογημένος πληκτρολόγιο υπολογιστή, για μετάδοση πληροφοριών και ορισμένων κωδικών. Με άλλα λόγια, το αλφάβητο είναι κωδικοποιημένο και δεκαδικά ψηφίασε κατάλληλα σύμβολα που αντιπροσωπεύουν και φέρουν τις απαραίτητες πληροφορίες.


Το ASCII αναπτύχθηκε στην Αμερική, επομένως το τυπικό σύνολο χαρακτήρων περιλαμβάνει συνήθως το αγγλικό αλφάβητο με αριθμούς, για συνολικά περίπου 128 χαρακτήρες. Αλλά τότε τίθεται ένα δίκαιο ερώτημα: τι να κάνουμε εάν απαιτείται κωδικοποίηση του εθνικού αλφαβήτου;

Άλλες εκδόσεις του πίνακα ASCII έχουν αναπτυχθεί για την αντιμετώπιση παρόμοιων ζητημάτων. Για παράδειγμα, για γλώσσες με δομή ξένης γλώσσας, τα γράμματα του αγγλικού αλφαβήτου είτε αφαιρέθηκαν είτε προστέθηκαν πρόσθετους χαρακτήρεςμε τη μορφή εθνικού αλφαβήτου. Έτσι, η κωδικοποίηση ASCII μπορεί να περιέχει ρωσικά γράμματα για εθνική χρήση (βλ. στιγμιότυπο οθόνης Νο. 2).

Πού χρησιμοποιείται το σύστημα κωδικοποίησης ASCII;

Αυτό το σύστημα κωδικοποίησης είναι απαραίτητο όχι μόνο για την κλήση πληροφορίες κειμένουστο πληκτρολόγιο. Χρησιμοποιείται επίσης στα γραφικά. Για παράδειγμα, στο πρόγραμμα ASCII Art Maker γραφικές εικόνες διάφορες επεκτάσειςαποτελείται από μια σειρά χαρακτήρων ASCII (δείτε στιγμιότυπο οθόνης No. 3).


Κατά κανόνα, παρόμοια προγράμματαμπορεί να χωριστεί σε αυτά που εκτελούν τη λειτουργία συντάκτες γραφικών, αντιστρέφοντας μια εικόνα σε κείμενο και αυτές που μετατρέπουν μια εικόνα σε γραφικά ASCII. Το γνωστό emoticon (ή όπως λέγεται επίσης " χαμογελαστά ανθρώπινο πρόσωπο ") είναι επίσης ένα παράδειγμα ενός χαρακτήρα κωδικοποίησης.

Αυτή η μέθοδος κωδικοποίησης μπορεί επίσης να χρησιμοποιηθεί κατά τη διάρκεια της γραφής ή της δημιουργίας έγγραφο HTML. Για παράδειγμα, εισάγετε ένα συγκεκριμένο και απαραίτητο σύνολο χαρακτήρων και κατά την προβολή της ίδιας της σελίδας, το σύμβολο που αντιστοιχεί σε αυτόν τον κωδικό θα εμφανιστεί στην οθόνη.

Μεταξύ άλλων αυτού του τύπουΗ κωδικοποίηση είναι απαραίτητη κατά τη δημιουργία ενός πολύγλωσσου ιστότοπου, επειδή οι χαρακτήρες που δεν περιλαμβάνονται σε έναν συγκεκριμένο εθνικό πίνακα θα πρέπει να αντικατασταθούν με κωδικούς ASCII. Εάν ο αναγνώστης συνδέεται άμεσα με τις τεχνολογίες πληροφοριών και επικοινωνιών (ΤΠΕ), τότε θα είναι χρήσιμο για αυτόν να εξοικειωθεί με συστήματα όπως:

  1. Φορητό σύνολο χαρακτήρων.
  2. χαρακτήρες ελέγχου.
  3. EBCDIC;
  4. VISCII;
  5. YUSCII;
  6. Unicode;
  7. τέχνη ASCII;
  8. KOI-8.

Ιδιότητες πίνακα ASCII

Όπως κάθε συστηματικό πρόγραμμα, το ASCII έχει τις δικές του χαρακτηριστικές ιδιότητες. Έτσι, για παράδειγμα, το δεκαδικό σύστημα αριθμών (ψηφία από το 0 έως το 9) μετατρέπεται στο δυαδικό σύστημα αριθμών (δηλαδή, κάθε δεκαδικό ψηφίο μετατρέπεται σε δυαδικό 288 = 1001000, αντίστοιχα).

Τα γράμματα που βρίσκονται στην επάνω και στην κάτω στήλη διαφέρουν μεταξύ τους μόνο κατά ένα κομμάτι, γεγονός που μειώνει σημαντικά το επίπεδο πολυπλοκότητας του ελέγχου και της επεξεργασίας της υπόθεσης.

Με όλες αυτές τις ιδιότητες, η κωδικοποίηση ASCII λειτουργεί ως οκτώ bit, αν και αρχικά προοριζόταν να είναι επτά bit.

Εφαρμογή του ASCII σε προγράμματα της MicrosoftΓραφείο:

Αν χρειαστεί αυτή την επιλογήΗ κωδικοποίηση πληροφοριών μπορεί να χρησιμοποιηθεί στο Microsoft Notepad και Microsoft OfficeΛέξη. Σε αυτές τις εφαρμογές, το έγγραφο μπορεί να αποθηκευτεί σε μορφή ASCII, αλλά σε αυτήν την περίπτωση, δεν θα μπορείτε να χρησιμοποιήσετε ορισμένες λειτουργίες κατά την πληκτρολόγηση κειμένου.

Ειδικότερα, τολμηρή και τολμηρός, επειδή η κωδικοποίηση διατηρεί μόνο το νόημα των πληκτρολογημένων πληροφοριών και όχι γενική άποψηκαι σχήμα. Μπορείτε να προσθέσετε τέτοιους κωδικούς σε ένα έγγραφο χρησιμοποιώντας τις ακόλουθες εφαρμογές λογισμικού.

Ένας υπολογιστής κατανοεί τη διαδικασία μετατροπής του σε μορφή που επιτρέπει την πιο βολική μετάδοση, αποθήκευση ή αυτόματη επεξεργασία αυτών των δεδομένων. Για το σκοπό αυτό χρησιμοποιούνται διάφοροι πίνακες. Το ASCII ήταν το πρώτο σύστημα που αναπτύχθηκε στις Ηνωμένες Πολιτείες για εργασία με αγγλόφωνο κείμενο, το οποίο στη συνέχεια έγινε ευρέως διαδεδομένο σε όλο τον κόσμο. Το παρακάτω άρθρο είναι αφιερωμένο στην περιγραφή, τα χαρακτηριστικά, τις ιδιότητες και την περαιτέρω χρήση του.

Εμφάνιση και αποθήκευση πληροφοριών σε υπολογιστή

Σύμβολα σε οθόνη υπολογιστή ή κινητό τηλέφωνο ψηφιακό gadgetδιαμορφώνονται με βάση σύνολα διανυσματικών μορφών διαφόρων χαρακτήρων και έναν κώδικα που σας επιτρέπει να βρείτε μεταξύ τους τον χαρακτήρα που πρέπει να εισαχθεί σε σωστό μέρος. Αντιπροσωπεύει μια ακολουθία bits. Έτσι, κάθε χαρακτήρας πρέπει να αντιστοιχεί μοναδικά σε ένα σύνολο μηδενικών και μονάδων, τα οποία εμφανίζονται με μια συγκεκριμένη, μοναδική σειρά.

Πώς ξεκίνησαν όλα

Ιστορικά, οι πρώτοι υπολογιστές ήταν αγγλόφωνοι. Για την κωδικοποίηση συμβολικών πληροφοριών σε αυτά, αρκούσε να χρησιμοποιηθούν μόνο 7 bit μνήμης, ενώ για το σκοπό αυτό διατέθηκε 1 byte αποτελούμενο από 8 bit. Ο αριθμός των χαρακτήρων που κατανοούσε ο υπολογιστής σε αυτή την περίπτωση ήταν 128. Αυτοί οι χαρακτήρες περιελάμβαναν το αγγλικό αλφάβητο με τα σημεία στίξης, τους αριθμούς και ορισμένους ειδικούς χαρακτήρες. Η αγγλόφωνη κωδικοποίηση επτά bit με τον αντίστοιχο πίνακα (σελίδα κώδικα), που αναπτύχθηκε το 1963, ονομάστηκε Αμερικανικός Τυπικός Κώδικας για Ανταλλαγή Πληροφοριών. Συνήθως, η συντομογραφία "ASCII encoding" χρησιμοποιήθηκε και εξακολουθεί να χρησιμοποιείται για να την υποδηλώσει.

Μετάβαση στην πολυγλωσσία

Με τον καιρό, οι υπολογιστές χρησιμοποιούνται ευρέως σε μη αγγλόφωνες χώρες. Από αυτή την άποψη, υπήρχε ανάγκη για κωδικοποιήσεις που να επιτρέπουν τη χρήση εθνικών γλωσσών. Αποφασίστηκε να μην επανεφεύρουμε τον τροχό και να πάρουμε Βάση ASCII. Ο πίνακας κωδικοποίησης στη νέα έκδοση έχει επεκταθεί σημαντικά. Η χρήση του 8ου bit κατέστησε δυνατή τη μετάφραση σε γλώσσα υπολογιστήήδη 256 χαρακτήρες.

Περιγραφή

Η κωδικοποίηση ASCII έχει έναν πίνακα που χωρίζεται σε 2 μέρη. Γενικά αποδεκτό διεθνές πρότυποΕίναι σύνηθες να εξετάζουμε μόνο το πρώτο μισό του. Περιλαμβάνει:

  • Χαρακτήρες με σειριακούς αριθμούς από το 0 έως το 31, κωδικοποιημένοι σε ακολουθίες από 00000000 έως 00011111. Προορίζονται για χαρακτήρες ελέγχου που ελέγχουν τη διαδικασία εμφάνισης κειμένου στην οθόνη ή τον εκτυπωτή, την τροφοδοσία ηχητικό σήμακαι τα λοιπά.
  • Χαρακτήρες με NN στον πίνακα από 32 έως 127, κωδικοποιημένοι από ακολουθίες από 00100000 έως 01111111 αποτελούν το τυπικό μέρος του πίνακα. Αυτά περιλαμβάνουν κενό διάστημα (N 32), γράμματα του λατινικού αλφαβήτου (πεζά και κεφαλαία), δεκαψήφιους αριθμούς από το 0 έως το 9, σημεία στίξης, αγκύλες διαφορετικών στυλ και άλλα σύμβολα.
  • Χαρακτήρες με σειριακούς αριθμούς από 128 έως 255, κωδικοποιημένοι από ακολουθίες από 10000000 έως 11111111. Αυτοί περιλαμβάνουν γράμματα εθνικά αλφάβητα, διαφορετικό από τα λατινικά. Είναι αυτό το εναλλακτικό τμήμα του πίνακα ASCII που χρησιμοποιείται για τη μετατροπή σε φόρμα υπολογιστήΡωσικά σύμβολα.

Μερικές ιδιότητες

Τα χαρακτηριστικά της κωδικοποίησης ASCII περιλαμβάνουν τη διαφορά μεταξύ των γραμμάτων "A" - "Z" χαμηλότερα και κεφαλαίομόνο ένα κομμάτι. Αυτή η περίσταση απλοποιεί σημαντικά τη μετατροπή του μητρώου, καθώς και τον έλεγχο του αν ανήκει σε ένα δεδομένο εύρος τιμών. Επιπλέον, όλα τα γράμματα στο σύστημα κωδικοποίησης ASCII αντιπροσωπεύονται από τους δικούς τους αριθμούς ακολουθίας στο αλφάβητο, οι οποίοι είναι γραμμένοι με 5 ψηφία στο δυαδικό σύστημαΟι αριθμοί που προηγούνται από το 011 2 για τα πεζά γράμματα και το 010 2 για τα κεφαλαία γράμματα.

Μεταξύ των χαρακτηριστικών της κωδικοποίησης ASCII είναι η αναπαράσταση 10 ψηφίων - "0" - "9". Στο δεύτερο αριθμητικό σύστημα ξεκινούν με 00112 και τελειώνουν με 2 αριθμητικές τιμές. Άρα, το 0101 2 είναι ισοδύναμο δεκαδικός αριθμόςπέντε, οπότε το σύμβολο "5" γράφεται ως 0011 01012. Με βάση αυτά που ειπώθηκαν, μπορείτε εύκολα να μετατρέψετε δυαδικούς δεκαδικούς αριθμούςσε μια συμβολοσειρά ASCII προσθέτοντας την ακολουθία bit 00112 σε κάθε τσιμπίδα στα αριστερά.

"Unicode"

Όπως γνωρίζετε, απαιτούνται χιλιάδες χαρακτήρες για την εμφάνιση κειμένων στις γλώσσες της ομάδας της Νοτιοανατολικής Ασίας. Ένας τέτοιος αριθμός από αυτούς δεν μπορεί να περιγραφεί με κανέναν τρόπο σε ένα byte πληροφοριών, επομένως ακόμη και οι εκτεταμένες εκδόσεις του ASCII δεν θα μπορούσαν πλέον να ικανοποιήσουν τις αυξημένες ανάγκες χρηστών από διαφορετικές χώρες.

Έτσι, προέκυψε η ανάγκη δημιουργίας μιας καθολικής κωδικοποίησης κειμένου, την ανάπτυξη της οποίας, σε συνεργασία με πολλούς ηγέτες της παγκόσμιας βιομηχανίας πληροφορικής, ανέλαβε η κοινοπραξία Unicode. Οι ειδικοί του δημιούργησαν το σύστημα UTF 32 Σε αυτό, κατανεμήθηκαν 32 bit για να κωδικοποιήσουν 1 χαρακτήρα, αποτελώντας 4 byte πληροφοριών. Το κύριο μειονέκτημα ήταν η απότομη αύξηση του όγκου απαιτούμενη μνήμηέως και 4 φορές, πράγμα που συνεπαγόταν πολλά προβλήματα.

Ταυτόχρονα, για τις περισσότερες χώρες με επίσημες γλώσσες, που ανήκει στην ινδοευρωπαϊκή ομάδα, ο αριθμός των χαρακτήρων ίσος με 2 32 είναι κάτι παραπάνω από υπερβολικός.

Ως αποτέλεσμα περαιτέρω εργασίαΕιδικοί από την κοινοπραξία Unicode εισήγαγαν την κωδικοποίηση UTF-16. Έγινε η επιλογή για τη μετατροπή συμβολικών πληροφοριών που ταίριαζαν σε όλους τόσο ως προς την ποσότητα της απαιτούμενης μνήμης όσο και ως προς τον αριθμό των κωδικοποιημένων χαρακτήρων. Αυτός είναι ο λόγος για τον οποίο το UTF-16 υιοθετήθηκε από προεπιλογή και απαιτεί δέσμευση 2 byte για έναν χαρακτήρα.

Ακόμη και αυτή η αρκετά προηγμένη και επιτυχημένη έκδοση του Unicode είχε κάποια μειονεκτήματα και μετά τη μετάβαση από την εκτεταμένη έκδοση του ASCII στο UTF-16, το βάρος του εγγράφου διπλασιάστηκε.

Από αυτή την άποψη, αποφασίστηκε να χρησιμοποιηθεί η κωδικοποίηση μεταβλητό μήκος UTF-8. Σε αυτή την περίπτωση, κάθε χαρακτήρας κείμενο πηγήςκωδικοποιημένη ως ακολουθία μήκους από 1 έως 6 byte.

Επικοινωνήστε με τον αμερικανικό τυπικό κωδικό για ανταλλαγή πληροφοριών

Όλοι οι λατινικοί χαρακτήρες στο μεταβλητό μήκος UTF-8 κωδικοποιούνται σε 1 byte, όπως στο σύστημα κωδικοποίησης ASCII.

Ένα ιδιαίτερο χαρακτηριστικό του YTF-8 είναι ότι στην περίπτωση κειμένου στα Λατινικά χωρίς τη χρήση άλλων χαρακτήρων, ακόμη και τα προγράμματα που δεν κατανοούν το Unicode θα εξακολουθούν να μπορούν να το διαβάσουν. Με άλλα λόγια, το βασικό μέρος της κωδικοποίησης Κείμενο ASCIIγίνεται απλώς μέρος ενός νέου UTF μεταβλητού μήκους. Οι κυριλλικοί χαρακτήρες στο YTF-8 καταλαμβάνουν 2 byte και, για παράδειγμα, οι γεωργιανοί χαρακτήρες - 3 byte. Με τη δημιουργία των UTF-16 και 8, λύθηκε το κύριο πρόβλημα της δημιουργίας ενός ενιαίου χώρου κώδικα σε γραμματοσειρές. Από τότε, οι κατασκευαστές γραμματοσειρών μπορούν να γεμίσουν τον πίνακα μόνο με διανυσματικές μορφές χαρακτήρων κειμένου με βάση τις ανάγκες τους.

Σε διάφορα λειτουργικά συστήματαδίνεται προτίμηση διαφορετικές κωδικοποιήσεις. Για να μπορείτε να διαβάζετε και να επεξεργάζεστε κείμενα που έχουν πληκτρολογηθεί με διαφορετική κωδικοποίηση, χρησιμοποιούνται ρωσικά προγράμματα μετατροπής κειμένου. Μερικοί συντάκτες κειμένουπεριέχουν ενσωματωμένους transcoders και σας επιτρέπουν να διαβάζετε κείμενο ανεξάρτητα από την κωδικοποίηση.

Τώρα γνωρίζετε πόσοι χαρακτήρες υπάρχουν στην κωδικοποίηση ASCII και πώς και γιατί αναπτύχθηκε. Φυσικά, σήμερα το πρότυπο Unicode είναι πιο διαδεδομένο στον κόσμο. Ωστόσο, δεν πρέπει να ξεχνάμε ότι βασίζεται στο ASCII, επομένως πρέπει να εκτιμηθεί η συμβολή των προγραμματιστών του στον τομέα της πληροφορικής.

Επικάλυψη χαρακτήρων

Ο χαρακτήρας BS (backspace) επιτρέπει στον εκτυπωτή να εκτυπώνει έναν χαρακτήρα πάνω στον άλλο. Το ASCII προέβλεπε την προσθήκη διακριτικών στα γράμματα με αυτόν τον τρόπο, για παράδειγμα:

  • α ΒΣ "→ ά
  • a BS ` → à
  • ένα BS ^ → â
  • o BS / → ø
  • c BS , → ç
  • n BS ~ → с

Σημείωμα: σε παλιές γραμματοσειρές, η απόστροφη σχεδιάστηκε λοξά προς τα αριστερά και η περισπίδα ~ μετατοπίστηκε προς τα πάνω, έτσι απλά ταιριάζουν με τον ρόλο μιας οξείας και μιας περισπωμένης στην κορυφή.

Εάν το ίδιο σύμβολο υπερτίθεται σε ένα σύμβολο, το αποτέλεσμα είναι τολμηρός, και αν μια υπογράμμιση υπερτίθεται σε έναν χαρακτήρα, τότε προκύπτει υπογραμμισμένο κείμενο.

  • a BS a → ένα
  • aBS_→ ένα

Σημείωμα: αυτό χρησιμοποιείται για παράδειγμα σε σύστημα βοήθειαςάνθρωπος.

Εθνικές παραλλαγές ASCII

Το πρότυπο ISO 646 (ECMA-6) προβλέπει τη δυνατότητα τοποθέτησης εθνικών συμβόλων στη θέση τους @ [ \ ] ^ ` { | } ~ . Εκτός από αυτό, επί τόπου # μπορεί να αναρτηθεί £ , και στη θέση του $ - ¤ . Αυτό το σύστημα είναι κατάλληλο για ευρωπαϊκές γλώσσες όπου χρειάζονται μόνο μερικοί επιπλέον χαρακτήρες. Παραλλαγή ASCIIχωρίς εθνικούς χαρακτήρες ονομάζεται US-ASCII ή "Διεθνής Έκδοση Αναφοράς".

Στη συνέχεια, αποδείχθηκε ότι ήταν πιο βολικό να χρησιμοποιείτε κωδικοποιήσεις 8-bit (σελίδες κώδικα), όπου το κάτω μισό του πίνακα κωδικών (0-127) καταλαμβάνεται από χαρακτήρες US-ASCII και το πάνω μισό (128-255) με πρόσθετους χαρακτήρες, συμπεριλαμβανομένου ενός συνόλου εθνικών χαρακτήρων. Έτσι, το πάνω μισό του πίνακα ASCII, πριν από την ευρεία υιοθέτηση του Unicode, χρησιμοποιήθηκε ενεργά για να αναπαραστήσει εντοπισμένους χαρακτήρες, γράμματα της τοπικής γλώσσας. Απουσία ενιαίο πρότυποΗ τοποθέτηση κυριλλικών χαρακτήρων στον πίνακα ASCII προκάλεσε πολλά προβλήματα με τις κωδικοποιήσεις (KOI-8, Windows-1251 και άλλα). Άλλες γλώσσες με μη λατινικές γραφές υπέφεραν επίσης από πολλές διαφορετικές κωδικοποιήσεις.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .ΕΝΑ .ΣΙ .ΝΤΟ .ΡΕ .ΜΙ .ΦΑ
0. NUL SOM ΕΟΑ ΕΟΜ EQT W.R.U. RU ΚΟΥΔΟΥΝΙ BKSP HT LF VT FF CR ΕΤΣΙ ΣΙ.
1. DC 0 DC 1 DC 2 DC 3 DC 4 ΠΛΑΝΩΜΑΙ ΣΥΓΧΡΟΝΙΣΜΟΣ L.E.M. S 0 S 1 S 2 S 3 S 4 S 5 S 6 S 7
2.
3.
4. ΚΕΝΟ ! " # $ % & " ( ) * + , - . /
5. 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
6.
7.
8.
9.
ΕΝΑ. @ ΕΝΑ σι ντο ρε μι φά σολ H εγώ J Κ μεγάλο Μ Ν Ο
ΣΙ. Π Q R μικρό Τ U V W Χ Υ Ζ [ \ ]
ΝΤΟ.
ΡΕ.
ΜΙ. ένα σι ντο ρε μι φά σολ η εγώ ι κ μεγάλο m n ο
ΦΑ. σελ q r μικρό t u v w x y z ESC ΔΕΛ

Σε εκείνους τους υπολογιστές όπου η ελάχιστη διευθυνσιοδοτούμενη μονάδα μνήμης ήταν μια λέξη 36-bit, αρχικά χρησιμοποιήθηκαν χαρακτήρες 6-bit (1 λέξη = 6 χαρακτήρες). Μετά τη μετάβαση στο ASCII, τέτοιοι υπολογιστές άρχισαν να περιέχουν είτε 5 χαρακτήρες επτά bit (1 bit έμεινε επιπλέον) είτε 4 χαρακτήρες εννέα bit σε μία λέξη.

Οι κωδικοί ASCII χρησιμοποιούνται επίσης για τον προσδιορισμό του πλήκτρου που θα πατηθεί κατά τον προγραμματισμό. Για ένα τυπικό πληκτρολόγιο QWERTY, ο πίνακας κωδικών μοιάζει με αυτό:

[Κωδικοποιήσεις 8-bit: ASCII, KOI-8R και CP1251] Οι πρώτοι πίνακες κωδικοποίησης που δημιουργήθηκαν στις Ηνωμένες Πολιτείες δεν χρησιμοποιούσαν το όγδοο bit σε ένα byte. Το κείμενο αντιπροσωπεύτηκε ως μια ακολουθία byte, αλλά το όγδοο bit δεν ελήφθη υπόψη (χρησιμοποιήθηκε για επίσημους σκοπούς).

Ο πίνακας έχει γίνει ένα γενικά αποδεκτό πρότυπο ASCII(American Standard Code for Information Interchange). Οι πρώτοι 32 χαρακτήρες του πίνακα ASCII (00 έως 1F) χρησιμοποιήθηκαν για χαρακτήρες που δεν εκτυπώνονται. Σχεδιάστηκαν για να ελέγχουν μια συσκευή εκτύπωσης κ.λπ. Οι υπόλοιποι - από 20 έως 7 F - είναι κανονικοί (εκτυπώσιμοι) χαρακτήρες.

Πίνακας 1 - Κωδικοποίηση ASCII

ΔεκΓοητεύωΟκτΑπανθρακώνωΠεριγραφή
0 0 000 άκυρος
1 1 001 έναρξη του τίτλου
2 2 002 αρχή του κειμένου
3 3 003 τέλος του κειμένου
4 4 004 τέλος μετάδοσης
5 5 005 έρευνα
6 6 006 αναγνωρίζω
7 7 007 κουδούνι
8 8 010 backspace
9 9 011 οριζόντια καρτέλα
10 ΕΝΑ 012 νέα γραμμή
11 σι 013 κάθετη καρτέλα
12 ντο 014 νέα σελίδα
13 ρε 015 επιστροφή άμαξα
14 μι 016 μετατόπιση έξω
15 φά 017 μετατόπιση μέσα
16 10 020 διαφυγή συνδέσμου δεδομένων
17 11 021 έλεγχος συσκευής 1
18 12 022 έλεγχος συσκευής 2
19 13 023 έλεγχος συσκευής 3
20 14 024 έλεγχος συσκευής 4
21 15 025 αρνητική αναγνώριση
22 16 026 σύγχρονη αδράνεια
23 17 027 τέλος του μεταφρ. φραγμός
24 18 030 ματαίωση
25 19 031 τέλος του μέσου
26 032 υποκατάστατο
27 033 διαφυγή
28 1C 034 διαχωριστικό αρχείων
29 035 διαχωριστικό ομάδας
30 036 διαχωριστικό ρεκόρ
31 1ΣΤ 037 διαχωριστικό μονάδων
32 20 040 χώρος
33 21 041 !
34 22 042 "
35 23 043 #
36 24 044 $
37 25 045 %
38 26 046 &
39 27 047 "
40 28 050 (
41 29 051 )
42 052 *
43 053 +
44 2C 054 ,
45 2D 055 -
46 056 .
47 2ΣΤ 057 /
48 30 060 0
49 31 061 1
50 32 062 2
51 33 063 3
52 34 064 4
53 35 065 5
54 36 066 6
55 37 067 7
56 38 070 8
57 39 071 9
58 072 :
59 073 ;
60 3C 074 <
61 3D 075 =
62 076 >
63 3F 077 ?
ΔεκΓοητεύωΟκτΑπανθρακώνω
64 40 100 @
65 41 101 ΕΝΑ
66 42 102 σι
67 43 103 ντο
68 44 104 ρε
69 45 105 μι
70 46 106 φά
71 47 107 σολ
72 48 110 H
73 49 111 εγώ
74 112 J
75 113 Κ
76 4C 114 μεγάλο
77 4D 115 Μ
78 116 Ν
79 4F 117 Ο
80 50 120 Π
81 51 121 Q
82 52 122 R
83 53 123 μικρό
84 54 124 Τ
85 55 125 U
86 56 126 V
87 57 127 W
88 58 130 Χ
89 59 131 Υ
90 132 Ζ
91 133 [
92 5C 134 \
93 135 ]
94 136 ^
95 5F 137 _
96 60 140 `
97 61 141 ένα
98 62 142 σι
99 63 143 ντο
100 64 144 ρε
101 65 145 μι
102 66 146 φά
103 67 147 σολ
104 68 150 η
105 69 151 εγώ
106 152 ι
107 153 κ
108 6C 154 μεγάλο
109 6D 155 m
110 156 n
111 6F 157 ο
112 70 160 σελ
113 71 161 q
114 72 162 r
115 73 163 μικρό
116 74 164 t
117 75 165 u
118 76 166 v
119 77 167 w
120 78 170 x
121 79 171 y
122 172 z
123 173 {
124 7C 174 |
125 175 }
126 176 ~
127 7F 177 ΔΕΛ

Όπως είναι εύκολο να δούμε, μόνο σε αυτήν την κωδικοποίηση λατινικά γράμματα, και αυτά που χρησιμοποιούνται στα αγγλικά. Υπάρχουν επίσης αριθμητικά και άλλα σύμβολα υπηρεσίας. Δεν υπάρχουν όμως ούτε ρωσικά γράμματα, ούτε καν ειδικά λατινικά για τα γερμανικά ή τα γαλλικά. Αυτό είναι εύκολο να εξηγηθεί - η κωδικοποίηση αναπτύχθηκε ακριβώς όπως Αμερικανικό πρότυπο. Καθώς οι υπολογιστές άρχισαν να χρησιμοποιούνται σε όλο τον κόσμο, χρειάστηκε να κωδικοποιηθούν και άλλοι χαρακτήρες.

Για να γίνει αυτό, αποφασίστηκε να χρησιμοποιηθεί το όγδοο bit σε κάθε byte. Αυτό έκανε διαθέσιμες 128 περισσότερες τιμές (από 80 έως FF) που θα μπορούσαν να χρησιμοποιηθούν για την κωδικοποίηση χαρακτήρων. Ο πρώτος από τους πίνακες των οκτώ bit είναι "εκτεταμένος ASCII" ( Εκτεταμένο ASCII) - περιλαμβάνεται διάφορες επιλογέςΛατινικοί χαρακτήρες που χρησιμοποιούνται σε ορισμένες γλώσσες της Δυτικής Ευρώπης. Περιείχε επίσης άλλα πρόσθετα σύμβολα, συμπεριλαμβανομένων ψευδογραφικών.

Οι ψευδογραφικοί χαρακτήρες επιτρέπουν, μόνο με την εμφάνιση χαρακτήρες κειμένου, παρέχει κάποια εμφάνιση γραφικών. Χρησιμοποιώντας ψευδογραφήματα, για παράδειγμα, λειτουργεί ένα πρόγραμμα ελέγχου ΜΑΚΡΙΑ αρχείαΔιευθυντής.

Δεν υπήρχαν ρωσικά γράμματα στον πίνακα Extended ASCII. Η Ρωσία (πρώην ΕΣΣΔ) και άλλες χώρες δημιούργησαν τις δικές τους κωδικοποιήσεις που επέτρεψαν την αναπαράσταση συγκεκριμένων «εθνικών» χαρακτήρων σε αρχεία κειμένου 8-bit - λατινικά γράμματα της πολωνικής και τσεχικής γλώσσας, κυριλλικά (συμπεριλαμβανομένων των ρωσικών γραμμάτων) και άλλα αλφάβητα.

Σε όλες τις κωδικοποιήσεις που έχουν γίνει ευρέως διαδεδομένες, οι πρώτοι 127 χαρακτήρες (δηλαδή η τιμή byte με το όγδοο bit ίσο με 0) είναι ίδιοι με το ASCII. Έτσι, ένα αρχείο ASCII λειτουργεί σε οποιαδήποτε από αυτές τις κωδικοποιήσεις. επιστολές Αγγλική γλώσσαπαρουσιάζονται εξίσου.

Οργάνωση ISO(Διεθνής Οργανισμός Τυποποίησης) υιοθέτησε μια ομάδα προτύπων ISO 8859. Ορίζει κωδικοποιήσεις 8-bit για διαφορετικές ομάδεςγλώσσες. Έτσι, το ISO 8859-1 είναι ένας εκτεταμένος πίνακας ASCII για τις ΗΠΑ και τη Δυτική Ευρώπη. Και το ISO 8859-5 είναι ένας πίνακας για το κυριλλικό αλφάβητο (συμπεριλαμβανομένου του ρωσικού).

Ωστόσο, για ιστορικούς λόγους, η κωδικοποίηση ISO 8859-5 δεν ριζώθηκε. Στην πραγματικότητα, οι ακόλουθες κωδικοποιήσεις χρησιμοποιούνται για τη ρωσική γλώσσα:

Κωδικός Σελίδα 866 ( CP866), γνωστός και ως "DOS", γνωστός και ως "εναλλακτική κωδικοποίηση GOST". Χρησιμοποιείται ευρέως μέχρι τα μέσα της δεκαετίας του '90. χρησιμοποιείται πλέον σε περιορισμένο βαθμό. Πρακτικά δεν χρησιμοποιείται για τη διανομή κειμένων στο Διαδίκτυο.
- KOI-8. Αναπτύχθηκε τη δεκαετία του 70-80. Είναι ένα γενικά αποδεκτό πρότυπο για τη μετάδοση μηνυμάτων αλληλογραφίας σε Ρωσικό Διαδίκτυο. Χρησιμοποιείται ευρέως σε λειτουργικά συστήματα Οικογένεια Unix, συμπεριλαμβανομένου του Linux. Η έκδοση KOI-8, σχεδιασμένη για ρωσικά, ονομάζεται KOI-8R; Υπάρχουν εκδόσεις για άλλες κυριλλικές γλώσσες (για παράδειγμα, το KOI8-U είναι μια έκδοση για την ουκρανική γλώσσα).
- Κωδικός Σελίδα 1251, CP1251,Windows-1251. Αναπτύχθηκε από τη Microsoft για την υποστήριξη της ρωσικής γλώσσας στα Windows.

Το κύριο πλεονέκτημα του CP866 ήταν η διατήρηση των ψευδο-γραφικών χαρακτήρων στα ίδια σημεία όπως στο Extended ASCII. Επομένως, τα ξένα θα μπορούσαν να λειτουργήσουν χωρίς αλλαγές προγράμματα κειμένου, για παράδειγμα, το περίφημο Norton Commander. Το CP866 χρησιμοποιείται πλέον για προγράμματα Windows που εκτελούνται σε παράθυρα κειμένου ή σε λειτουργία κειμένου πλήρους οθόνης, συμπεριλαμβανομένου του FAR Manager.

Κείμενα σε CP866 τα τελευταία χρόνιαείναι αρκετά σπάνια (αλλά χρησιμοποιείται για την κωδικοποίηση των ρωσικών ονομάτων αρχείων στα Windows). Επομένως, θα σταθούμε λεπτομερέστερα σε δύο άλλες κωδικοποιήσεις - KOI-8R και CP1251.



Όπως μπορείτε να δείτε, στον πίνακα κωδικοποίησης CP1251, τα ρωσικά γράμματα είναι ταξινομημένα με αλφαβητική σειρά (με εξαίρεση, ωστόσο, το γράμμα Ε). Χάρη σε αυτή την τοποθεσία προγράμματα υπολογιστώνΕίναι πολύ εύκολο να ταξινομηθεί αλφαβητικά.

Αλλά στο KOI-8R η σειρά των ρωσικών γραμμάτων φαίνεται τυχαία. Αλλά στην πραγματικότητα αυτό δεν ισχύει.

Σε πολλά παλαιότερα προγράμματα, το 8ο bit χάθηκε κατά την επεξεργασία ή τη μετάδοση κειμένου. (Τώρα τέτοια προγράμματα είναι πρακτικά «εξαφανισμένα», αλλά στα τέλη της δεκαετίας του '80 - αρχές της δεκαετίας του '90 ήταν ευρέως διαδεδομένα). Για να λάβετε μια τιμή 7-bit από μια τιμή 8-bit, απλώς αφαιρέστε το 8 από το πιο σημαντικό ψηφίο. για παράδειγμα, το E1 γίνεται 61.

Συγκρίνετε τώρα το KOI-8R με τον πίνακα ASCII (Πίνακας 1). Θα διαπιστώσετε ότι τα ρωσικά γράμματα τοποθετούνται σε σαφή αντιστοιχία με τα λατινικά. Εάν εξαφανιστεί το όγδοο bit, τα πεζά ρωσικά γράμματα μετατρέπονται σε κεφαλαία λατινικά γράμματα και τα κεφαλαία ρωσικά γράμματα σε πεζά λατινικά γράμματα. Έτσι, το E1 στο KOI-8 είναι το ρωσικό "A", ενώ το 61 στο ASCII είναι το λατινικό "a".

Έτσι, το KOI-8 σάς επιτρέπει να διατηρείτε την αναγνωσιμότητα του ρωσικού κειμένου όταν χάνεται το 8ο bit. Το "γεια σε όλους" γίνεται "pRIWET WSEM".

ΣΕ πρόσφαταΚαι αλφαβητική σειράΗ διάταξη των χαρακτήρων στον πίνακα κωδικοποίησης και η αναγνωσιμότητα με την απώλεια του 8ου bit, έχουν χάσει την αποφασιστική τους σημασία. Όγδοο μπιτ μέσα σύγχρονους υπολογιστέςδεν χάνεται κατά τη μετάδοση ή την επεξεργασία. Και η αλφαβητική ταξινόμηση γίνεται λαμβάνοντας υπόψη την κωδικοποίηση, και όχι απλή σύγκρισηκωδικούς (Παρεμπιπτόντως, οι κωδικοί CP1251 δεν είναι πλήρως διατεταγμένοι αλφαβητικά - το γράμμα Ε δεν είναι στη θέση του).

Λόγω του γεγονότος ότι υπάρχουν δύο κοινές κωδικοποιήσεις, όταν εργάζεστε με το Διαδίκτυο (ταχυδρομείο, περιήγηση σε ιστότοπους), μπορείτε μερικές φορές να δείτε ένα σύνολο γραμμάτων χωρίς νόημα αντί για ρωσικό κείμενο. Για παράδειγμα, "Είμαι ο SBYUFEMHEL". Αυτές είναι απλώς οι λέξεις «με σεβασμό». αλλά κωδικοποιήθηκαν σε κωδικοποίηση CP1251 και ο υπολογιστής αποκωδικοποίησε το κείμενο χρησιμοποιώντας τον πίνακα KOI-8. Αν, αντίθετα, οι ίδιες λέξεις κωδικοποιούνταν στο KOI-8 και ο υπολογιστής αποκωδικοποιούσε το κείμενο σύμφωνα με τον πίνακα CP1251, το αποτέλεσμα θα ήταν "U KHBTSEOYEN".

Μερικές φορές συμβαίνει ότι ένας υπολογιστής αποκρυπτογραφεί γράμματα στη ρωσική γλώσσα χρησιμοποιώντας έναν πίνακα που δεν προορίζεται για τη ρωσική γλώσσα. Στη συνέχεια, αντί για ρωσικά γράμματα, εμφανίζεται ένα σύνολο συμβόλων χωρίς νόημα (για παράδειγμα, λατινικά γράμματα των γλωσσών της Ανατολικής Ευρώπης). Συχνά ονομάζονται «κροκόζυβρες».

Στις περισσότερες περιπτώσεις σύγχρονα προγράμματανα αντιμετωπίσει τον προσδιορισμό των κωδικοποιήσεων των εγγράφων του Διαδικτύου ( emailsκαι ιστοσελίδες) ανεξάρτητα. Αλλά μερικές φορές "αστοχούν" και μετά μπορείτε να δείτε περίεργες ακολουθίες ρωσικών γραμμάτων ή "krokozyabry". Κατά κανόνα, σε μια τέτοια κατάσταση, για να εμφανίσετε πραγματικό κείμενο στην οθόνη, αρκεί να επιλέξετε την κωδικοποίηση χειροκίνητα στο μενού προγράμματος.

Για αυτό το άρθρο χρησιμοποιήθηκαν πληροφορίες από τη σελίδα http://open-office.edusite.ru/TextProcessor/p5aa1.html.

Υλικό από τον ιστότοπο:

Παρεμπιπτόντως, στον ιστότοπό μας μπορείτε να μετατρέψετε οποιοδήποτε κείμενο σε δεκαδικό, δεκαεξαδικό, δυάδικος κώδικαςχρησιμοποιώντας την ηλεκτρονική αριθμομηχανή κωδικών.

πίνακας ASCII

ASCII (American Standard Code for Information Interchange)

Συνοπτικός πίνακας κωδικών ASCII

Πίνακας κωδικών χαρακτήρων ASCII Windows (Win-1251)

Σύμβολο

ειδικός. Κατάταξη εις πίνακα

ειδικός. LF (Μεταφορά Επιστροφής)

ειδικός. CR( Νέα γραμμή)

συμπλέκτης SP (Διάστημα)

Σύμβολο

Εκτεταμένος πίνακας κωδικών ASCII

Μορφοποίηση συμβόλων.

Backspace (Επιστροφή ενός χαρακτήρα). Υποδεικνύει ότι ο μηχανισμός εκτύπωσης ή ο κέρσορας της οθόνης μετακινείται μία θέση πίσω.

Οριζόντια Πίνακας. Υποδεικνύει τη μετακίνηση της μηχανής εκτύπωσης ή του δρομέα της οθόνης στην επόμενη προδιαγεγραμμένη "καρτέλα".

Τροφοδοσία γραμμής. Υποδεικνύει κίνηση του μηχανισμού εκτύπωσης ή του δρομέα της οθόνης στην αρχή επόμενη γραμμή(μία γραμμή κάτω).

Κάθετη Πινακοποίηση. Υποδεικνύει την κίνηση της μηχανής εκτύπωσης ή του δρομέα της οθόνης στην επόμενη ομάδα γραμμών.

Ροή φόρμας. Υποδεικνύει την κίνηση του μηχανισμού εκτύπωσης ή του δρομέα της οθόνης στην αρχική θέση επόμενη σελίδα, φόρμα ή οθόνη.

Επιστροφή άμαξα. Υποδεικνύει τη μετακίνηση του μηχανισμού εκτύπωσης ή του δρομέα της οθόνης στην αρχική (αριστερά) θέση της τρέχουσας γραμμής.

Μεταφορά δεδομένων.

Έναρξη Επικεφαλίδας. Χρησιμοποιείται για τον ορισμό της αρχής μιας κεφαλίδας, η οποία μπορεί να περιέχει πληροφορίες δρομολόγησης ή μια διεύθυνση.

Έναρξη κειμένου. Εμφανίζει την αρχή του κειμένου και ταυτόχρονα το τέλος του τίτλου.

Τέλος κειμένου. Ισχύει όταν τελειώνει κείμενο που ξεκινά με τον χαρακτήρα STX.

Ερευνα. Αίτημα για δεδομένα αναγνώρισης (όπως "Ποιος είσαι;") από έναν απομακρυσμένο σταθμό.

Αναγνωρίζω. Η συσκευή λήψης μεταδίδει αυτόν τον χαρακτήρα στον αποστολέα ως επιβεβαίωση της επιτυχούς λήψης των δεδομένων.

Αρνητική Αναγνώριση. Η συσκευή λήψης μεταδίδει αυτόν τον χαρακτήρα στον αποστολέα σε περίπτωση άρνησης (αστοχίας) λήψης δεδομένων.

Σύγχρονη/Αδράνεια. Χρησιμοποιείται σε συγχρονισμένα συστήματα μετάδοσης. Όταν δεν υπάρχει μετάδοση δεδομένων, το σύστημα στέλνει συνεχώς σύμβολα SYN για να εξασφαλίσει το συγχρονισμό.

Τέλος του μπλοκ μετάδοσης. Υποδεικνύει το τέλος ενός μπλοκ δεδομένων για λόγους επικοινωνίας. Χρησιμοποιείται για χωρισμό σε ξεχωριστά μπλοκ μεγάλους όγκουςδεδομένα.

Διαιρώντας σημάδια κατά τη μετάδοση πληροφοριών.

Άλλα σύμβολα.

Ακυρος. (Χωρίς χαρακτήρα - χωρίς δεδομένα). Χρησιμοποιείται για μετάδοση όταν δεν υπάρχουν δεδομένα.

Κουδούνι (Κλήση). Χρησιμοποιείται για τον έλεγχο συσκευών συναγερμού.

Shift Out. Δείχνει ότι όλα τα επόμενα συνδυασμούς κωδικώνπρέπει να ερμηνεύεται σύμφωνα με το σύνολο εξωτερικών χαρακτήρων πριν από την άφιξη του χαρακτήρα SI.

Shift In. Υποδεικνύει ότι οι επόμενοι συνδυασμοί κωδικών πρέπει να ερμηνεύονται σύμφωνα με τυπικό σετχαρακτήρες.

Σύνδεσμος δεδομένωνΔιαφυγή. Αλλαγή της σημασίας των παρακάτω χαρακτήρων. Ισχύει για πρόσθετος έλεγχοςή να μεταδώσει έναν αυθαίρετο συνδυασμό bit.

DC1, DC2, DC3, DC4

Χειριστήρια συσκευής. Σύμβολα για τη λειτουργία βοηθητικών συσκευών (ειδικές λειτουργίες).

Ματαίωση. Υποδεικνύει ότι τα δεδομένα που προηγούνται αυτού του χαρακτήρα σε ένα μήνυμα ή μπλοκ θα πρέπει να αγνοηθούν (συνήθως εάν εντοπιστεί σφάλμα).

Τέλος Μέσου. Υποδεικνύει το φυσικό άκρο μιας ταινίας ή άλλου αποθηκευτικού μέσου

Υποκατάστατο. Χρησιμοποιείται για την αντικατάσταση ενός λανθασμένου ή μη έγκυρου χαρακτήρα.

Escape (Επέκταση). Χρησιμοποιείται για την επέκταση του κώδικα υποδεικνύοντας ότι ένας επόμενος χαρακτήρας έχει μια εναλλακτική σημασία.

Χώρος. Ένας μη εκτυπωτικός χαρακτήρας που χρησιμοποιείται για το διαχωρισμό λέξεων ή τη μετακίνηση της μηχανής εκτύπωσης ή του δρομέα της οθόνης προς τα εμπρός μία θέση.

Διαγράφω. Χρησιμοποιείται για την αφαίρεση (διαγραφή) του προηγούμενου χαρακτήρα σε ένα μήνυμα



Συνιστούμε να διαβάσετε

Κορυφή