Τι είναι ο πίνακας κωδικών ascii. Κωδικοποίηση ASCII (Αμερικανικός τυπικός κώδικας για ανταλλαγή πληροφοριών) - βασική κωδικοποίηση κειμένου για το λατινικό αλφάβητο

Ηλεκτρονική 17.09.2019

Επισκόπηση προγράμματος Η έκδοση υπολογιστή του Microsoft Excel Viewer θα επιτρέψει...

Το Unicode (Unicode στα Αγγλικά) είναι ένα πρότυπο κωδικοποίησης χαρακτήρων. Με απλά λόγια, αυτός είναι ένας πίνακας αντιστοιχίας μεταξύ χαρακτήρων κειμένου ( , γράμματα, στοιχεία στίξης) δυαδικοί κώδικες. Ο υπολογιστής κατανοεί μόνο την ακολουθία των μηδενικών και των μονάδων. Για να γνωρίζει τι ακριβώς πρέπει να εμφανίζει στην οθόνη, είναι απαραίτητο να εκχωρήσετε σε κάθε χαρακτήρα τον δικό του μοναδικό αριθμό. Στη δεκαετία του ογδόντα, οι χαρακτήρες κωδικοποιούνταν σε ένα byte, δηλαδή οκτώ bit (κάθε bit είναι 0 ή 1). Έτσι, αποδείχθηκε ότι ένας πίνακας (γνωστός και ως κωδικοποίηση ή σετ) μπορεί να φιλοξενήσει μόνο 256 χαρακτήρες. Αυτό μπορεί να μην είναι αρκετό ούτε για μία γλώσσα. Ως εκ τούτου, εμφανίστηκαν πολλές διαφορετικές κωδικοποιήσεις, η σύγχυση με την οποία συχνά οδηγούσε στην εμφάνιση κάποιων περίεργων ασυναρτησιών στην οθόνη αντί για αναγνώσιμο κείμενο. Απαιτήθηκε ένα ενιαίο πρότυπο, το οποίο έγινε το Unicode. Η πιο χρησιμοποιούμενη κωδικοποίηση είναι το UTF-8 (Unicode Transformation Format), το οποίο χρησιμοποιεί 1 έως 4 byte για να αναπαραστήσει έναν χαρακτήρα.

Σύμβολα

Οι χαρακτήρες στους πίνακες Unicode αριθμούνται με δεκαεξαδικούς αριθμούς. Για παράδειγμα, το κυριλλικό κεφαλαίο γράμμα M χαρακτηρίζεται U+041C. Αυτό σημαίνει ότι βρίσκεται στη διασταύρωση της γραμμής 041 και της στήλης C. Μπορείτε απλά να το αντιγράψετε και μετά να το επικολλήσετε κάπου. Για να μην ψάξετε σε μια λίστα πολλών χιλιομέτρων, θα πρέπει να χρησιμοποιήσετε την αναζήτηση. Όταν μεταβείτε στη σελίδα συμβόλων, θα δείτε τον αριθμό Unicode και τον τρόπο γραφής του με διαφορετικές γραμματοσειρές. Μπορείτε να εισαγάγετε το ίδιο το σύμβολο στη γραμμή αναζήτησης, ακόμα κι αν αντ' αυτού έχει σχεδιαστεί ένα τετράγωνο, τουλάχιστον για να μάθετε τι ήταν. Επίσης, σε αυτόν τον ιστότοπο υπάρχουν ειδικά (και τυχαία) σετ εικονιδίων ίδιου τύπου, που συλλέγονται από διαφορετικές ενότητες, για ευκολία στη χρήση.

Το πρότυπο Unicode είναι διεθνές. Περιλαμβάνει χαρακτήρες από όλα σχεδόν τα σενάρια του κόσμου. Συμπεριλαμβανομένων αυτών που δεν χρησιμοποιούνται πλέον. Αιγυπτιακά ιερογλυφικά, γερμανικοί ρούνοι, γραφή των Μάγια, σφηνοειδής γραφή και αλφάβητα αρχαίων κρατών. Παρουσιάζονται επίσης ονομασίες βαρών και μέτρων, μουσική σημειογραφία και μαθηματικές έννοιες.

Η ίδια η κοινοπραξία Unicode δεν εφευρίσκει νέους χαρακτήρες. Τα εικονίδια που βρίσκουν τη χρήση τους στην κοινωνία προστίθενται στους πίνακες. Για παράδειγμα, το σύμβολο του ρουβλίου χρησιμοποιήθηκε ενεργά για έξι χρόνια πριν προστεθεί στο Unicode. Τα εικονογράμματα emoji (emoticons) χρησιμοποιήθηκαν επίσης για πρώτη φορά ευρέως στην Ιαπωνία προτού συμπεριληφθούν στην κωδικοποίηση. Αλλά τα εμπορικά σήματα και τα λογότυπα της εταιρείας δεν προστίθενται κατ' αρχήν. Ακόμη και κοινά όπως το Apple apple ή η σημαία των Windows. Μέχρι σήμερα, περίπου 120 χιλιάδες χαρακτήρες κωδικοποιούνται στην έκδοση 8.0.

Κάθε υπολογιστής έχει το δικό του σύνολο χαρακτήρων που υλοποιεί. Αυτό το σετ περιέχει 26 κεφαλαία και πεζά γράμματα, αριθμούς και ειδικούς χαρακτήρες (κουκκίδα, κενό κ.λπ.). Όταν μετατρέπονται σε ακέραιους αριθμούς, τα σύμβολα ονομάζονται κωδικοί. Τα πρότυπα αναπτύχθηκαν έτσι ώστε οι υπολογιστές να έχουν τα ίδια σύνολα κωδικών.

Πρότυπο ASCII

Ο ASCII (American Standard Code for Information Interchange) είναι ένας αμερικανικός τυπικός κώδικας για την ανταλλαγή πληροφοριών. Κάθε χαρακτήρας ASCII έχει 7 bit, επομένως ο μέγιστος αριθμός χαρακτήρων είναι 128 (Πίνακας 1). Οι κωδικοί 0 έως 1F είναι χαρακτήρες ελέγχου και δεν εκτυπώνονται. Για τη μετάδοση δεδομένων απαιτούνται πολλοί μη εκτυπώσιμοι χαρακτήρες ASCII. Για παράδειγμα, ένα μήνυμα μπορεί να αποτελείται από την αρχή του χαρακτήρα κεφαλίδας SOH, την ίδια την κεφαλίδα και την αρχή του χαρακτήρα κειμένου STX, το ίδιο το κείμενο και το τέλος του χαρακτήρα κειμένου ETX και το τέλος του χαρακτήρα μετάδοσης EOT. Ωστόσο, τα δεδομένα μέσω του δικτύου μεταδίδονται σε πακέτα, τα οποία είναι υπεύθυνα για την αρχή και το τέλος της μετάδοσης. Έτσι, οι μη εκτυπώσιμοι χαρακτήρες δεν χρησιμοποιούνται σχεδόν ποτέ.

Πίνακας 1 - Πίνακας κωδικών ASCII

Αριθμός	Ομάδα	Εννοια	Αριθμός	Ομάδα	Εννοια
0	NUL	Μηδενικός δείκτης	10	DLE	Έξοδος από το σύστημα μετάδοσης
1	SOH	αρχή του τίτλου	11	DC1	Διαχείριση συσκευών
2	STX	Αρχή κειμένου	12	DC2	Διαχείριση συσκευών
3	ETX	Τέλος κειμένου	13	DC3	Διαχείριση συσκευών
4	ΕΟΤ	Τέλος μετάδοσης	14	DC4	Διαχείριση συσκευών
5	ACK	Αίτηση	15	Ν.Α.Κ.	Μη επιβεβαίωση λήψης
6	BEL	Επιβεβαίωση αποδοχής	16	ΣΥΝ	Απλός
7	B.S.	Σύμβολο κουδουνιού	17	ETB	Τέλος μπλοκ μετάδοσης
8	HT	Βήμα πίσω	18	ΚΟΥΤΙ	Σημάδι
9	LF	Οριζόντιος πίνακας	19	Η Ε.Μ.	Τέλος ΜΜΕ
ΕΝΑ	VT	Τροφοδοσία γραμμής	1Α	ΥΠΟ	Υπογεγραμμένη
σι	FF	Κάθετη καρτέλα	1Β	ESC	Εξοδος
ντο	CR	Μετάφραση σελίδας	1C	FS	Διαχωριστής αρχείων
ρε	ΕΤΣΙ	Επιστροφή άμαξα	1Δ	Γ.Σ.	Διαχωριστής ομάδας
μι	ΣΙ.	Μετάβαση σε πρόσθετο μητρώο	1Ε	R.S.	Διαχωριστής εγγραφών
	ΣΙ.	Μετάβαση σε τυπική θήκη	1ΣΤ	ΜΑΣ	Διαχωριστής μονάδας

Αριθμός	Σύμβολο	Αριθμός	Σύμβολο	Αριθμός	Σύμβολο	Αριθμός	Σύμβολο	Αριθμός	Σύμβολο	Αριθμός	Σύμβολο
20	χώρος	30	0	40	@	50	Π	60	.	70	σελ
21	!	31	1	41	ΕΝΑ	51	Q	61	ένα	71	q
22	‘	32	2	42	σι	52	R	62	σι	72	r
23	#	33	3	43	ντο	53	μικρό	63	ντο	73	μικρό
24	φ	34	4	44	ρε	54	Τ	64	ρε	74	t
25	%	35	5	45	μι	55	ΚΑΙ	65	μι	75	Και
26	&	36	6	46	φά	56	V	66	φά	76	v
27	‘	37	7	47	σολ	57	W	67	σολ	77	w
28	(	38	8	48	H	58	Χ	68	η	78	x
29	)	39	9	49	εγώ	59	Υ	69	εγώ	70	y
2Α	‘	3Α	;	4Α	J	5Α	Ζ	6Α	ι	7Α	z
2Β	+	3Β	;	4Β	Κ	5Β	[	6Β	κ	7Β	{
2C	‘	3C	<	4C	μεγάλο	5C	\	6C	μεγάλο	7C	\|
2D	—	3D	=	4D	Μ	5Δ	]	6D	m	7Δ	}
2Ε		3Ε	>	4Ε	Ν	5Ε	—	6Ε	n	7Ε	~
2ΣΤ	/	3F	σολ	4F	Ο	5F	_	6F	ο	7F	ΔΕΛ

Πρότυπο Unicode

Η προηγούμενη κωδικοποίηση είναι καλή για τα αγγλικά, αλλά δεν είναι βολική για άλλες γλώσσες. Για παράδειγμα, τα γερμανικά έχουν umlaut και τα γαλλικά έχουν υπερκείμενους. Ορισμένες γλώσσες έχουν εντελώς διαφορετικά αλφάβητα. Η πρώτη προσπάθεια επέκτασης του ASCII ήταν το IS646, το οποίο επέκτεινε την προηγούμενη κωδικοποίηση κατά 128 επιπλέον χαρακτήρες. Προστέθηκαν λατινικά γράμματα με πινελιές και διακριτικά και έλαβαν το όνομα - Λατινικά 1. Η επόμενη προσπάθεια ήταν IS 8859 - που περιείχε μια κωδικοσελίδα. Υπήρχαν επίσης προσπάθειες για επεκτάσεις, αλλά αυτό δεν ήταν καθολικό. Δημιουργήθηκε κωδικοποίηση UNICODE (είναι 10646). Η ιδέα πίσω από την κωδικοποίηση είναι να εκχωρηθεί σε κάθε χαρακτήρα μια σταθερή τιμή 16-bit, η οποία ονομάζεται - δείκτη κώδικα. Συνολικά υπάρχουν 65536 δείκτες. Για να εξοικονομήσουμε χώρο, χρησιμοποιήσαμε το Latin-1 για τους κωδικούς 0 -255, αλλάζοντας εύκολα το ASII σε UNICODE. Αυτό το πρότυπο έλυσε πολλά προβλήματα, αλλά όχι όλα. Λόγω της άφιξης νέων λέξεων, για παράδειγμα, για την ιαπωνική γλώσσα, είναι απαραίτητο να αυξηθεί ο αριθμός των όρων κατά περίπου 20 χιλιάδες Είναι επίσης απαραίτητο να συμπεριληφθεί η γραφή μπράιγ.

Το σύνολο των χαρακτήρων με το οποίο γράφεται το κείμενο ονομάζεται αλφάβητο.

Ο αριθμός των χαρακτήρων στο αλφάβητο είναι δικός του εξουσία.

Τύπος για τον προσδιορισμό του όγκου των πληροφοριών: Ν=2β,

όπου N είναι η δύναμη του αλφαβήτου (αριθμός χαρακτήρων),

b – αριθμός bit (βάρος πληροφοριών του συμβόλου).

Το αλφάβητο χωρητικότητας 256 χαρακτήρων μπορεί να φιλοξενήσει σχεδόν όλους τους απαραίτητους χαρακτήρες. Αυτό το αλφάβητο λέγεται επαρκής.

Επειδή 256 = 2 8, τότε το βάρος 1 χαρακτήρα είναι 8 bit.

Το όνομα δόθηκε στη μονάδα μέτρησης 8 bit 1 byte:

1 byte = 8 bit.

Ο δυαδικός κώδικας κάθε χαρακτήρα σε κείμενο υπολογιστή καταλαμβάνει 1 byte μνήμης.

Πώς αναπαριστώνται οι πληροφορίες κειμένου στη μνήμη του υπολογιστή;

Η ευκολία της κωδικοποίησης χαρακτήρων byte προς byte είναι προφανής επειδή ένα byte είναι το μικρότερο διευθυνσιοδοτούμενο μέρος της μνήμης και, επομένως, ο επεξεργαστής μπορεί να έχει πρόσβαση σε κάθε χαρακτήρα ξεχωριστά κατά την επεξεργασία κειμένου. Από την άλλη πλευρά, οι 256 χαρακτήρες είναι αρκετά επαρκής αριθμός για να αντιπροσωπεύουν μια μεγάλη ποικιλία συμβολικών πληροφοριών.

Τώρα τίθεται το ερώτημα, ποιον δυαδικό κώδικα οκτώ bit να αντιστοιχίσετε σε κάθε χαρακτήρα.

Είναι σαφές ότι αυτό είναι ένα θέμα υπό όρους, μπορείτε να βρείτε πολλές μεθόδους κωδικοποίησης.

Όλοι οι χαρακτήρες του αλφαβήτου του υπολογιστή αριθμούνται από το 0 έως το 255. Κάθε αριθμός αντιστοιχεί σε έναν δυαδικό κωδικό οκτώ bit από το 00000000 έως το 11111111. Αυτός ο κωδικός είναι απλώς ο σειριακός αριθμός του χαρακτήρα στο δυαδικό σύστημα αριθμών.

Ένας πίνακας στον οποίο όλοι οι χαρακτήρες του αλφαβήτου του υπολογιστή έχουν εκχωρηθεί σειριακούς αριθμούς ονομάζεται πίνακας κωδικοποίησης.

Διαφορετικοί τύποι υπολογιστών χρησιμοποιούν διαφορετικούς πίνακες κωδικοποίησης.

Ο πίνακας έχει γίνει το διεθνές πρότυπο για υπολογιστές ASCII(διαβάστε aski) (American Standard Code for Information Interchange).

Ο πίνακας κωδικών ASCII χωρίζεται σε δύο μέρη.

Μόνο το πρώτο μισό του πίνακα είναι το διεθνές πρότυπο, δηλ. σύμβολα με αριθμούς από 0 (00000000), έως 127 (01111111).

Δομή πίνακα κωδικοποίησης ASCII

Αύξων αριθμός	Κώδικας	Σύμβολο
0 - 31	00000000 - 00011111	Τα σύμβολα με αριθμούς από το 0 έως το 31 ονομάζονται συνήθως σύμβολα ελέγχου. Η λειτουργία τους είναι να ελέγχουν τη διαδικασία εμφάνισης κειμένου στην οθόνη ή εκτύπωσης, ηχητικού σήματος, επισήμανσης κειμένου κ.λπ.
32 - 127	00100000 - 01111111	Τυπικό μέρος του πίνακα (Αγγλικά). Αυτό περιλαμβάνει πεζά και κεφαλαία γράμματα του λατινικού αλφαβήτου, δεκαδικούς αριθμούς, σημεία στίξης, κάθε είδους παρενθέσεις, εμπορικά και άλλα σύμβολα. Ο χαρακτήρας 32 είναι ένας χώρος, δηλ. κενή θέση στο κείμενο. Όλα τα άλλα αντικατοπτρίζονται σε ορισμένα σημάδια.
128 - 255	10000000 - 11111111	Εναλλακτικό μέρος του τραπεζιού (ρωσικά). Το δεύτερο μισό του πίνακα κωδικών ASCII, που ονομάζεται κωδικοσελίδα (128 κωδικοί, ξεκινώντας από 10000000 και τελειώνουν με 11111111), μπορεί να έχει διαφορετικές επιλογές, κάθε επιλογή έχει τον δικό της αριθμό. Η κωδικοσελίδα χρησιμοποιείται κυρίως για να φιλοξενήσει εθνικά αλφάβητα εκτός από το λατινικό. Σε ρωσικές εθνικές κωδικοποιήσεις, χαρακτήρες από το ρωσικό αλφάβητο τοποθετούνται σε αυτό το μέρος του πίνακα.

Το πρώτο μισό του πίνακα κωδικών ASCII

Λάβετε υπόψη ότι στον πίνακα κωδικοποίησης, τα γράμματα (κεφαλαία και πεζά) είναι ταξινομημένα με αλφαβητική σειρά και οι αριθμοί ταξινομούνται με αύξουσα σειρά. Αυτή η τήρηση της λεξικογραφικής σειράς στη διάταξη των χαρακτήρων ονομάζεται αρχή της διαδοχικής κωδικοποίησης του αλφαβήτου.

Για τα γράμματα του ρωσικού αλφαβήτου, τηρείται επίσης η αρχή της διαδοχικής κωδικοποίησης.

Το δεύτερο μισό του πίνακα κωδικών ASCII

Δυστυχώς, αυτή τη στιγμή υπάρχουν πέντε διαφορετικές κυριλλικές κωδικοποιήσεις (KOI8-R, Windows. MS-DOS, Macintosh και ISO). Εξαιτίας αυτού, συχνά προκύπτουν προβλήματα με τη μεταφορά ρωσικού κειμένου από έναν υπολογιστή σε άλλο, από ένα σύστημα λογισμικού σε άλλο.

Χρονολογικά, ένα από τα πρώτα πρότυπα για την κωδικοποίηση ρωσικών γραμμάτων σε υπολογιστές ήταν το KOI8 ("Κωδικός Ανταλλαγής Πληροφοριών, 8-bit"). Αυτή η κωδικοποίηση χρησιμοποιήθηκε στη δεκαετία του '70 σε υπολογιστές της σειράς υπολογιστών ES και από τα μέσα της δεκαετίας του '80 άρχισε να χρησιμοποιείται στις πρώτες ρωσοποιημένες εκδόσεις του λειτουργικού συστήματος UNIX.

Από τις αρχές της δεκαετίας του '90, την εποχή της κυριαρχίας του λειτουργικού συστήματος MS DOS, η κωδικοποίηση CP866 παραμένει ("CP" σημαίνει "Σελίδα Κωδικού", "Σελίδα κώδικα").

Οι υπολογιστές Apple με λειτουργικό σύστημα Mac OS χρησιμοποιούν τη δική τους κωδικοποίηση Mac.

Επιπλέον, ο Διεθνής Οργανισμός Προτύπων (ISO) έχει εγκρίνει μια άλλη κωδικοποίηση που ονομάζεται ISO 8859-5 ως πρότυπο για τη ρωσική γλώσσα.

Η πιο κοινή κωδικοποίηση που χρησιμοποιείται αυτή τη στιγμή είναι τα Microsoft Windows, με συντομογραφία CP1251.

Από τα τέλη της δεκαετίας του '90, το πρόβλημα της τυποποίησης της κωδικοποίησης χαρακτήρων έχει λυθεί με την εισαγωγή ενός νέου διεθνούς προτύπου που ονομάζεται Unicode. Αυτή είναι μια κωδικοποίηση 16-bit, δηλ. εκχωρεί 2 byte μνήμης για κάθε χαρακτήρα. Φυσικά, αυτό αυξάνει την ποσότητα της μνήμης που καταλαμβάνει κατά 2 φορές. Αλλά ένας τέτοιος πίνακας κωδικών επιτρέπει τη συμπερίληψη έως και 65536 χαρακτήρων. Η πλήρης προδιαγραφή του προτύπου Unicode περιλαμβάνει όλα τα υπάρχοντα, εξαφανισμένα και τεχνητά δημιουργημένα αλφάβητα του κόσμου, καθώς και πολλά μαθηματικά, μουσικά, χημικά και άλλα σύμβολα.

Ας προσπαθήσουμε να χρησιμοποιήσουμε έναν πίνακα ASCII για να φανταστούμε πώς θα μοιάζουν οι λέξεις στη μνήμη του υπολογιστή.

Εσωτερική αναπαράσταση λέξεων στη μνήμη του υπολογιστή

Μερικές φορές συμβαίνει ότι ένα κείμενο που αποτελείται από γράμματα του ρωσικού αλφαβήτου που ελήφθη από άλλον υπολογιστή δεν μπορεί να διαβαστεί - κάποιο είδος "abracadabra" είναι ορατό στην οθόνη της οθόνης. Αυτό συμβαίνει επειδή οι υπολογιστές χρησιμοποιούν διαφορετικές κωδικοποιήσεις χαρακτήρων για τη ρωσική γλώσσα.

Ένας υπολογιστής κατανοεί τη διαδικασία μετατροπής του σε μορφή που επιτρέπει την πιο βολική μετάδοση, αποθήκευση ή αυτόματη επεξεργασία αυτών των δεδομένων. Για το σκοπό αυτό χρησιμοποιούνται διάφοροι πίνακες. Το ASCII ήταν το πρώτο σύστημα που αναπτύχθηκε στις Ηνωμένες Πολιτείες για την εργασία με αγγλικό κείμενο, το οποίο στη συνέχεια έγινε ευρέως διαδεδομένο σε όλο τον κόσμο. Το παρακάτω άρθρο είναι αφιερωμένο στην περιγραφή, τα χαρακτηριστικά, τις ιδιότητες και την περαιτέρω χρήση του.

Εμφάνιση και αποθήκευση πληροφοριών σε υπολογιστή

Τα σύμβολα σε μια οθόνη υπολογιστή ή σε ένα ή άλλο φορητό ψηφιακό gadget σχηματίζονται με βάση σετ διανυσματικών μορφών διαφόρων χαρακτήρων και έναν κωδικό που σας επιτρέπει να βρείτε μεταξύ αυτών το σύμβολο που πρέπει να εισαχθεί στη σωστή θέση. Αντιπροσωπεύει μια ακολουθία bits. Έτσι, κάθε χαρακτήρας πρέπει να αντιστοιχεί μοναδικά σε ένα σύνολο μηδενικών και μονάδων, τα οποία εμφανίζονται με μια συγκεκριμένη, μοναδική σειρά.

Πώς ξεκίνησαν όλα

Ιστορικά, οι πρώτοι υπολογιστές ήταν αγγλόφωνοι. Για την κωδικοποίηση συμβολικών πληροφοριών σε αυτά, αρκούσε να χρησιμοποιηθούν μόνο 7 bit μνήμης, ενώ για το σκοπό αυτό διατέθηκε 1 byte αποτελούμενο από 8 bit. Ο αριθμός των χαρακτήρων που κατανοούσε ο υπολογιστής σε αυτή την περίπτωση ήταν 128. Αυτοί οι χαρακτήρες περιελάμβαναν το αγγλικό αλφάβητο με τα σημεία στίξης, τους αριθμούς και ορισμένους ειδικούς χαρακτήρες. Η αγγλόφωνη κωδικοποίηση επτά bit με τον αντίστοιχο πίνακα (σελίδα κώδικα), που αναπτύχθηκε το 1963, ονομάστηκε Αμερικανικός Τυπικός Κώδικας για Ανταλλαγή Πληροφοριών. Συνήθως, η συντομογραφία "ASCII encoding" χρησιμοποιήθηκε και εξακολουθεί να χρησιμοποιείται για να την υποδηλώσει.

Μετάβαση στην πολυγλωσσία

Με τον καιρό, οι υπολογιστές χρησιμοποιούνται ευρέως σε μη αγγλόφωνες χώρες. Από αυτή την άποψη, υπήρχε ανάγκη για κωδικοποιήσεις που να επιτρέπουν τη χρήση εθνικών γλωσσών. Αποφασίστηκε να μην εφευρεθεί εκ νέου ο τροχός και να ληφθεί ως βάση το ASCII. Ο πίνακας κωδικοποίησης στη νέα έκδοση έχει επεκταθεί σημαντικά. Η χρήση του 8ου bit κατέστησε δυνατή τη μετάφραση 256 χαρακτήρων σε μια γλώσσα υπολογιστή.

Περιγραφή

Η κωδικοποίηση ASCII έχει έναν πίνακα που χωρίζεται σε 2 μέρη. Μόνο το πρώτο μισό του θεωρείται γενικά αποδεκτό διεθνές πρότυπο. Περιλαμβάνει:

Χαρακτήρες με σειριακούς αριθμούς από το 0 έως το 31, κωδικοποιημένοι σε ακολουθίες από το 00000000 έως το 00011111. Προορίζονται για χαρακτήρες ελέγχου που ελέγχουν τη διαδικασία εμφάνισης κειμένου στην οθόνη ή τον εκτυπωτή, ηχητικό σήμα κ.λπ.
Χαρακτήρες με NN στον πίνακα από 32 έως 127, κωδικοποιημένοι από ακολουθίες από 00100000 έως 01111111 αποτελούν το τυπικό μέρος του πίνακα. Αυτά περιλαμβάνουν κενό διάστημα (N 32), γράμματα του λατινικού αλφαβήτου (πεζά και κεφαλαία), δεκαψήφιους αριθμούς από το 0 έως το 9, σημεία στίξης, αγκύλες διαφορετικών στυλ και άλλα σύμβολα.
Χαρακτήρες με σειριακούς αριθμούς από 128 έως 255, κωδικοποιημένοι από ακολουθίες από 10000000 έως 11111111. Περιλαμβάνουν γράμματα εθνικών αλφαβήτων εκτός από το λατινικό. Είναι αυτό το εναλλακτικό μέρος του πίνακα ASCII που χρησιμοποιείται για τη μετατροπή ρωσικών χαρακτήρων σε μορφή υπολογιστή.

Μερικές ιδιότητες

Τα χαρακτηριστικά της κωδικοποίησης ASCII περιλαμβάνουν τη διαφορά μεταξύ των γραμμάτων "A" - "Z" κεφαλαίων και κεφαλαίων μόνο κατά ένα bit. Αυτή η περίσταση απλοποιεί σημαντικά τη μετατροπή του μητρώου, καθώς και τον έλεγχο του αν ανήκει σε ένα δεδομένο εύρος τιμών. Επιπλέον, όλα τα γράμματα στο σύστημα κωδικοποίησης ASCII αντιπροσωπεύονται από τους δικούς τους αριθμούς ακολουθίας στο αλφάβητο, οι οποίοι γράφονται με 5 ψηφία στο δυαδικό σύστημα αριθμών, πριν από το 011 2 για τα πεζά γράμματα και το 010 2 για τα κεφαλαία γράμματα.

Μεταξύ των χαρακτηριστικών της κωδικοποίησης ASCII είναι η αναπαράσταση 10 ψηφίων - "0" - "9". Στο δεύτερο αριθμητικό σύστημα ξεκινούν με 00112 και τελειώνουν με 2 αριθμητικές τιμές. Έτσι, το 0101 2 είναι ισοδύναμο με τον δεκαδικό αριθμό πέντε, επομένως ο χαρακτήρας "5" γράφεται ως 0011 01012. Με βάση τα παραπάνω, μπορείτε εύκολα να μετατρέψετε αριθμούς BCD σε συμβολοσειρά ASCII προσθέτοντας την ακολουθία bit 00112 σε κάθε τσιμπίδα στο αριστερά.

"Unicode"

Όπως γνωρίζετε, απαιτούνται χιλιάδες χαρακτήρες για την εμφάνιση κειμένων στις γλώσσες της ομάδας της Νοτιοανατολικής Ασίας. Ένας τέτοιος αριθμός από αυτούς δεν μπορεί να περιγραφεί με κανέναν τρόπο σε ένα byte πληροφοριών, επομένως ακόμη και οι εκτεταμένες εκδόσεις του ASCII δεν θα μπορούσαν πλέον να ικανοποιήσουν τις αυξημένες ανάγκες χρηστών από διαφορετικές χώρες.

Έτσι, προέκυψε η ανάγκη δημιουργίας μιας καθολικής κωδικοποίησης κειμένου, την ανάπτυξη της οποίας, σε συνεργασία με πολλούς ηγέτες της παγκόσμιας βιομηχανίας πληροφορικής, ανέλαβε η κοινοπραξία Unicode. Οι ειδικοί του δημιούργησαν το σύστημα UTF 32 Σε αυτό, κατανεμήθηκαν 32 bit για να κωδικοποιήσουν 1 χαρακτήρα, αποτελώντας 4 byte πληροφοριών. Το κύριο μειονέκτημα ήταν η απότομη αύξηση της απαιτούμενης μνήμης έως και 4 φορές, η οποία συνεπαγόταν πολλά προβλήματα.

Ταυτόχρονα, για τις περισσότερες χώρες με επίσημες γλώσσες που ανήκουν στην ινδοευρωπαϊκή ομάδα, ο αριθμός των χαρακτήρων ίσος με 2 32 είναι κάτι παραπάνω από υπερβολικός.

Ως αποτέλεσμα περαιτέρω εργασίας από ειδικούς από την κοινοπραξία Unicode, εμφανίστηκε η κωδικοποίηση UTF-16. Έγινε η επιλογή για τη μετατροπή συμβολικών πληροφοριών που ταίριαζαν σε όλους τόσο ως προς την ποσότητα της απαιτούμενης μνήμης όσο και ως προς τον αριθμό των κωδικοποιημένων χαρακτήρων. Αυτός είναι ο λόγος για τον οποίο το UTF-16 υιοθετήθηκε από προεπιλογή και απαιτεί δέσμευση 2 byte για έναν χαρακτήρα.

Ακόμη και αυτή η αρκετά προηγμένη και επιτυχημένη έκδοση του Unicode είχε κάποια μειονεκτήματα και μετά τη μετάβαση από την εκτεταμένη έκδοση του ASCII στο UTF-16, το βάρος του εγγράφου διπλασιάστηκε.

Από αυτή την άποψη, αποφασίστηκε να χρησιμοποιηθεί η κωδικοποίηση μεταβλητού μήκους UTF-8. Σε αυτήν την περίπτωση, κάθε χαρακτήρας του κειμένου πηγής κωδικοποιείται ως ακολουθία μήκους από 1 έως 6 byte.

Επικοινωνήστε με τον αμερικανικό τυπικό κωδικό για ανταλλαγή πληροφοριών

Όλοι οι λατινικοί χαρακτήρες στο μεταβλητό μήκος UTF-8 κωδικοποιούνται σε 1 byte, όπως στο σύστημα κωδικοποίησης ASCII.

Ένα ιδιαίτερο χαρακτηριστικό του YTF-8 είναι ότι στην περίπτωση κειμένου στα Λατινικά χωρίς τη χρήση άλλων χαρακτήρων, ακόμη και τα προγράμματα που δεν κατανοούν το Unicode θα εξακολουθούν να μπορούν να το διαβάσουν. Με άλλα λόγια, η βασική κωδικοποίηση κειμένου ASCII γίνεται απλώς μέρος του νέου UTF μεταβλητού μήκους. Οι κυριλλικοί χαρακτήρες στο YTF-8 καταλαμβάνουν 2 byte και, για παράδειγμα, οι γεωργιανοί χαρακτήρες - 3 byte. Με τη δημιουργία UTF-16 και 8, λύθηκε το κύριο πρόβλημα της δημιουργίας ενός ενιαίου χώρου κώδικα σε γραμματοσειρές. Από τότε, οι κατασκευαστές γραμματοσειρών μπορούν να γεμίσουν τον πίνακα μόνο με διανυσματικές μορφές χαρακτήρων κειμένου με βάση τις ανάγκες τους.

Διαφορετικά λειτουργικά συστήματα προτιμούν διαφορετικές κωδικοποιήσεις. Για να μπορείτε να διαβάζετε και να επεξεργάζεστε κείμενα που έχουν πληκτρολογηθεί με διαφορετική κωδικοποίηση, χρησιμοποιούνται ρωσικά προγράμματα μετατροπής κειμένου. Ορισμένα προγράμματα επεξεργασίας κειμένου περιέχουν ενσωματωμένους μετακωδικοποιητές και σας επιτρέπουν να διαβάζετε κείμενο ανεξάρτητα από την κωδικοποίηση.

Τώρα γνωρίζετε πόσοι χαρακτήρες υπάρχουν στην κωδικοποίηση ASCII και πώς και γιατί αναπτύχθηκε. Φυσικά, σήμερα το πρότυπο Unicode είναι πιο διαδεδομένο στον κόσμο. Ωστόσο, δεν πρέπει να ξεχνάμε ότι βασίζεται στο ASCII, επομένως θα πρέπει να εκτιμηθεί η συμβολή των προγραμματιστών του στον τομέα της πληροφορικής.

Συνιστούμε να διαβάσετε

Χρησιμοποιώντας το Windows Equalizer

Σήμερα θα δούμε: Οι αληθινοί γνώστες της μουσικής γνωρίζουν ότι για την ποιότητα...

Ποιο πρόγραμμα περιήγησης να επιλέξετε για έναν αδύναμο υπολογιστή

Αρχεία *.xlsx με παραδείγματα υπολογισμών τύπων και συναρτήσεων. Και επίσης δωρεάν...

Χρησιμοποιώντας το Windows Equalizer

Τα λειτουργικά συστήματα Windows που ξεκινούν με Vista χρησιμοποιούν ενσωματωμένο...

Τι είναι ο πίνακας κωδικών ascii. Κωδικοποίηση ASCII (Αμερικανικός τυπικός κώδικας για ανταλλαγή πληροφοριών) - βασική κωδικοποίηση κειμένου για το λατινικό αλφάβητο

Σύμβολα

Πρότυπο ASCII

Πρότυπο Unicode

Πώς αναπαριστώνται οι πληροφορίες κειμένου στη μνήμη του υπολογιστή;

Τώρα τίθεται το ερώτημα, ποιον δυαδικό κώδικα οκτώ bit να αντιστοιχίσετε σε κάθε χαρακτήρα.

Ένας πίνακας στον οποίο όλοι οι χαρακτήρες του αλφαβήτου του υπολογιστή έχουν εκχωρηθεί σειριακούς αριθμούς ονομάζεται πίνακας κωδικοποίησης.

Δομή πίνακα κωδικοποίησης ASCII

Αύξων αριθμός

Κώδικας

Σύμβολο

0 - 31

00000000 - 00011111

32 - 127

00100000 - 01111111

128 - 255

10000000 - 11111111