Il teorema di non calcolabilita della codificazione

Il teorema di non calcolabilita della codificazione

Oltre a cio Unicode definisce ed cio che chiama “Unicode transformation format” (UTF) addirittura “Universal character attrezzi” (UCS): questi non sono altre quale le codifiche necessarie verso la esibizione esterna di Unicode.

Delle diverse codifiche definite di nuovo usate nella pretesto di Unicode, mi limitero verso rammentare le oltre a importanti (quale sono di nuovo lequel usate per oltre a del 90% dei casi).

UTF-16 (ex UCS-2, descritta nel lussurioso precedente che codifica U): una regole multibyte che permette la manifestazione dell’intero repertorio Unicode ancora come rappresenta l’intero BMP (65536 codepoint) per una trascrizione di qualita “wide” costituita da paio byte (questa evo l’originale codifica UCS-2, come evo durante gradimento di rappresentare il scapolo BMP). Quando UTF-16 ancora UCS-2 sono ripetutamente confuse, UTF-16 e l’unica di maniera presente. Con UTF-16 purchessia grinta viene codificato mediante una sequenza di estensione variabile da 2 a quattro ottetti (byte), riservando le codifiche a quattro byte verso codepoint rarissimi gestiti passaggio “codepoint surrogati”.

Durante UTF-8 purchessia spirito viene legalizzato mediante una raggruppamento di altezza variabile da 1 verso quattro ottetti (byte)

UTF 16 definisce anche un https://worldbrides.org/it/spose-cinesi/ adatto tariffa (Byte-Order-Mark oppure BOM) ad esempio sinon puo usare verso assimilare l’endianness usata nella codifica del testo. Il BOM e rappresentato dal codepoint (esadecimale) U+FEFF quale verso una macchina big-endian viene concepito dalla successione 0xFE,0xFF anche dalla successione 0xFF,0xFE riguardo a una macchina little endian. Dato che il codepoint U+FEFF (Zero-Width Niente affatto-Break Space : Posto di volume niente che razza di non consente interruzioni) non puo giammai abitare il primo temperamento di una serie codificata laddove il codepoint U+FFFE non e – nemmeno sara – no luogo ad excretion temperamento dolce, l’apparire di personalita di questi due codepoint all’ coraggio di una successione codificata permette di dedurre la endianness dell’intera sequenza.

In UTF-8 non esiste insecable BOM (per motivi in passato spiegati) sebbene non molti programmi (particolarmente operanti con societa windows) ne inseriscono uno (xEF,0xBB,0xBF) riscontro per colui assuefatto per UTF-16. Codesto e permesso, tuttavia imprudente, dallo norma, di nuovo per materia non fa che guastare le scatole.

UTF-32/UCS-4: una codifica “wide” a prolissita pallino: purchessia codepoint di Unicode e immaginato da una successione di 4 byte. Sinon applicano le considerazioni sul BOM proprio viste verso UTF-16. Questa norme e usata, in familiarita, alquanto infrequentemente.

Verso motivo dei vantaggi illustrati della regole F sulla codifica U, UTF-8 e oggidi la codifica piu usata a la vista esterna di testi anche testi multilingua. UTF-16 e verso riguardo a alcuno usata nella vista interna delle stringhe (per particolari e quella durante modo per qualsiasi i sistemi operativi Microsoft posteriori a Windows 2000)

Il concetto essenziale, rivisitato

Giunti praticamente da ultimo del nostro esame (semplificato) dei codici e codifiche associate, siamo pronti per anelare di conoscere quali inconvenienti possono procurare il concetto fondamentale come ho enunciato non molti riunione fa.

Colui come succede e ad esempio insecable libro (file) pronto verso avere luogo visualizzato per una data tripletta (espressivita, trascrizione, endianness) va verso sparire riguardo a di indivisible maniera ove uno dei tre componenti viene applicato per mezzo erronea.

Esiste un’altra alternativa, vale a dire come sul modo fine – quello verso cui viene visualizzato il tomo – non esista il font opportuno a la visualizzazione (che, mancano i alfabeto Giapponesi). Corrente vizio sinon elimina chiaramente installando certain servizio di font completi (reiteratamente chiamati font Unicode).

Il problema fondamentale e preciso in quale momento sinon riescono verso ricostituire la tripletta di partenza, quella di scopo, ed per determinare la modo corretta di interpretazione frammezzo a le paio.

Sfortunatamente, colui che tipo di ho massima in passato e idoneo addirittura per enunciare esso quale io (di nuovo io single, a quelle ad esempio ne so) chiamo “il ideale di non calcolabilita della transcodifica”: