lunedì 3 settembre 2007

L'importanza della codifica dei caratteri!

Quando si è in un paese straniero, prima di tutto è bene conoscerne l'alfabeto, e la corretta pronuncia delle parole, soprattutto per chiedere informazioni quando non si è in compagnia di una persona madrelingua.
In Polonia (questa è la mia seconda visita e nel mese di agosto) la lingua si compone di 32 lettere: 11 in più che in italiano! Qui sotto la lista, con evidenziate tra parentesi quelle non usate; la "x" a dire il vero non l'abbiamo neanche noi:
a ą b c ć d e ę f g h i j k l ł m n ń o ó p (q) r s ś t u (v) w (x) y z ż ź
I gruppi consonantici, tutti di due lettere, danno origine a suoni diversi rispetto a quelli delle singole consonanti e sono sette:
ch h aspirata come nel tedesco ach
cz c italiana come in cento
dz z sonora italiana come in zolla
dż g molle come in gemma
dź g molle seguita da i come in giro
rz j francese come in jour
sz sc italiana come in pesce
Questa conoscenza di base è fondamentale per es. per consultare la cartina stradale e chiedere informazioni stradali.
Infatti se la pronuncia non corrisponde alla grafia, potrebbero esserci seri problemi!
Molti di voi a questo punto già si chiederanno, che centra ciò con il tema principale, l'informatica?
La risposta è subito fornita:
per poter scrivere, usando tutte le lettere di un alfabeto qualsiasi, un testo in tale lingua è necessario (e sufficente) che nel sistema operativo siano istallate le tabelle di corispondenza della lingua in questione.
Al momento del salvataggio e della creazione del file, è necessario selezionare la codifica giusta. Il formato testo in Windows corrisponde all'estensione di file TXT: provare e spimentare (con il Blocco note).
Sono d'obbligo ora due parole sul formato di codifica UNICODE, evoluzione attuale degli standard di codifica del testo.
Racchiude qualsiasi alfabeto umano, e include perciò tutti i sistemi di scrittura. Inoltre è retrocompatibile, nel senso che i precedenti sistemi di codifica ne sono semplicemente dei sottoinsiemi. I vecchi file possono essere letti dai nuovi programmi compatibili con l'UNICODE e quelli nuovi (salvati col nuovo formato) creati da noi, anche dai programmi obsoleti e non UNICODE.
Il prezzo da pagare invece, è in termini di spazio di memoria perché ogni carattere è memorizzato con due byte ciò comportando il raddoppio della dimensione file.
Un esempio concreto poi potrebbe essere questo articolo, che presenta caratteri specifici dell'alfabeto polacco, che per essere letti correttamente necessitano della codifica UNICODE.