... la codifica (prima ISO-8859-15, poi ISO-8859-1, infine Windows-1292).
Vade retro!!
---
L'ideale sarebbe avere Tutti i programmi nella stessa codifica, in tutti i computer ed in tutto il mondo, o in pochissime codifiche compatibili (unicode, limiterei a sole due codifiche: UTF-8, UTF-16).
Sul sito W3C ho letto di UTF-8 e UTF-16. Sono esattamente gli stessi numeri per ogni lettera (ovvero i numeri di unicode), ma cambia la rappresentazione in byte.
UTF-16 è a lunghezza fissa: tutti i caratteri sono di 16 bit (2 byte).
UTF-8 utilizza il primo bit come flag:
- se è 0: allora il carattere occuperà un solo byte (esattamente come un carattere ASCII; ricordiamo che ASCII usa 7 bit perché uno era il bit di parità)
- se è 1: allora 2 o più byte devono essere concatenati per codificare un singolo carattere, quasi sempre 2, ma in certi casi 3. Questo perché, sacrificando la testa del byte come flag si perde spazio per le informazioni. Nella maggioranza dei casi si risparmia oppure si ha la stessa lunghezza di UTF-16. Infatti i caratteri di 3 byte sono in genere ideogrammi (ma non è detto che un ideogramma sia per forza di 3 byte).
Le due codifiche sono compatibili, basterebbe usare solo una di esse (conviene UTF-8) oppure fare una piccola condizione: se la lingua del computer è cinese o giapponese, allora usare UTF-16 (o magari chiedere). Però anche per queste lingue con migliaia di lettere il risparmio di spazio con UTF-16 non sempre è considerevole. Inoltre se si usano dei caratteri rarissimi, UTF-16 potrebbe non bastare.
Per i dettagli potete leggere in giro (o forse molti di voi ne sapranno più di me), questa e un'infarinatura generale.
---
P.S. Ieri ho creato il bug! https://bugzilla.mozilla.org/show_bug.cgi?id=706465