Caractere românești și Unicode pentru to(n)ți

Întrucât multă lume se lovește de problema characterelor românești m-am gândit să clarific câteva lucruri atât pentru utilizatori cât și pentru programatori.Ce ar fi de reținut

ASCII este metoda clasică de codare a caracterelor pe 7 biți și este limitată la maxim 128 caractere (2^7). De fapt de obicei caracterele sunt stocate pe un octet (opt biți) din care bitul nefolosit este lăsat pe 0.
un byte (bait după unii) este tradus în românește ca un octet și este format din 8 biți (bits)
Unicode nu este UTF-8. UTF-8 este o metodă de encodare Unicode, din întâmplare cea mai la îndemână și singura care este compatibilă cu ASCII.

Despre UTF-8

UTF-8 este una din formele de codare a caracterelor Unicode.
UTF-8 este standardul de codare Unicode pentru toate protocoalele folosite pe Internet
UTF-8 este compatibil ASCII în sensul că un text ASCII este un text UTF-8 valid, dar nu și invers.
UTF-8 permite folosirea corectă a caracterelor românești
în UTF-8 lungimea în octeți a unui caracter este variabilă deci lungimea

Despre caracterele românești

caracterele românești corecte sunt cele cu virgulă și nu cele sedilă
Linux, OS X 10.4+ și Windows Vista nu au probleme cu caracterele românești
Windows XP suportă în mare măsură caracterele românești doar dacă
- instalați de la Microsoft pachetul European Union Expansion Font Update
- instalați o tastatură românească corectă de la secarică.ro