Cap. 8. I18N și L10N

Cuprins

8.1. Configurația regională
8.1.1. Justificarea pentru utilizearea UTF-8 în configurația lingvistică
8.1.2. Reconfigurarea configurației regionale
8.1.3. Codificarea numelor de fișiere
8.1.4. Mesaje în limba maternă și documentație tradusă
8.1.5. Efectele configurației regionale
8.2. Introducere de la tastatură
8.2.1. Introducerea de la tastatură pentru consola Linux și X Window
8.2.2. Introducerea de la tastatură pentru Wayland
8.2.3. Suportul pentru metoda de introducere cu IBus
8.2.4. Un exemplu pentru japoneză
8.3. Afișarea ieșirii
8.4. Caractere cu lățime de aspect ambiguu din Asia de Est

Multilingvismul (M17N) sau suportul pentru limba maternă pentru un software de aplicație se realizează în 2 pași.

[Indicație] Indicație

Există 17, 18 sau 10 litere între „m” și „n”, „i” și „n” sau „l” și „n” în multilingvism, internaționalizare și localizare, care corespund M17N, I18N și L10N. Pentru detalii, consultați Internaționalizare și localizare.

Comportamentul programelor care acceptă internaționalizarea este configurat de variabila de mediu „$LANG” pentru a accepta localizarea(regionalizarea). Suportul efectiv al caracteristicilor dependente de configurația regională prin biblioteca libc, necesită instalarea pachetelor locales sau locales-all. Pachetul locales trebuie să fie inițializat adecvat.

Dacă nici pachetul locales și nici pachetul locales-all nu sunt instalate, suportul pentru caracteristicile regionle se pierde, iar sistemul utilizează mesaje în limba engleză americană și tratează datele ca ASCII. Acest comportament este identic cu cel al definirii variabilei „$LANG” prin „LANG=”, „LANG=C” sau „LANG=POSIX”.

Software-ul modern, precum GNOME și KDE, este multilingv. Acesta este internaționalizat prin gestionarea datelor UTF-8 și regionalizat prin furnizarea mesajelor traduse prin infrastructura gettext(1). Mesajele traduse pot fi furnizate ca pachete de limbă separate.

Sistemul de interfață grafică actual al mediului de birou Debian definește în mod normal configurația regională în mediul de interfață grafică ca „LANG=xx_YY.UTF-8”. Aici, „xx” este codul limbii ISO 639, iar „YY” este codul țării ISO 3166. Aceste valori sunt definite în dialogul grafic de configurare a biroului și modifică comportamentul programului. Vedeți Secțiune 1.5.2, „Variabila „$LANG””

Cea mai simplă reprezentare a datelor textuale este ASCII, care este suficientă pentru limba engleză și utilizează mai puțin de 127 de caractere (reprezentabile cu 7 biți).

Chiar și textul în limba engleză simplă poate conține caractere non-ASCII, de exemplu ghilimelele ușor curbate la stânga și la dreapta nu sunt disponibile în ASCII.

“double quoted text” is not "double quoted ASCII"
‘single quoted text’ is not 'single quoted ASCII'

Pentru a oferi suport pentru mai multe caractere, au fost utilizate numeroase seturi de caractere și sisteme de codificare pentru a oferi suport pentru mai multe limbi (a se vedea Tabel 11.2, „List of encoding values and their usage”).

Setul de caractere Unicode poate reprezenta practic toate caracterele cunoscute de om cu un interval de coduri de 21 de biți (adică de la 0 la 10FFFF în notație hexazecimală).

Sistemul de codificare a textului UTF-8 încadrează punctele de cod Unicode într-un flux de date sensibil de 8 biți, compatibil în mare parte cu sistemul de procesare a datelor ASCII. Acest lucru face ca UTF-8 să fie alegerea preferată în prezent. UTF înseamnă Unicode Transformation Format (Format de transformare Unicode). Când datele text simplu ASCII sunt convertite în UTF-8, acestea au exact același conținut și aceeași dimensiune ca și cele ASCII originale. Așadar, nu pierdeți nimic prin implementarea parametrului lingvistic de codificare a textului UTF-8.

În cadrul configurației lingvistice UTF-8 compatibilă cu programul aplicației, puteți afișa și edita orice date text în limbi străine, atâta timp cât fonturile și metodele de introducere necesare sunt instalate și activate. De exemplu, în cadrul configurației regionale „LANG=fr_FR.UTF-8”, gedit(1) (editor de text pentru mediul grafic de birou GNOME) poate afișa și edita date text cu caractere chinezești, prezentând în același timp meniurile în limba franceză.

[Indicație] Indicație

Atât noul standard „en_US.UTF-8” cât și vechiul standard „C”/„POSIX” utilizează mesajul standard în limba engleză americană, dar prezintă diferențe subtile în ceea ce privește ordinea de sortare etc. Dacă doriți să gestionați nu numai caracterele ASCII, ci și toate caracterele codificate UTF-8, păstrând în același timp comportamentul local vechi „C”, utilizați configurația regională non-standard „C.UTF-8” în Debian.

[Notă] Notă

Unele programe consumă mai multă memorie după ce acceptă I18N. Acest lucru se datorează faptului că sunt codificate pentru a utiliza UTF-32(UCS4) intern pentru a accepta Unicode în scopul optimizării vitezei și consumă 4 octeți pentru fiecare caracter ASCII, indiferent de configurația regională selectată. Din nou, nu pierdeți nimic prin implementarea configurației regionale UTF-8.

Pentru ca sistemul să poată accesa o anumită configurație regională, datele configurației regionale trebuie compilate din baza de date a configurațiilor regionale.

Pachetul locales nu este livrat cu date de configurație regională precompilate. Trebuie să îl configurați astfel:

# dpkg-reconfigure locales

Acest proces implică 2 pași.

Valoarea implicită a configurației lingvistice la nivel de sistem, definită în „/etc/default/locale”, poate fi suprascrisă de configurația grafică pentru aplicațiile cu interfață grafică.

[Notă] Notă

Sistemul tradițional de codificare actual poate fi identificat prin „/usr/share/i18n/SUPPORTED”. Astfel, „LANG=en_US” este „LANG=en_US.ISO-8859-1”.

Pachetul locales-all vine cu date de configurație regională precompilate pentru toate datele de configurație regională. Deoarece nu creează „/etc/default/locale”, este posibil să fie necesar să instalați și pachetul locales.

[Indicație] Indicație

Pachetul locales al unor distribuții derivate din Debian vine cu date de configurație regională precompilate pentru toate datele locale. Trebuie să instalați atât pachetul locales, cât și pachetul locales-all pe Debian pentru a emula un astfel de mediu de sistem.

Pentru schimburile de date între platforme (a se vedea Secțiune 10.1.7, „Removable storage device”), poate fi necesar să montați unele sisteme de fișiere cu codificări speciale. De exemplu, mount(8) pentru sistemul de fișiere vfat presupune CP437 dacă este utilizat fără opțiune. Trebuie să furnizați o opțiune de montare explicită pentru a utiliza UTF-8 sau CP932 pentru numele fișierelor.

[Notă] Notă

When auto-mounting a hot-pluggable USB flash drive under modern desktop environment such as GNOME, you may provide such mount option by right clicking the icon on the desktop, click "Drive" tab, click to expand "Setting", and entering "utf8" to "Mount options:". The next time this USB flash drive is mounted, mount with UTF-8 is enabled.

[Notă] Notă

Dacă actualizați sistemul sau mutați unitățile de disc de pe un sistem mai vechi care nu utilizează UTF-8, numele fișierelor cu caractere non-ASCII pot fi codificate în codificări istorice și învechite, cum ar fi ISO-8859-1 sau eucJP. Vă rugăm să solicitați ajutorul instrumentelor de conversie a textului pentru a le converti în UTF-8. Consultați Secțiune 11.1, „Text data conversion tools”.

Samba utilizează Unicode pentru clienții mai noi (Windows NT, 200x, XP), dar utilizează CP850 pentru clienții mai vechi (DOS și Windows 9x/Me) ca valoare implicită. Această valoare implicită pentru clienții mai vechi poate fi modificată utilizând „dos charset” în fișierul „/etc/samba/smb.conf”, de exemplu, la CP932 pentru japoneză.

Există traduceri pentru multe dintre mesajele text și documentele afișate în sistemul Debian, cum ar fi mesajele de eroare, ieșirile standard ale programelor, meniurile și paginile de manual. Lanțul de instrumente GNU gettext(1) este utilizat ca instrument de bază pentru majoritatea activităților de traducere.

În secțiunea „Sarcini” → „Localizare” aptitude(8) oferă o listă extinsă de pachete binare utile care adaugă mesaje în limba maternă aplicațiilor și furnizează documentație tradusă.

De exemplu, puteți obține mesajul în limba maternă pentru pagina de manual instalând pachetul manpages-LANG. Pentru a citi pagina de manual în limba italiană pentru programname din „/usr/share/man/it/”, executați următoarea comandă.

LANG=it_IT.UTF-8 man programname

GNU gettext poate acomoda lista de priorități a limbilor de traducere cu variabila de mediu $LANGUAGE. De exemplu:

 $ export LANGUAGE="pt:pt_BR:es:it:fr"

Pentru mai multe informații, consultați info gettext și citiți secțiunea „Variabila LANGUAGE”.

Ordinea de sortare a caracterelor cu sort(1) și ls(1) este afectată de configurația regională. Exportarea LANG=en_US.UTF-8 sortează în dicționarul A->a->B->b... ->Z->z, în timp ce exportarea LANG=C.UTF-8 sortează în ordinea binară ASCII A->B->...->Z->a->b....

Formatul datei ls(1) este influențat de configurația regională (a se vedea Secțiune 9.3.4, „Afișare personalizată a orei și datei”).

Formatul datei date(1) este influențat de configurația regională. De exemplu:

 $ unset LC_ALL
 $ LANG=en_US.UTF-8 date
Thu Dec 24 08:30:00 PM JST 2023
 $ LANG=en_GB.UTF-8 date
Thu 24 Dec 20:30:10 JST 2023
 $ LANG=es_ES.UTF-8 date
jue 24 dic 2023 20:30:20 JST
 $ LC_TIME=en_DK.UTF-8 date
2023-12-24T20:30:30 JST

Punctuația numerelor diferă în funcție de configurația regională. De exemplu, în configurația regională engleză, o mie și unu se afișează ca „1,000.1”, în timp ce în configurația regională germană se afișează ca „1.000,1”. Puteți observa această diferență în programul de foi de calcul.

Fiecare caracteristică detaliată a variabilei de mediu „$LANG” poate fi suprascrisă prin definirea variabilelor „$LC_*”. Aceste variabile de mediu pot fi suprascrise din nou prin definirea variabilei „$LC_ALL”. Consultați pagina de manual locale(7) pentru detalii. Dacă nu aveți un motiv întemeiat pentru a crea o configurație complicată, vă rugăm să le evitați și să utilizați numai variabila „$LANG” definită la una dintre configurările lingvistice UTF-8.

Pentru GNOME în sistemul grafic de birou Wayland, Secțiune 8.2.1, „Introducerea de la tastatură pentru consola Linux și X Window” nu poate oferi suport pentru limbile europene non-engleze. IBus a fost creat pentru a oferi suport nu numai pentru limbile asiatice, ci și pentru limbile europene. Dependența pachetului mediului grafic de birou GNOME recomandă „ibus” prin „gnome-shell”. Codul „ibus” a fost actualizat pentru a integra funcționalitățile setxkbmap și opțiunea XKB. Trebuie să configurați ibus din „Configurări GNOME” sau „Ajustări GNOME” pentru introducerea multilingvă de la tastatură.

[Notă] Notă

Dacă ibus este activ, configurația clasică a tastaturii X prin setxkbmap poate fi suprascrisă de ibus chiar și în mediul de birou clasic bazat pe X. Puteți dezactiva ibus instalat utilizând im-config pentru a stabili metoda de introducere la „Niciuna”. Pentru mai multe informații, consultați Debian Wiki despre tastatură.

Deoarece mediul grafic de birou GNOME recomandă „ibus” prin „gnome-shell”, „ibus” este alegerea potrivită pentru metoda de introducere.

Introducerea multilingvă în aplicație este procesată astfel:

Keyboard                                       Application
   |                                                 ^
   |                                                 |
   +-> Linux kernel ->  Input method (ibus)  -> Gtk, Qt, X, Wayland
                          +-- Engine--+

Lista pachetelor IBus și a motorului său este următoarea.


[Notă] Notă

Pentru limba chineză, „fcitx5” poate fi o alternativă la infrastructura metodei de introducere. Pentru pasionații de Emacs, „uim” poate fi o alternativă. În ambele cazuri, poate fi necesară o configurare manuală suplimentară cu im-config. Unele metode de introducere clasice vechi, cum ar fi „kinput2”, pot exista încă în depozitul Debian, dar nu sunt recomandate pentru mediul modern.

Consider că metoda de introducere a caracterelor japoneze pornită în mediul englez („en_US.UTF-8”) este foarte utilă. Iată cum am procedat cu IBus pentru GNOME în Wayland:

  1. Instalați pachetul de instrumente de introducere a textului în limba japoneză ibus-mozc (sau ibus-anthy) împreună cu pachetele recomandate, cum ar fi im-config.

  2. Selectați „Configurări” → „Tastatură” → „Surse de introducere” → faceți clic pe „+” în „Surse de introducere” → „Japoneză” → „Japoneză mozc (sau anthy)” și faceți clic pe „Adaugă” dacă nu a fost activată.

  3. Puteți alege câte surse de intrare doriți.

  4. Conectați-vă din nou la contul dvs. de utilizator.

  5. Configurați fiecare sursă de intrare făcând clic dreapta pe pictograma barei de instrumente din interfața grafică.

  6. Comutați între sursele de intrare instalate cu ajutorul SUPER-SPACE; (SUPER este, de obicei, tasta Windows).

[Indicație] Indicație

Dacă doriți să aveți acces la un mediu de tastatură numai cu alfabetul, cu tastatura fizică japoneză pe care shift-2 are gravată " (ghilimele duble), selectați „Japoneză” în procedura de mai sus. Puteți introduce text în japoneză utilizând „Japanese mozc (sau anthy)” cu tastatura fizică „US” pe care shift-2 are gravat @ (semnul a-încercuitt).

  • Intrarea din meniul interfeței grafice pentru im-config(8) este „Metoda de introducere”.

  • Alternativ, executați „im-config” din shell-ul utilizatorului.

  • im-config(8) se comportă diferit dacă comanda este executată din contul root sau nu.

  • im-config(8) activează cea mai bună metodă de introducere a datelor din sistem ca metodă implicită, fără nicio acțiune din partea utilizatorului.

Consola Linux poate afișa doar un număr limitat de caractere. (Pentru a afișa limbi non-europene pe consola fără interfață grafică, trebuie să utilizați un program terminal special, cum ar fi jfbterm(1).)

Mediul grafic (Cap. 7, Sistemul de interfață grafică) poate afișa orice caractere în UTF-8, atâta timp cât fonturile necesare sunt instalate și activate; (codificarea datelor originale ale fonturilor este asigurată și transparentă pentru utilizator).

Under the East Asian locale, the box drawing, Greek, and Cyrillic characters may be displayed wider than your desired width to cause the unaligned terminal output (see Unicode Standard Annex #11, 4.2 Ambiguous Characters).

Puteți rezolva această problemă:

  • gnome-terminal: Preferințe → Profiluri → Numele profilului → Compatibilitate → Caractere cu lățime imprecisă → Înguste

  • ncurses: Definiți mediul export NCURSES_NO_UTF8_ACS=0.