字符集和单词的最佳使用方式,字符集单词方式從實際經驗上看來,l


Linux下的編碼和字符集的資料

locale是國際化與本土化過程中的一個非常重要的概念,個人認為,對於中文用戶來說,通常會涉及到的國際化

或者本土化,大致包含三個方面:看中文,寫中文,與 window中文系統的兼容和通信。從實際經驗上看來,locale的設定與看中文關系不大,但是與寫中文,及window分區的掛載方式有很密切的關系。本人認為就像一個純英文的Windows能夠瀏覽中文,日文或者意大利文網頁一樣,你不需要設定locale就可以看中文。那麽,為什麽要設定 locale呢?什麽時候會用到locale呢?  
(1) 為什麽要設定locale

正如前面我所講的,設定locale與你能否瀏覽中文的網頁沒有直接的關系,即便你把locale設置成en_US.ISO-

8859-1這樣一個標準的英文locale你照樣可以瀏覽中文的網頁,只要你的系統裏面有相應的字符集(這個都不一定需要)和合適的字體(如simsun),瀏覽器就可以把網頁翻譯成中文給你看。具體的過程是網絡把網頁傳送到你的機器上之後,瀏覽器會判斷相應的編碼的字符集,根據網頁采用的字符集,去字體庫裏面找合適的字體,然後由文字渲染工具把相應的文字在屏幕上顯示出來。  
在下文本人會偶爾把字符集比喻成密碼本,個人覺得對於一些東西比較容易理解,假如你不習慣的話,把全文

 copy到任何文本編輯器,用字符集替換密碼本即可。 那有時候網頁顯示亂碼或者都是方框是怎麽回事呢?個人認為,顯示亂碼是因為設定的字符集不對(或者沒有相應的字符集),例如網頁是用UTF-8編碼的,你非要用GB2312去看,而系統根據GB2312去找字體,然後在屏幕上顯示,當然是一堆的亂碼,也就是說你用一個錯誤的密碼本去翻譯發給你的電報,當然內容那叫一個亂;至於有些時候瀏覽的網頁能顯示一部分漢字,但有很多的地方是方框,能夠顯示漢字說明瀏覽器已經正確的判斷出了網頁的編碼,並在字體庫裏面找到了相應的文字,但是並不是每個字體庫都包含某個字符集全部的字體的緣故,有些時候會顯示不完全,找一個比較全的支持較多字符集的字體就可以了。  
 既然我能夠瀏覽中文網頁,那為什麽我還要設定locale呢?其實你有沒有想過這麽一個問題,為什麽Gentoo官方

 論壇上中文論壇的網頁是用UTF-8編碼的(雖然大家一直強烈建議用GB2312編碼),但是新浪網就是用GB2312編碼的呢?而Xorg的官方網頁竟然是ISO-8859-15編碼的,我沒有設定這個locale怎麽一樣的能瀏覽呢?這個問題就像是你有所有的密碼本,不論某個網站是用什麽字符集編碼的,你都可以用你手裏的密碼本把他們翻譯過來,但問題是雖然你能瀏覽中文網頁,但是在整個操作系統裏面流動的還是英文字符。所以,就像你能聽懂英語,也能聽懂中文。 最根本的問題是:你不可以寫中文。  
 當你決定要寫什麽東西的時候,首先要決定的一件事情是用那種語言,對於計算機來說就是你要是用哪一種字符集,你就必須告訴你的linux系統,你想用那一本密碼本去寫你想要寫的東西。知道為什麽需要用GB2312字符集去瀏覽新浪了吧,因為新浪的網頁是用GB2312寫的。為了讓你的Linux能夠輸入中文,就需要把系統的locale設定成中文的(嚴格說來是locale的語言類別LC_CTYPE ),例如zh_CN.GB2312、zh_CN.GB18030或者zh_CN.UTF-8。很多人都不明白這些古裏古怪的表達方式。這個外星表達式規定了什麽東西呢?這個問題稍後詳述,現在只需要知道,這是locale的表達方式就可以了。

相关内容