旁遮普代碼
⑴ 求一份世界語種的清單
目前世界約有7000種語言,一半以上的沒文字,每2周消亡一種,本世紀內約有1半消亡。
部分與系統不兼容顯示不了,會出現亂碼及代碼。
大語種:1 中阿俄英法西6種聯合國用語 2 獨指:英語
小語種:1 聯合國6語以外所有語種 2 英語以外所有語種
世界通用性主流語種6種:
1、中文漢語/中文漢語:(簡體)中文漢語/(繁體)中文漢語
2、阿拉伯語:اللغة العربية
3、俄語:Русский язык
4、英語: English
5、法語:français
6、西班牙語:castellano
次級通用性第二主流語種
7、葡萄牙語:Português
8、德語:Deutsch
9、日語(注意'語'和'語'):日本語 平假名:にほんご,片假名:ニホンゴ,羅馬音:nihon go
10、孟加拉語:??? (會有亂碼和代碼)
11、印地語/烏爾都語:???/ اردو
印度的'國語'印地語和巴基斯坦'國語'烏爾都語兩者基本屬同一語言,2國口頭上交流不困難,書面上就不行了。孟加拉文和印地文文字都是梵系文字。
世界主流母語人口語種
12、(9千萬)旁遮普語:Gurmukhī字母:?Shahmukhi字母:پنجابی
13、(8千萬)爪哇語:???
小通用性第三主流語種
1、孟加拉語:???
2、斯瓦希里語:kiswahili
3、波斯語(或有亂碼及代碼):فارسی = Fârsi, پارسی = Pârsi
4、馬來語:BahasaMelayu
5、菲律賓語/塔加洛語:Tagalog
6、荷蘭語:Nederlands
7、義大利語:Italiano
第三以下其他主流:
土耳其語:Türkçe
韓語:한국어
⑵ 歐陸風雲4國家代碼在哪個文件里
1、打開控制台。
《歐陸風雲4》是由Paradox Development Studio製作,Paradox Entertainment於2013年8月13日發行的一款策略游戲,是《歐陸風雲》系列游戲的第四部作品,游戲在一張地圖上進行同時這張地圖模擬了真實世界。
這部作品相較前幾部在畫面跟音效上雖然沒有多大改變,不過加入了許多新鮮的游戲元素包括地圖的增加、任務的增加還有新型兵種的增加等。
拓展資料:
這款是名副其實的策略游戲,游戲的全部過程都是在一張地圖上完成包括內政、外交、戰爭等,游戲中出現的戰役中超過千件任務是歷史上真實發生過的大事件,游戲的各種國家經濟系統也使用高度擬真的方式,這部作品相較前幾部在畫面跟音效上雖然沒有多大改變,不過加入了許多心新鮮的游戲元素,包括地圖的增加、任務的增加還有新型兵種的增加等(1.8版本增加艦隊升級功能),該游戲在策略游戲中屬於佼佼者。
歐陸風雲4
⑶ 什麼叫項目編碼
項目編碼採用十二位阿拉伯數字表示(我省補充項目以十一位數字表示)。一至九位為統一編碼。
一、二位為工程分類順序碼(計價規范稱附錄順序碼),三、四位為專業工程順序碼,五、六位為分部工程順序碼,七、八、九位為分項工程項目名稱順序碼。十至十二位(或十一位)為清單項目名稱順序碼。
例如:010302001表示附錄A建築工程的第三章砌築工程第二節磚砌體分部的實心磚牆。
(3)旁遮普代碼擴展閱讀:
UCS 包含了用於表達所有已知語言的字元。不僅包括拉丁語,希臘語,斯拉夫語,希伯來語,阿拉伯語,亞美尼亞語和喬治亞語的描述。
還包括中文,日文和韓文這樣的象形文字,以及平假名,片假名,孟加拉語,旁遮普語果魯穆奇字元(Gurmukhi),泰米爾語, 印.埃納德語(Kannada),Malayalam。
泰國語, 寮國語, 漢語拼音(Bopomofo), Hangul,Devangari,Gujarati, Oriya,Telugu 以及其它語種。
對於還沒有加入的語言, 由於正在研究怎樣在計算機中最好地編碼它們, 因而最終它們都將被加入。這些語言包括Tibetian,高棉語,Runic(古代北歐文字),衣索比亞語, 其他象形文字,以及各種各樣的印-歐語系的語言。
還包括挑選出來的藝術語言比如 Tengwar,Cirth 和克林貢語(Klingon)。UCS 還包括大量的圖形的,印刷用的,數學用的和科學用的符號,包括所有由 TeX,Postscript,MS-DOS,MS-Windows, Macintosh, OCR字體, 以及許多其他字處理和出版系統提供的字元。
⑷ 巴基斯坦的國家代碼是什麼呢
巴基斯坦的國家代碼是PAK,位於東5區,首都伊斯蘭堡當地時間比北京時間晚3個小時。巴基斯坦伊斯蘭共和國,簡稱巴基斯坦,是首個和中華人民共和國建立外交關系的伊斯蘭國家。作為中國的堅定朋友,與中國「是長期、全天候和多方面發展的友好關系」,中國網民稱其為「巴鐵」。
巴基斯坦是多民族國家,其中旁遮普人佔63%,信德人佔18%,普什圖人佔11%,俾路支人佔4%。按照地域和歷史文化傳統劃分,巴基斯坦是一個多民族國家,主要民族有旁遮普族、信德族 、巴丹族(普什圖族)和俾路支族。
在巴基斯坦,人們更習慣於按照地域的概念稱四省的人為旁遮普人、信德人、巴丹人(普什圖人)和俾路支人。同樣,巴基斯坦還有克什米爾人、布拉灰人、奇特拉爾人和古吉拉特人等人數較少的民族和部落。
(4)旁遮普代碼擴展閱讀:
巴基斯坦政府2019年3月14日宣布放寬簽證政策,並啟動一個網上簽證申請系統,以簡化赴巴簽證申請,吸引更多外國人赴巴投資和旅遊,促進巴經濟發展。
巴總理伊姆蘭·汗當天在伊斯蘭堡舉行的新系統啟動儀式上說,新簽證申請系統是巴簽證政策的重大改變,將加快巴簽證申請速度,讓巴更加開放,並有助於吸引更多外國投資和遊客。
巴內政國務部長阿夫里迪當天早些時候表示,新的網上簽證系統在巴基斯坦內政部下屬的國家資料庫和注冊局網站上開放,將首先面向中國、英國、土耳其、馬來西亞和阿拉伯聯合大公國五個國家。
據了解,新簽證政策下,巴外交簽證期限將從一年一簽改為三年一簽,學生簽證將從目前的一年一簽延長為兩年一簽。
⑸ 簡述區域acsii碼,漢字gb編碼,unicode碼,utf-8碼的編碼原理和他們之間的聯系
1.ASCII與Binary
我們日常接觸到的文件分ASCII和Binary兩種。ASCII是「美國信息交換標准編碼」的英文字頭縮寫,可稱之為「美標」。美標規定了用從0到127的128個數字來代表信息的規范編碼,其中包括33個控制碼,一個空格碼,和94個形象碼。形象碼中包括了英文大小寫字母,阿拉伯數字,標點符號等。我們平時閱讀的英文電腦文本,就是以形象碼的方式傳遞和存儲的。美標是國際上大部分大小電腦的通用編碼。
然而電腦中的一個字元大都是用一個八位數的二進制數字表示。這樣每一字元便可能有256個不同的數值。由於美標只規定了128個編碼,剩下的另外128個數碼沒有規范,各家用法不一。另外美標中的33個控制碼,各廠家用法也不盡一致。這樣我們在不同電腦間交換文件的時候,就有必要區分兩類不同的文件。第一類文件中每一個字都是美標形象碼或空格碼。這類文件稱為「美標文本文件」(ASCII Text Files),或略為「文本文件」,通常可在不同電腦系統間直接交換。第二類文件,也就是含有控制碼或非美標碼的文件,通常不能在不同電腦系統間直接交換。這類文件有一個通稱,叫「二進制文件」(Binary Files)。
2.國標、區位、「准國標」
「國標」是「中華人民共和國國家標准信息交換用漢字編碼」的簡稱。國標表(基本表)把七千餘漢字、以及標點符號、外文字母等,排成一個94行、94列的方陣。方陣中每一橫行叫一個「區」,每個區有九十四個「位」。一個漢字在方陣中的坐標,稱為該字的「區位碼」。例如「中」字在方陣中處於第54區第48位,它的區位碼就是5448。
其實94這個數字。它是美標中形象碼的總數。國標表沿用這個數字,本意大概是要用兩個美標形象符代表一個漢字。由於美標形象符的編碼是從33到126,漢字區、位碼如果各加上32,就會與美標形象碼的范圍重合。如上例「中」字區、位碼加上32後,得86,80。這兩個數字的十六進制放在一起得5650,稱為該字的「國標碼」,而與其相對應的兩個美標符號,VP,也就是「中」字的「國標符」了。
這樣就產生了一個如何區分國標符與美標符的問題。在一個中英文混用的文件里,「VP」到底代表「中」字呢,還是代表某個英文字頭縮寫?電子工業部第六研究所開發CCDOS的時候,使用了一個簡便的解決方案:把國標碼的兩個數字各加上128,上升到非美標碼的位置。(改變後的國標碼,習慣上仍叫「國標」。)
這個方案固然解決了原來的問題,可是新的問題隨之產生。中文文件成了「二進制文件」,既不能可靠地在不同電腦系統間交換,也不與市場上大部分以美標符號為設計對象的軟體兼容。
為了區分以上兩種「國標」,我們把原與美標形象碼重合的國標碼稱為「純國標」 ,而把CCDOS加上128的國標碼稱為「准國標」。
3.GBK碼:
GBK碼是GB碼的擴展字元編碼,對多達2萬多的簡繁漢字進行了編碼,簡體版的Win95和Win98都是使用GBK作系統內碼。
從實際運用來看,微軟自win95簡體中文版開始,系統就採用GBK代碼,它包括了TrueType宋體、黑體兩種GBK字型檔(北京中易電子公司提供),可以用於顯示和列印,並提供了四種GBK漢字的輸入法。此外,瀏覽器IE4.0簡體、繁體中文版內部提供了一個GBK-BIG5代碼雙向轉換功能。此外,微軟公司為IE提供的語言包中,簡體中文支持(Simplified Chinese Language Support Kit)的兩種字型檔宋體、黑體,也是GBK漢字(珠海四通電腦排版系統開發公司提供)。其他一些中文字型檔生產廠商,也開始提供TrueType或PostScript GBK字型檔。
許多外掛式的中文平台,如南極星、四通利方(Richwin)等,提供GBK碼的支持,包括字型檔、輸入法和GBK與其他中文代碼的轉化器。
互聯網方面,許多網站網頁使用GBK代碼。
但是多數搜索引擎都不能很好的支持GBK漢字搜索,大陸地區的搜索引擎有些能不完善的支持GBK漢字檢索。
其實,GBK是又一個漢字編碼標准,全稱《漢字內碼擴展規范》(Chinese Internatial Code Specification),1995年頒布。GB是國標,K是漢字「擴展」的漢語拼音第一個字母。
GBK向下與GB-2312編碼兼容,向上支持ISO 10646.1國際標准,是前者向後者過渡的一個承啟標准。
GBK規范收錄了ISO 10646.1中的全部CJK漢字和符號,並有所補充。具體包括:GB 2312中的全部漢字、非漢字元號;GB 13000.1中的其他CJK漢字。以上合計20902個GB化漢字;《簡化總表中》未收入GB 13000.1的52個漢字;《康熙字典》以及《辭海》中未被收入GB 13000.1的28個部首及重要構件;13個漢字結構符;BIG-5中未被GB 2312收入、但存在於GB 13000.1的139個圖形符號;GB 12345增補的6個拼音符號;GB 12345增補的19個豎排圖形符號(GB 12345較GB 2312增補豎排標點符號29個,其中10個未被GB 13000.1收入,故GBK亦不收);從GB 13000.1的CJK兼容區挑選出的21個漢字;GB 13000.1收入的31個IBM OS/2專用符號。GBK亦採用雙位元組表示,總體編碼范圍為0x8140~0xFEFE之間,首位元組在0x81~0xFE之間,尾位元組在0x40~0xFE之間,剔除0x××7F一條線,總計23940個碼位,共收入21886個漢字和圖形符號,其中漢字(包括部首和構件)21003個,圖形符號883個。
4.BIG5碼:
BIG5碼是針對繁體漢字的漢字編碼,目前在台灣、香港的電腦系統中得到普遍應用。BIG5碼的編碼范圍參考下文。
5.HZ碼:
HZ碼是在Internet上廣泛使用的一種漢字編碼。「HZ」方案的特點,是以「純國標」的中文與美標碼混用。那麼「HZ」是怎樣區分國標符和美標符的呢?答案其實也很簡單:當一串美標碼中間插入一段國標碼的時候,我們便在國標碼的前面加上~,後面加上~。這些附加碼分別叫「逃出碼」和「逃入碼」。 由於這些附加碼本身也是美標形象碼,整個文件就儼然是一個美標文本文件,可以安然地 在電腦網上傳遞,也和大部分英文文本處理軟體兼容。
6.ISO-2022CJK碼:
ISO-2022是國際標准組織(ISO)為各種語言字元制定的編碼標准。採用二個位元組編碼,其中漢語編碼稱ISO-2022 CN,日語、韓語的編碼分別稱JP、KR。一般將三者合稱CJK碼。目前CJK碼主要在Internet網路中使用。
7.UCS 和 ISO 10646:
1993年,國際標准ISO10646 定義了通用字元集 (Universal Character Set, UCS)。 UCS 是所有其他字元集標準的一個超集。它保證與其他字元集是雙向兼容的。就是說, 如果你將任何文本字元串翻譯到 UCS格式,然後再翻譯回原編碼, 你不會丟失任何信息。
UCS 包含了用於表達所有已知語言的字元。不僅包括拉丁語,希臘語,斯拉夫語,希伯來語,阿拉伯語,亞美尼亞語和喬治亞語的描述, 還包括中文,日文和韓文這樣的象形文字,以及平假名,片假名,孟加拉語, 旁遮普語果魯穆奇字元(Gurmukhi), 泰米爾語, 印.埃納德語(Kannada),Malayalam,泰國語, 寮國語, 漢語拼音(Bopomofo), Hangul,Devangari,Gujarati, Oriya,Telugu 以及其它語種。對於還沒有加入的語言, 由於正在研究怎樣在計算機中最好地編碼它們, 因而最終它們都將被加入。這些語言包括Tibetian,高棉語,Runic(古代北歐文字),衣索比亞語, 其他象形文字,以及各種各樣的印-歐語系的語言,還包括挑選出來的藝術語言比如 Tengwar,Cirth 和 克林貢語(Klingon)。UCS 還包括大量的圖形的,印刷用的,數學用的和科學用的符號,包括所有由 TeX,Postscript, MS-DOS,MS-Windows, Macintosh, OCR 字體, 以及許多其他字處理和出版系統提供的字元。
ISO 10646 定義了一個 31 位的字元集。 然而, 在這巨大的編碼空間中, 迄今為止只分配了前 65534 個碼位 (0x0000 到 0xFFFD)。這個UCS的16位子集稱為基本多語言面 (Basic Multilingual Plane, BMP)。 將被編碼在16位BMP以外的字元都屬於非常特殊的字元(比如象形文字), 且只有專家在歷史和科學領域里才會用到它們。按當前的計劃, 將來也許再也不會有字元被分配到從0x000000到0x10FFFF這個覆蓋了超過100萬個潛在的未來字元的 21 位的編碼空間以外去了。ISO 10646-1標准第一次發表於1993年, 定義了字元集與 BMP 中內容的架構。定義 BMP以外的字元編碼的第二部分 ISO 10646-2 正在准備中, 但也許要過好幾年才能完成。新的字元仍源源不斷地加入到 BMP 中, 但已經存在的字元是穩定的且不會再改變了。
UCS 不僅給每個字元分配一個代碼, 而且賦予了一個正式的名字。表示一個 UCS 或 Unicode 值的十六進制數, 通常在前面加上 「U+」, 就象U+0041 代表字元「拉丁大寫字母A」。UCS字元U+0000到U+007F 與 US-ASCII(ISO 646) 是一致的, U+0000 到 U+00FF 與 ISO 8859-1(Latin-1) 也是一致的。從 U+E000 到 U+F8FF,已經BMP 以外的大范圍的編碼是為私用保留的。
1993年,ISO10646中定義的USC-4 (Universal Character Set) ,使用了4 個位元組的寬度以容納足夠多的相當可觀的空間,但是這個過於肥胖的字元標准在當時乃至現在都有其不現實的一面,就是會過分侵佔存儲空間並影響信息傳輸的效率。 與此同時,Unicode 組織於約 10 年前以 Universal, Unique和Uniform 為主旨也開始開發一個16位字元標准, 為避免兩種16位編碼的競爭,1992年兩家組織開始協商,以期折衷尋找共同點,這就是今天的 UCS-2 (BMP,Basic Multilingual Plane,16bit) 和Unicode,但它們仍然是不同的方案。
8.Unicode碼:
關於Unicode我們需要追溯一下它產生的淵源。
當計算機普及到東亞時,遇到了使用表意字元而非字母語言的中、日、韓等國家。在這些國家使用的語言中常用字元多達幾千個,而原來字元採用的是單位元組編碼,一張代碼頁中最多容納的字元只有28=256個,對於使用表意字元的語言是在無能為力。既然一個位元組不夠,自然人們就採用兩個位元組,所有出現了使用雙位元組編碼的字元集(DBCS)。不過雙位元組字元集中雖然表意字元使用了兩個位元組編碼,但其中的ASCII碼和日文片假名等仍用單位元組表示,如此一來給程序員帶來了不小的麻煩,因為每當設計到DBCS字元串的處理時,總是要判斷當中的一個位元組到底表示的是一個字元還是半個字元,如果是半個字元,那是前一半還是後一半?由此可見DBCS並不是一種非常好的解決方案。
人們在不斷尋找這更好的字元編碼方案,最後的結果就是Unicode誕生了。Unicode其實就是寬位元組字元集,它對每個字元都固定使用兩個位元組即16位表示,於是當處理字元時,不必擔心只處理半個字元。
目前,Unicode在網路、Windows系統和很多大型軟體中得到應用。
⑹ 編碼的體系
我們日常接觸到的文件分ASCII和Binary兩種。ASCII是「美國信息交換標准編碼」的英文字頭縮寫,可稱之為「美標」。美標規定了用從0到127的128個數字來代表信息的規范編碼,其中包括33個控制碼,一個空格碼,和94個形象碼。形象碼中包括了英文大小寫字母,阿拉伯數字,標點符號等。我們平時閱讀的英文電腦文本,就是以形象碼的方式傳遞和存儲的。美標是國際上大部分大小電腦的通用編碼。
然而電腦中的一個字元大都是用一個八位數的二進制數字表示。這樣每一字元便可能有256個不同的數值。由於美標只規定了128個編碼,剩下的另外128個數碼沒有規范,各家用法不一。另外美標中的33個控制碼,各廠家用法也不盡一致。這樣我們在不同電腦間交換文件的時候,就有必要區分兩類不同的文件。第一類文件中每一個字都是美標形象碼或空格碼。這類文件稱為「美標文本文件」(ASCII Text Files),或略為「文本文件」,通常可在不同電腦系統間直接交換。第二類文件,也就是含有控制碼或非美標碼的文件,通常不能在不同電腦系統間直接交換。這類文件有一個通稱,叫「二進制文件」(Binary Files)。 「國標」是「中華人民共和國國家標准信息交換用漢字編碼」的簡稱。國標表(基本表)把七千餘漢字、以及標點符號、外文字母等,排成一個94行、94列的方陣。方陣中每一橫行叫一個「區」,每個區有九十四個「位」。一個漢字在方陣中的坐標,稱為該字的「區位碼」。例如「中」字在方陣中處於第54區第48位,它的區位碼就是5448。
其實94這個數字。它是美標中形象碼的總數。國標表沿用這個數字,本意大概是要用兩個美標形象符代表一個漢字。由於美標形象符的編碼是從33到126,漢字區位碼如果各加上32,就會與美標形象碼的范圍重合。如上例「中」字區、位碼加上32後,得86,80。這兩個數字的十六進制放在一起得5650,稱為該字的「國標碼」,而與其相對應的兩個美標符號,VP,也就是「中」字的「國標符」了。
這樣就產生了一個如何區分國標符與美標符的問題。在一個中英文混用的文件里,「VP」到底代表「中」字呢,還是代表某個英文字頭縮寫?電子工業部第六研究所開發CCDOS的時候,使用了一個簡便的解決方案:把國標碼的兩個數字各加上128,上升到非美標碼的位置。(改變後的國標碼,習慣上仍叫「國標」。)
這個方案固然解決了原來的問題,可是新的問題隨之產生。中文文件成了「二進制文件」,既不能可靠地在不同電腦系統間交換,也不與市場上大部分以美標符號為設計對象的軟體兼容。
為了區分以上兩種「國標」,我們把原與美標形象碼重合的國標碼稱為「純國標」 ,而把CCDOS加上128的國標碼稱為「准國標」。 GBK碼是GB碼的擴展字元編碼,對多達2萬多的簡繁漢字進行了編碼,簡體版的Win95和Win98都是使用GBK作系統內碼。
從實際運用來看,微軟自win95簡體中文版開始,系統就採用GBK代碼,它包括了TrueType宋體、黑體兩種GBK字型檔(北京中易電子公司提供),可以用於顯示和列印,並提供了四種GBK漢字的輸入法。此外,瀏覽器IE4.0簡體、繁體中文版內部提供了一個GBK-BIG5代碼雙向轉換功能。此外,微軟公司為IE提供的語言包中,簡體中文支持(Simplified Chinese Language Support Kit)的兩種字型檔宋體、黑體,也是GBK漢字(珠海四通電腦排版系統開發公司提供)。其他一些中文字型檔生產廠商,也開始提供TrueType或PostScript GBK字型檔。
許多外掛式的中文平台,如南極星、四通利方(Richwin)等,提供GBK碼的支持,包括字型檔、輸入法和GBK與其他中文代碼的轉化器。
互聯網方面,許多網站網頁使用GBK代碼。
但是多數搜索引擎都不能很好的支持GBK漢字搜索,大陸地區的搜索引擎有些能不完善的支持GBK漢字檢索。
其實,GBK是又一個漢字編碼標准,全稱《漢字內碼擴展規范》(Chinese Internatial Code Specification),1995年頒布。GB是國標,K是漢字「擴展」的漢語拼音第一個字母。
GBK向下與GB-2312編碼兼容,向上支持ISO 10646.1國際標准,是前者向後者過渡的一個承啟標准。
GBK規范收錄了ISO 10646.1中的全部CJK漢字和符號,並有所補充。具體包括:GB 2312中的全部漢字、非漢字元號;GB 13000.1中的其他CJK漢字。以上合計20902個GB化漢字;《簡化總表中》未收入GB 13000.1的52個漢字;《康熙字典》以及《辭海》中未被收入GB 13000.1的28個部首及重要構件;13個漢字結構符;BIG-5中未被GB 2312收入、但存在於GB 13000.1的139個圖形符號;GB 12345增補的6個拼音符號;GB 12345增補的19個豎排圖形符號(GB 12345較GB 2312增補豎排標點符號29個,其中10個未被GB 13000.1收入,故GBK亦不收);從GB 13000.1的CJK兼容區挑選出的21個漢字;GB 13000.1收入的31個IBM OS/2專用符號。GBK亦採用雙位元組表示,總體編碼范圍為0x8140~0xFEFE之間,首位元組在0x81~0xFE之間,尾位元組在0x40~0xFE之間,剔除0x××7F一條線,總計23940個碼位,共收入21886個漢字和圖形符號,其中漢字(包括部首和構件)21003個,圖形符號883個。 HZ 碼是中國留學生為了使漢字信息能在網路上直接傳送而產生的。因目前大多數 (西方)網路系統為7位,最高位被屏蔽掉,因此 GB 碼無法被直接傳輸,HZ 碼是為了達到在7位網路系統中直接傳遞漢字信息的目的而規范的。
「HZ」方案的特點,是以「純國標」的中文與美標碼混用。那麼「HZ」是怎樣區分國標符和美標符的呢?答案其實也很簡單:當一串美標碼中間插入一段國標碼的時候,我們便在國標碼的前面加上~,後面加上~。這些附加碼分別叫「逃出碼」和「逃入碼」。 由於這些附加碼本身也是美標形象碼,整個文件就儼然是一個美標文本文件,可以安然地 在電腦網上傳遞,也和大部分英文文本處理軟體兼容。 1993年,國際標准ISO10646 定義了通用字元集(Universal Character Set, UCS)。 UCS 是所有其他字元集標準的一個超集。它保證與其他字元集是雙向兼容的。就是說, 如果你將任何文本字元串翻譯到 UCS格式,然後再翻譯回原編碼, 你不會丟失任何信息。
UCS 包含了用於表達所有已知語言的字元。不僅包括拉丁語,希臘語,斯拉夫語,希伯來語,阿拉伯語,亞美尼亞語和喬治亞語的描述, 還包括中文,日文和韓文這樣的象形文字,以及平假名,片假名,孟加拉語,旁遮普語果魯穆奇字元(Gurmukhi),泰米爾語, 印.埃納德語(Kannada),Malayalam,泰國語, 寮國語, 漢語拼音(Bopomofo), Hangul,Devangari,Gujarati, Oriya,Telugu 以及其它語種。對於還沒有加入的語言, 由於正在研究怎樣在計算機中最好地編碼它們, 因而最終它們都將被加入。這些語言包括Tibetian,高棉語,Runic(古代北歐文字),衣索比亞語, 其他象形文字,以及各種各樣的印-歐語系的語言,還包括挑選出來的藝術語言比如 Tengwar,Cirth 和克林貢語(Klingon)。UCS 還包括大量的圖形的,印刷用的,數學用的和科學用的符號,包括所有由 TeX,Postscript,MS-DOS,MS-Windows, Macintosh, OCR字體, 以及許多其他字處理和出版系統提供的字元。
ISO 10646 定義了一個 31 位的字元集。 然而, 在這巨大的編碼空間中, 迄今為止只分配了前 65534 個碼位 (0x0000 到 0xFFFD)。這個UCS的16位子集稱為基本多語言面 (Basic Multilingual Plane, BMP)。 將被編碼在16位BMP以外的字元都屬於非常特殊的字元(比如象形文字), 且只有專家在歷史和科學領域里才會用到它們。按當前的計劃, 將來也許再也不會有字元被分配到從0x000000到0x10FFFF這個覆蓋了超過100萬個潛在的未來字元的 21 位的編碼空間以外去了。ISO 10646-1標准第一次發表於1993年, 定義了字元集與 BMP 中內容的架構。定義 BMP以外的字元編碼的第二部分 ISO 10646-2 正在准備中, 但也許要過好幾年才能完成。新的字元仍源源不斷地加入到 BMP 中, 但已經存在的字元是穩定的且不會再改變了。
UCS 不僅給每個字元分配一個代碼, 而且賦予了一個正式的名字。表示一個 UCS 或 Unicode 值的十六進制數, 通常在前面加上 「U+」, 就象U+0041 代表字元「拉丁大寫字母A」。UCS字元U+0000到U+007F 與 US-ASCII(ISO 646) 是一致的, U+0000 到 U+00FF 與 ISO8859-1(Latin-1) 也是一致的。從 U+E000 到 U+F8FF,已經BMP 以外的大范圍的編碼是為私用保留的。
1993年,ISO10646中定義的USC-4 (Universal Character Set) ,使用了4 個位元組的寬度以容納足夠多的相當可觀的空間,但是這個過於肥胖的字元標准在當時乃至21世紀都有其不現實的一面,就是會過分侵佔存儲空間並影響信息傳輸的效率。 與此同時,Unicode 組織於約 10 年前以 Universal, Unique和Uniform 為主旨也開始開發一個16位字元標准, 為避免兩種16位編碼的競爭,1992年兩家組織開始協商,以期折衷尋找共同點,這就是今天的 UCS-2 (BMP,Basic Multilingual Plane,16bit) 和Unicode,但它們仍然是不同的方案。
Unicode
關於Unicode我們需要追溯一下它產生的淵源。
當計算機普及到東亞時,遇到了使用表意字元而非字母語言的中、日、韓等國家。在這些國家使用的語言中常用字元多達幾千個,而原來字元採用的是單位元組編碼,一張代碼頁中最多容納的字元只有2^8=256個,對於使用表意字元的語言是在無能為力。既然一個位元組不夠,自然人們就採用兩個位元組,所有出現了使用雙位元組編碼的字元集(DBCS)。不過雙位元組字元集中雖然表意字元使用了兩個位元組編碼,但其中的ASCII碼和日文片假名等仍用單位元組表示,如此一來給程序員帶來了不小的麻煩,因為每當涉及到DBCS字元串的處理時,總是要判斷當中的一個位元組到底表示的是一個字元還是半個字元,如果是半個字元,那是前一半還是後一半?由此可見DBCS並不是一種非常好的解決方案。
人們在不斷尋找這更好的字元編碼方案,最後的結果就是Unicode誕生了。Unicode其實就是寬位元組字元集,它對每個字元都固定使用兩個位元組即16位表示,於是當處理字元時,不必擔心只處理半個字元。
Unicode在網路、Windows系統和很多大型軟體中得到應用。
⑺ 馬來西亞主要用什麼語言
官方語言是馬來西亞語,就是馬來人的馬來語,和印度尼西亞語非常相似。
雖然馬來西亞語是唯一的官方語言,英語卻是一般的商業用語,人民廣泛都能以簡單的英語交談,這是因為馬來西亞現有的教育制度是延續英國人統治時留下來的制度,只在近30年來才逐漸改用馬來西亞語。大專院校尤其是私立學校大都使用英語教學。
其他種族的語言非常多如華裔大多數都會普通話及中國南部的方言如廣東話、潮州華、客家話、福建話及海南話。也因為這些方言的影響,我們的普通話(華語)發音都不太正確。如「粥」很多人都念成「卒」[受到廣東話的影響]。
華人方言在西馬北部如檳城及吉打州比較通用福建話,中馬(吉隆坡、怡保、芙蓉等城市則盛行廣東話),南馬華語比較普遍,東馬(沙巴及沙拉越福州話及客家話都行)。
印度/南亞後裔的馬來西亞人民通用的語言有烏爾德語(Ur)、淡米爾語(Tamil)、旁遮普(Punjabi)等等。
(7)旁遮普代碼擴展閱讀:
馬來西亞是中、西、印度及阿拉伯文明的聚集地,語言文化特別豐富。馬來語是官方語言,不過英語也是學校的必修科且在政府部門、商場及社會各階層中廣泛使用。其他民間語言有華語、廣東話、客家話、福建話和印度話等。
沒有英語基礎或者英語成績的學生,可以先在國內讀英語課程,或者通過學校的內部語言課程以後,也可以進入專業。
在馬來西亞雖然華人華裔相對較多,但並不如一些人想像的那樣幾乎都是,目前馬來西亞的華人華裔總數佔全部人口的25%左右,但並不是所有人都講漢語,其中只有約60%的人會講漢語,所以留學生只要希望學習英語,環境還是有的。學校也會安排盡量不讓來自一個國家的學生住在一起。
由於馬來西亞華人堅持捍衛華文小學、華文獨立中學與國民中學華文課程,並有華文報紙與媒體,以及華社組織的支持(華教、華文媒體、會黨合稱馬來西亞華人三大精神支柱),一般都能使用流利的漢語交談。
在平常生活以及非正式場合下,多數的華人慣用混合各種方言、英語與馬來語的「羅惹式華語」。在華文學校、廣播電視、公開正式場合或演說,則使用標准華語。而一些粵語等方言電台如988,MyFM等則會在某些時段說方言,避免各籍貫的華人忘了自己的根源。
華人遷居馬來西亞數百年,其祖居地大多位於福建、廣東、廣西、海南等地。是以各種方言,也隨著祖先南來,且在馬來西亞繼續流傳。
仍為人們所使用的方言,依據祖居地由北而南排列,包括閩清話、興化話、閩南語、客家語、潮州話、粵語、海南話、廣西粵語等等。在鄉村地區,同一方言群聚居較多,會有較單一的方言。在市鎮地區,雖有一到兩種強勢方言,但人們中多通曉各種方言,能夠快速轉換對答。
為規范華語使用馬來西亞華語規范理事會於2004年2月13日宣告成立。
馬來人男女傳統禮服分別是:男士為無領上衣,下著長褲,腰圍短紗籠,頭戴「宋谷」無邊帽,腳穿皮鞋。女士禮服也為上衣和紗籠,衣寬如袍,頭披單色鮮艷紗巾。除皇室成員外,一般不穿黃色衣飾。
打工族為了工作穿著方便,一般著輕便的西服,只在工余在家或探親訪友或在重大節日時,才著傳統服裝。在各種正式場合,男士著裝除民族服裝或西服外,可穿長袖巴迪衫。巴迪衫是一種蠟染花布做成的長袖上衣,質地薄而涼爽,現已漸漸取代傳統的馬來禮服,成為馬來西亞國服。
⑻ 解碼的編碼體系
我們日常接觸到的文件分ASCII和Binary兩種。ASCII是「美國信息交換標准編碼」的英文字頭縮寫,可稱之為「美標」。美標規定了用從0到127的128個數字來代表信息的規范編碼,其中包括33個控制碼,一個空格碼,和94個形象碼。形象碼中包括了英文大小寫字母,阿拉伯數字,標點符號等。我們平時閱讀的英文電腦文本,就是以形象碼的方式傳遞和存儲的。美標是國際上大部分電腦的通用編碼。
然而電腦中的一個字元大都是用一個八位數的二進制數字表示。這樣每一字元便可能有256個不同的數值。由於美標只規定了128個編碼,剩下的另外128個數碼沒有規范,各家用法不一。另外美標中的33個控制碼,各廠家用法也不盡一致。這樣我們在不同電腦間交換文件的時候,就有必要區分兩類不同的文件。第一類文件中每一個字都是美標形象碼或空格碼。這類文件稱為「美標文本文件」(ASCII Text Files),或略為「文本文件」,通常可在不同電腦系統間直接交換。第二類文件,也就是含有控制碼或非美標碼的文件,通常不能在不同電腦系統間直接交換。這類文件有一個通稱,叫「二進制文件」(Binary Files)。 「國標」是「中華人民共和國國家標准信息交換用漢字編碼」的簡稱。國標表(基本表)把七千餘漢字、以及標點符號、外文字母等,排成一個94行、94列的方陣。方陣中每一橫行叫一個「區」,每個區有九十四個「位」。一個漢字在方陣中的坐標,稱為該字的「區位碼」。例如「中」字在方陣中處於第54區第48位,它的區位碼就是5448。
其實94這個數字。它是美標中形象碼的總數。國標表沿用這個數字,本意大概是要用兩個美標形象符代表一個漢字。由於美標形象符的編碼是從33到126,漢字區、位碼如果各加上32,就會與美標形象碼的范圍重合。如上例「中」字區、位碼加上32後,得86,80。這兩個數字的十六進制放在一起得5650,稱為該字的「國標碼」,而與其相對應的兩個美標符號,VP,也就是「中」字的「國標符」了。
這樣就產生了一個如何區分國標符與美標符的問題。在一個中英文混用的文件里,「VP」到底代表「中」字呢,還是代表某個英文字頭縮寫?電子工業部第六研究所開發CCDOS的時候,使用了一個簡便的解決方案:把國標碼的兩個數字各加上128,上升到非美標碼的位置。(改變後的國標碼,習慣上仍叫「國標」。)
這個方案固然解決了原來的問題,可是新的問題隨之產生。中文文件成了「二進制文件」,既不能可靠地在不同電腦系統間交換,也不與市場上大部分以美標符號為設計對象的軟體兼容。
為了區分以上兩種「國標」,我們把原與美標形象碼重合的國標碼稱為「純國標」 ,而把CCDOS加上128的國標碼稱為「准國標」。 GBK碼是GB碼的擴展字元編碼,對多達2萬多的簡繁漢字進行了編碼,簡體版的Win95和Win98都是使用GBK作系統內碼。
GB是國標,K是漢字「擴展」的漢語拼音第一個字母。其實,GBK是又一個漢字編碼標准,全稱《漢字內碼擴展規范》(Chinese Internatial Code Specification),1995年頒布。
從實際運用來看,微軟自win95簡體中文版開始,系統就採用GBK代碼,它包括了TrueType宋體、黑體兩種GBK字型檔(北京中易電子公司提供),可以用於顯示和列印,並提供了四種GBK漢字的輸入法。此外,瀏覽器IE4.0簡體、繁體中文版內部提供了一個GBK-BIG5代碼雙向轉換功能。此外,微軟公司為IE提供的語言包中,簡體中文支持(Simplified Chinese Language Support Kit)的兩種字型檔宋體、黑體,也是GBK漢字(珠海四通電腦排版系統開發公司提供)。其他一些中文字型檔生產廠商,也開始提供TrueType或PostScriptGBK字型檔。
許多外掛式的中文平台,如南極星、四通利方(Richwin)等,提供GBK碼的支持,包括字型檔、輸入法和GBK與其他中文代碼的轉化器。
互聯網方面,許多網站網頁使用GBK代碼。
但是多數搜索引擎都不能很好的支持GBK漢字搜索,大陸地區的搜索引擎有些能不完善的支持GBK漢字檢索。
GBK向下與GB-2312編碼兼容,向上支持ISO 10646.1國際標准,是前者向後者過渡的一個承啟標准。
GBK規范收錄了ISO 10646.1中的全部CJK漢字和符號,並有所補充。具體包括:GB 2312中的全部漢字、非漢字元號;GB 13000.1中的其他CJK漢字。以上合計20902個GB化漢字;《簡化總表》中未收入GB 13000.1的52個漢字;《康熙字典》以及《辭海》中未被收入GB 13000.1的28個部首及重要構件;13個漢字結構符;BIG-5中未被GB 2312收入、但存在於GB 13000.1的139個圖形符號;GB 12345增補的6個拼音符號;GB 12345增補的19個豎排圖形符號(GB 12345較GB 2312增補豎排標點符號29個,其中10個未被GB 13000.1收入,故GBK亦不收);從GB 13000.1的CJK兼容區挑選出的21個漢字;GB 13000.1收入的31個IBM OS/2專用符號。GBK亦採用雙位元組表示,總體編碼范圍為0x8140~0xFEFE之間,首位元組在0x81~0xFE之間,尾位元組在0x40~0xFE之間,剔除0x××7F一條線,總計23940個碼位,共收入21886個漢字和圖形符號,其中漢字(包括部首和構件)21003個,圖形符號883個。 1993年,國際標准ISO10646 定義了通用字元集(Universal Character Set,UCS)。UCS 是所有其他字元集標準的一個超集。它保證與其他字元集是雙向兼容的。就是說,如果你將任何文本字元串翻譯到 UCS格式,然後再翻譯回原編碼,你不會丟失任何信息。
UCS 包含了用於表達所有已知語言的字元。不僅包括拉丁語,希臘語,斯拉夫語,希伯來語,阿拉伯語,亞美尼亞語和喬治亞語的描述, 還包括中文,日文和韓文這樣的象形文字,以及平假名,片假名,孟加拉語,旁遮普語果魯穆奇字元(Gurmukhi), 泰米爾語, 印.埃納德語(Kannada),Malayalam,泰國語,寮國語, 漢語拼音(Bopomofo), Hangul,Devangari,Gujarati, Oriya,Telugu 以及其它語種。對於還沒有加入的語言,由於正在研究怎樣在計算機中最好地編碼它們, 因而最終它們都將被加入。這些語言包括Tibetian,高棉語,Runic(古代北歐文字),衣索比亞語, 其他象形文字,以及各種各樣的印-歐語系的語言,還包括挑選出來的藝術語言比如 Tengwar,Cirth 和 克林貢語(Klingon)。UCS 還包括大量的圖形的,印刷用的,數學用的和科學用的符號,包括所有由 TeX,Postscript, MS-DOS,MS-Windows, Macintosh, OCR 字體, 以及許多其他字處理和出版系統提供的字元。
ISO 10646 定義了一個 31 位的字元集。然而,在這巨大的編碼空間中,迄今為止只分配了前 65534 個碼位 (0x0000 到 0xFFFD)。這個UCS的16位子集稱為基本多語言面 (Basic Multilingual Plane,BMP)。將被編碼在16位BMP以外的字元都屬於非常特殊的字元(比如象形文字),且只有專家在歷史和科學領域里才會用到它們。按當前的計劃,將來也許再也不會有字元被分配到從0x000000到0x10FFFF這個覆蓋了超過100萬個潛在的未來字元的 21 位的編碼空間以外去了。ISO 10646-1標准第一次發表於1993年,定義了字元集與 BMP 中內容的架構。定義 BMP以外的字元編碼的第二部分 ISO 10646-2 正在准備中,但也許要過好幾年才能完成。新的字元仍源源不斷地加入到 BMP 中,但已經存在的字元是穩定的且不會再改變了。
UCS 不僅給每個字元分配一個代碼,而且賦予了一個正式的名字。表示一個 UCS 或 Unicode 值的十六進制數,通常在前面加上 「U+」,就象U+0041 代表字元「拉丁大寫字母A」。UCS字元U+0000到U+007F 與 US-ASCII(ISO 646) 是一致的, U+0000 到 U+00FF 與 ISO 8859-1(Latin-1) 也是一致的。從 U+E000 到 U+F8FF,已經BMP 以外的大范圍的編碼是為私用保留的。
1993年,ISO10646中定義的USC-4 (Universal Character Set) ,使用了4 個位元組的寬度以容納足夠多的相當可觀的空間,但是這個過於肥胖的字元標准在當時乃至現在都有其不現實的一面,就是會過分侵佔存儲空間並影響信息傳輸的效率。與此同時,Unicode 組織於約 10 年前以 Universal,Unique和Uniform 為主旨也開始開發一個16位字元標准, 為避免兩種16位編碼的競爭,1992年兩家組織開始協商,以期折衷尋找共同點,這就是今天的 UCS-2 (BMP,Basic Multilingual Plane,16bit) 和Unicode,但它們仍然是不同的方案。 關於Unicode我們需要追溯一下它產生的淵源。
當計算機普及到東亞時,遇到了使用表意字元而非字母語言的中、日、韓等國家。在這些國家使用的語言中常用字元多達幾千個,而原來字元採用的是單位元組編碼,一張代碼頁中最多容納的字元只有28=256個,對於使用表意字元的語言是在無能為力。既然一個位元組不夠,自然人們就採用兩個位元組,所有出現了使用雙位元組編碼的字元集(DBCS)。不過雙位元組字元集中雖然表意字元使用了兩個位元組編碼,但其中的ASCII碼和日文片假名等仍用單位元組表示,如此一來給程序員帶來了不小的麻煩,因為每當設計到DBCS字元串的處理時,總是要判斷當中的一個位元組到底表示的是一個字元還是半個字元,如果是半個字元,那是前一半還是後一半?由此可見DBCS並不是一種非常好的解決方案。
人們在不斷尋找這更好的字元編碼方案,最後的結果就是Unicode誕生了。Unicode其實就是寬位元組字元集,它對每個字元都固定使用兩個位元組即16位表示,於是當處理字元時,不必擔心只處理半個字元。
目前,Unicode在網路、Windows系統和很多大型軟體中得到應用。
GB編碼標准中,比較常用的是GB2312和GBK兩種,GB2312是GBK的一個子集,GB2312編碼范圍是 0xA1A1 - 0xFEFE ,如果純粹的 GB2312編碼,處理起來是什分簡單的,但處理GBK字元集時有些小的提示,先說說GBK編碼的標准吧:
GBK 採用雙位元組表示,總體編碼范圍為 8140-FEFE,首位元組在 81-FE 之間,尾位元組在 40-FE 之間,剔除 xx7F 一條線。總計 23940 個碼位,共收入 21886 個漢字和圖形符號,其中漢字(包括部首和構件)21003 個,圖形符號 883 個。