鄭碼
鄭碼 |
鄭碼又稱字根通用碼,是我國著名文字學家、享譽海內外的《英華大詞典》主編鄭易里教授經半個世紀對漢字字形結構的研究,後期和女兒鄭瓏高級工程師共同創造的重大科技成果。已獲中、美、英國專利授權,並通過國家級的鑑定。權威專家們確認鄭碼是國內最優秀的字形編碼系統。鄭碼具有規範、易學、快速、通用的優點。
目錄
基本信息
中文名稱; 鄭碼
別名; 字根通用碼
發明者; 鄭易里
優點; 規範、易學、快速、通用
簡介
《鄭碼》規範、易學、快速、通用,用同一編碼規則不但可以輸入2萬漢字,還可以輸入68000個和10萬個漢字。《鄭碼》曾榮獲北京國際發明金獎和最優秀髮明大獎;榮獲第22屆日內瓦發明金獎。國家主管部門通過評比向國內外用戶廣泛推薦《鄭碼》。中國的中文之星等系統平台選用《鄭碼》,美國Microsoft公司的Windows95/98/NT/2000/XP/Vista/7中文系統選用《鄭碼》,美國IBM公司的OS/2和JAVAOS等許多中文產品也都選用《鄭碼》。Windows 8之後因為版權問題,微軟終止了在系統中內置鄭碼輸入法。
單字輸入
《鄭碼》以單字輸入為基礎,詞語輸入為主導,用2-4個英文字母便能輸2字詞、多字詞和30個字以內的短語;在這種字詞交融輸入之下,輸入一個漢字的平均碼長是1.8-1.9鍵之間。他備有兩個詞庫,分別收錄25000和50000條詞語。
輸入法
《鄭碼》是一種形碼輸入法,使用鄭碼可以方便快速的打出國標擴充字庫(GBK字庫)里的2萬多個漢字和GB18030的7萬多漢字,極大滿足了人們在日常生活、工作中使用漢字的需求。
在常規情況下,《鄭碼》輸入法可以方便、快速的打出GBK字庫里的20902個漢字。比普通《五筆字型》能打出的6763個漢字要多打出14139個漢字,在超集字庫下,鄭碼可以打出GB18030裡面的7萬多個漢字(支持到CJK-D字集),正因為這個原因Windows系統自win95到win7系統沒有選用其它輸入法,而是預裝了《鄭碼》 輸入法 。
編碼原理
《鄭碼》編碼的基本原理 《標準型》
鄭碼的幫助文件中這樣說:"為了不同用戶的需求,《鄭碼輸入法》分為《普及型》和《標準型》兩種。《標準型》重碼率低,適合高速盲打輸入。它不但適用於當前通用字符集的 6763 個漢字的輸入,而且用同樣的編碼規則,Windows 2000 中,還能方便地輸入大字符集的 20902 個漢字。《普及型》的編碼規則簡單易學,但不能用來輸入大字符集漢字。《普及型》可以作為《標準型》的學習階梯,因為二者字根的代碼有共性,因此用熟練後能自然過渡到《標準型》。"由於我的機上可以輸入大字庫的字,所以我講的是《標準型》。
主要方式
一 .高頻字取碼方式
這W月Q我M發Z現C了Y對X一A度T所P說S要F成H為U個O沒V多R中J用L地B在G世E上I的D是K他N
二. 一基根字的取碼方式.就是那些只有一個基根的字.它們如果是第一主根,就打出該主根代碼,然後在其後加上A即是.舉例:言是S上的第一主根,其的代碼即是SA.馬**X***XA,依此類推.
它們如果是第二主根或者是副根,直接打出.
尤*****GR,其****EC,業******KU,廣*****TG,氏****RH,欠******RO
女*****ZM,子*****YA,已*****YYA,申*****KIC,比******RR
七*****HD,龍*****GM,大******GD.十*****ED,寸*****DS
但是,由於許多基根不是常用的,當它們的代碼與某些詞組重碼時,系統將默認詞組.你要打出基根時候,有時不得不加上一個或者多個A,這是鄭碼的幫助文件中未提及的.好在這種情況發生時,你要的基根並不是很需要按+,系統也是要提醒你輸入A的.
三. 二基根字的取碼方式.兩個基根的字,如果兩個基根的代碼都是一個字母,就在它們的後面加上"VV".其餘的就直接取碼就是了.
例子:碼=石G+馬X********GXVV
杜=木F+土B=FBVV. 上=卜ID+一A=IDA,下=一A+卜ID=AID
推=扌D+隹NI=DNI 拓=扌A+石G=GAVV,雹=雨FV+包RY=FVRY
取=耳CE+又XS=CEXS 麼=丿M+厶ZS=MZS 要=西FJ+女ZM=FJZM
四. 三基根字的取碼方式.三基根字的取碼方式又分為兩種情況.
1如果首基根是一個代碼,就取次基根的首碼[不管它有幾個碼]和末基根的全碼.
騰=月Q+UB+馬X=QUX,淵=氵V+リND+米UF=VNUF
2如果首基根是二個代碼.那麼次基根和末基根只取首碼[不管它們有幾個碼].
靠=⺧MB+口J+非KC=MBJK,羥=⺶UC+スXS+工BI=UCXB
五.四基根字的取碼方式.
1如果首碼是一個碼,就取首碼和次基根的首碼,加上次末基根和末基根的各一個首碼.藏=艹E+戈HM+爿ZI+臣H=EHZH,懿=士B+冖WW[一口丬冫]欠RO+心WZ=BWRW
2如果首碼是二碼,由於首基根的代碼不能省,就只能省略次基根的代碼.相對於上一種情況,首基根的另外一個位置由次基根讓出.也就是說:首基根的代碼加上次末基根和末基根的各一個區碼。例子:
戇=立SU+[日十夊工]+貝LO+心WZ=SULW
總之首基根是不能省的,是一取一,是二取二.
小注意:鄭碼中"辶","廴"是取碼中首要取的,這一點不和五筆一致.但是在有別的偏旁存在的情況下,又要放在後面.比如"進"中"辶"在首選就要取碼,而在"蓮"中就要在"艹"的後面馬上要取,先於"車"。這一點好像恰恰與五筆字型中的取碼方式相反。
六 簡碼的取碼方式.
一級簡碼:就是剛才說的26個高頻字。
二級簡碼用該字首根和次根各 1 碼組成。舉例:把 -- DY 找 -- DH 管 -- MW .需 -- FG 取 -- CX
個別常用詞也有二級簡碼,就是取每字第一個基根的區碼。舉例:
中國--JJ 國家--JW 一定--AW 我們--MN 政府--AT 開展--AX
北京--TS 上海--IV 天津--AV 合作--ON 各種--RM 採取--PC.
三級簡碼
二基根字:取第一個基根的區碼和第二個基根的區位碼,如:處 -- RID。
三基根和多基根字:依次取第一、第二和第三個基根的區碼,如:散 -- EQM。
七 詞組輸入 取四碼
1.二字詞組 2+2
例子: 我們MVNT 中華JVNR (我字 是一個高頻,故其後加V)
言語 SASB(言在第一個 故其後加A)
大家GDWG 詞組SYZL 騰飛QUYT
神話WKSM 童話SKSM 神仙WKNL
2.三字詞組 1+2+1
例: 大家庭GWGT 神經原WZXG
3.四字詞組/俗語/成語 1+1+1+1
例: 祖國統一WJZA 中華民族JNYS 無奇不有AGGG
一絲不苟AZGE 無拘無束ADAF 風土人情QBOU
字庫里成語不多哩:)
4.五字以上 1+1+1+1
取前面四字首碼
例:中華人民共和國JNOY
中央電視台JLKW
基根位碼
每一根區里都有幾個基根,它們的區碼都相同,在它們單獨成字或與其它基根組合成字時,會產生許多重碼字。為解決這一問題,《鄭碼》規定:第一主根的代碼用區碼的1個字母表示,第二主根和副根的代碼都要用"區碼+位碼"2個字母表示,即在區碼後面擴充一個位碼,這種安排使得每個基根都有了獨立的代碼,從而解決了重碼問題。就象每個人有姓有名才不會有太多的重名一樣 。
編碼規則
第一條:要按照《鄭碼》的基本字根總表上所列出的基根(包括形近根),把漢字分解成基本字根才能編碼。如果沒有合適的基根,就要進一步分解成筆畫。例如:
補--衤卜懇--艮心濾--氵虍心書--乛丨丶
第二條:漢字分解後,基根和筆畫排列的順序叫做"根序"。根序的確定有三種情況:
l.左右字、上下字以及由單筆畫組成的字,根序與規範的書寫順序一致(見上例中的"補、懇、濾、書"四個字的分解)
2.具有相接、交叉和相嵌結構的字,第一筆先寫的基根或筆畫排列在前。例如:([]方括號內是例字)相接結構的字:夭--丿大[沃笑];
疋--乛止[蛋疏];
交叉結構的字:束--木口[整辣];
夷--大弓[姨];
屯--七凵[純鈍噸];
相嵌結構的字:亘--二曰[桓恆];
僉--人二(橫三點)[檢驗]
淵--氵(撇-豎)米;
肅--肀(撇-豎)八[蕭簫]
複合結構的字:決--冫乛大[缺炔](又有相接又有相交);
3.對於包圍字和包孕字,要將第一筆先寫的基根排在第一位。
因為是以基根為單位排列根序。例如:
困-囗木聞-門耳函-乛氺凵式-弋工
載-車庫-廣車匭-匚車九趙-走乂
但是,為了檢索的快捷和歸納的劃一,對於有"辶、廴"的字,確定根序時,要將"辶、廴"排列在第一位。
例如:"達-辶大"、"延-廴丿止"。
總之,給單字或詞語編碼,就是按照編碼規則依次取基根的代碼組成字詞的編碼。根序搞錯編碼也隨之而錯。因此,正確認識單字的根序十分重要。
第三條:單字和詞語的編碼不能超過4個字母,因此要根據單字或詞語中基根數的多少決定基根代碼的取捨,這種取捨代碼的方法叫取碼方法(詳見以下說明) 。
取碼方法
術語:"1碼根"是指第一主根,因它的代碼只用區碼1個字母。"2碼根"是指第二主根和副根,因為它們的代碼要用區位碼的2個字母。"取1碼"的意思是只取該基根的區碼。
一、單字編碼的取碼原則
1.單字首根(即第一個基根)的代碼要按照實際碼數取,不能有所省略。就是說,首根是1碼根就取1碼;首根是2碼根就取2碼(區碼和位碼都要取)。
2.為保證單字編碼不超過4個字母,首根之後的其餘基根代碼要根據不同情況決定取捨。一般是先舍位碼,只取區碼的1碼。
例如:櫻--木F貝LO貝LO女ZM--FLLZ
醒--酉FD曰K生MC--FDKM
但是,對於四基根和多基根字,還要將中間一些基根的代碼全部捨棄,只取前兩碼和最末2個基根各1碼。就是說,取兩頭舍中間。
例如:縮--糹Z宀WD(亻)一A白NK--ZWAN
糖--米UF(廣)肀XB口J--UFXJ[1]