方块壮字的编码
<P><TABLE width="100%" border=0>
<TR>
<TD width="100%"></TD></TR>
<TR>
<TD width="100%">
<P> </P></TD></TR>
<TR>
<TD width="100%"> 国际标准组织于1984年4月成立ISO/IEC JTC1/SC2/WG2工作组,针对各国文字、符号进行统一性编码。1991年美国跨国公司成立Unicode Consortium,并于1991年10月与WG2达成协议,采用同一编码字集。目前Unicode是采用16位编码体系,其字符集内容与ISO10646的BMP(Basic Multilingual Plane)相同。Unicode于1992年6月通过DIS(Draf International Standard),目前版本V2.0于1996公布,内容包含符号6811个,汉字20902个,韩文拼音11172个,造字区6400个,保留20249个,共计65534个。
随着国际互联网的迅速发展,要求进行数据交换的需求越来越大,不同的编码体系越来越成为信息交换的障碍,而且多种语言共存的文档不断增多,单靠代码页已很难解决这些问题,于是UNICODE应运而生。
UNICODE有双重含义,首先UNICODE是对国际标准ISO/IEC 10646编码的一种称谓(ISO/IEC 10646是一个国际标准,亦称大字符集,它是ISO于1993年颁布的一项重要国际标准,其宗旨是全球所有文种统一编码),另外它又是由美国的 HP、Microsoft、IBM、Apple等大企业组成的联盟集团的名称,成立该集团的宗旨就是要推进多文种的统一编码。
UNICODE同现在流行的代码页最显著不同点在于:UNICODE是两字节的全编码,对于ASCII字符它也使用两字节表示。代码页是通过高字节的取值范围来确定是ASCII字符,还是汉字的高字节。如果发生数据损坏,某处内容破坏,则会引起其后汉字的混乱。UNICODE则一律使用两个字节表示一个字符,最明显的好处是它简化了汉字的处理过程。
UNICODE使用平面来描述编码空间,每个平面分为256行,256列,相对于两字节编码的高低两个字节。
UNICODE的第一个平面,称为Basic Multilingual Plane(基本多文种平面),简称BMP,由于BMP仅用两个字节表示,所以倍受青睐。
<IMG src="http://www.uighurlinux.org/unicod3.gif">
图2.1: BMP的最新概貌图
其中 A_ZONE为拼音文字编码区,拉丁文、阿拉伯文、日文的平假名及片假名等都在此区编码。
CJK Extension A 和CJK为汉字区域共计27487个汉字。
Y1即彝文,位于O-ZONE保留待将来使用。
Hangul即韩文。
EUDC为用户私有区,用户可以根据需要自己定义此区的编码。
R-ZONE为限制使用区,一些兼容字符、特殊字符均放在此区。
UNICODE定义BMP中的D800-DFFF为代理区(Surrogate Zone),其中D800-D8FF为高半代理(high surrogate), DC00-DFFF为低半代理(low surrogate)。从两个区域分别取一个编码,组成一个4字节的代理对来表示一个编码字符,此即为UTF-16。利用UTF-16机制,UNICODE扩充了1024*1024个字符,相应于OO-OF平面,并且将02平面分配给了CJK Extension B。Microsoft在Windows 2000已实现了 UTF-16。</TD></TR></TABLE></P>
<P>从以上得知,unicode编码中并无没有给方块壮字以正式的空间。倒是彝族,维族,藏族等留有空间。日后unicode肯定是互联网上的标准。若不为方块壮字的编码做考虑的话,然后恐怕很难在互联网上显示方块壮字。尽管从诸位的言论中赞成拼音的占多数,但是在民间方块壮字还是有生命力的,我想方块壮字不能丢掉。至于如何进行,是个系统工程,留待诸位加以探讨。毕竟这个涉及到字库,输入法,等等</P> <P>cjk是中日韩漢字库 其中也有支番国独有的简体汉字</P><P>壮字也可以包含统一在cjk中</P> <P>2楼太天真了吧?古壮字不是汉字,没有规范没有标准,各地都不一样,国家会划入cjk字库中?</P> Beix nuengx, geij yungh you heiq , Sawcuengh caemh ndaej guh bien max ,caemh ndaej guh bien Sawndip ok daeu ! Gou seiz neix cingq ngvanh baenz lawz aeu Sawcuengh guh bien max bien dauq Sawgun bitveh dajfap ! <DIV class=quote><B>以下是引用<I>marsuncle</I>在2004-8-11 12:38:33的发言:</B>
<P>2楼太天真了吧?古壮字不是汉字,没有规范没有标准,各地都不一样,国家会划入cjk字库中?</P></DIV>
<P>什么呀,编码还不一样的,那支番简体字是倭字也不能说是汉字,
<P>楼主的建议还不是没有的计划,不是建议吗</P>
<P>你不愿加入就算了,空间还省了呢</P>
[此贴子已经被作者于2004-8-11 17:27:59编辑过] <DIV class=quote><B>以下是引用<I>WAXA</I>在2004-8-11 17:26:40的发言:</B>
<P>什么呀,编码还不一样的,那支番简体字是倭字也不能说是汉字,
<P>楼主的建议还不是没有的计划,不是建议吗</P>
<P>你不愿加入就算了,空间还省了呢</P>
</DIV>
嘿嘿,我看壮语不是你的母语才会这么说的,用不着尊下操心,我们会自己解决的。会有那么一天,古壮字会出现在互联网上的。 <DIV class=quote><B>以下是引用<I>marsuncle</I>在2004-8-12 18:44:49的发言:</B>
嘿嘿,我看壮语不是你的母语才会这么说的,用不着尊下操心,我们会自己解决的。会有那么一天,古壮字会出现在互联网上的。</DIV>
<P>小人心态</P>
[此贴子已经被作者于2004-8-12 20:15:39编辑过] 方块字编在一个区是最合理的 <P>请注意这个是ISO的标准,ISO的成员都是国家。国家不提交,你能奈何?国家不作为的话我们就要自己进行编码,制定民间的标准,并力争能成为国家标准并向ISO提交。即使国家不承认只要我们做成了,方块壮字一样能上互联网,利用自由软件,我们还可以有自己的操作系统,字处理软件,排版系统等等。</P> 古壮字还是可以放在 CJK 当中的。 <P>刚从沙南的帖子得知,有古壮文系统,就是不知采用何种编码?估计是双字节编码,可能在高7位置1以区分英文。个人看法,在未成为国家标准前可以制定民间的标准,中文在没有unicode编码前,大陆的有GB2132,后来的GBK,港澳台的BIG 5,海外的HZ,数“码”奔腾</P> <p>古壮文编码终究会进CJK的,越南已将字喃加入,中国不回落后,不过就是时间问题,现在中国方面的精力放在古汉字编码上,CJK专属于IRG,跟汉字相关的比如字喃,韩国国字,日本国字都归IRG负责,中国的各种与汉字有关的民族文字也归IRG负责。</p><p></p> <p>海峰五笔有壮字字库吗?要不什么能输入壮字呢。</p> <p>海峰五筆使用了中日韩统一表意文字的字庫。該字庫裏7万多個漢字以及仿漢字製作的其他方塊表意文字,如喃字、壯字、和制漢字、韓制漢字,都可以通過海峰五筆輸入。</p><p>比如“呇”mboq、“伝”vunz都是壯字。</p><p></p> <p>unicode已经把壮字收录进去了。在<font color="#000000">中日韩统一表意文字扩充A區和B區。海峰五筆可以輸入這些字。</font></p><p></p><p><u><font color="#0000cc"></font></u></p><br/>
[此贴子已经被作者于2008-3-3 18:06:32编辑过] <p>国标码乃至国际码作为一种资源,当然是给那些能够流通的文字了,古壮字虽然在一定程度上具有文字的功能,但是它却是不能算是一个完整的文字系统,在这种情形下,自然不会分到资源。</p><p>所以,我们僚人的年轻一辈,应该努力发展自己的文字,把它完善起来,充实起来,才可能有机会分到资源的。</p> 自治区民语办正在与科研机构研制古壮字电脑输入法 期待古壮字编码。
页:
[1]