僚人家园

标题: 方块壮字的编码 [打印本页]

作者: marsuncle    时间: 2004-8-11 00:30
标题: 方块壮字的编码

 

国际标准组织于1984年4月成立ISO/IEC JTC1/SC2/WG2工作组,针对各国文字、符号进行统一性编码。1991年美国跨国公司成立Unicode Consortium,并于1991年10月与WG2达成协议,采用同一编码字集。目前Unicode是采用16位编码体系,其字符集内容与ISO10646的BMP(Basic Multilingual Plane)相同。Unicode于1992年6月通过DIS(Draf International Standard),目前版本V2.0于1996公布,内容包含符号6811个,汉字20902个,韩文拼音11172个,造字区6400个,保留20249个,共计65534个。 随着国际互联网的迅速发展,要求进行数据交换的需求越来越大,不同的编码体系越来越成为信息交换的障碍,而且多种语言共存的文档不断增多,单靠代码页已很难解决这些问题,于是UNICODE应运而生。 UNICODE有双重含义,首先UNICODE是对国际标准ISO/IEC 10646编码的一种称谓(ISO/IEC 10646是一个国际标准,亦称大字符集,它是ISO于1993年颁布的一项重要国际标准,其宗旨是全球所有文种统一编码),另外它又是由美国的 HP、Microsoft、IBM、Apple等大企业组成的联盟集团的名称,成立该集团的宗旨就是要推进多文种的统一编码。 UNICODE同现在流行的代码页最显著不同点在于:UNICODE是两字节的全编码,对于ASCII字符它也使用两字节表示。代码页是通过高字节的取值范围来确定是ASCII字符,还是汉字的高字节。如果发生数据损坏,某处内容破坏,则会引起其后汉字的混乱。UNICODE则一律使用两个字节表示一个字符,最明显的好处是它简化了汉字的处理过程。 UNICODE使用平面来描述编码空间,每个平面分为256行,256列,相对于两字节编码的高低两个字节。 UNICODE的第一个平面,称为Basic Multilingual Plane(基本多文种平面),简称BMP,由于BMP仅用两个字节表示,所以倍受青睐。 图2.1: BMP的最新概貌图   其中 A_ZONE为拼音文字编码区,拉丁文、阿拉伯文、日文的平假名及片假名等都在此区编码。   CJK Extension A 和CJK为汉字区域共计27487个汉字。   Y1即彝文,位于O-ZONE保留待将来使用。   Hangul即韩文。   EUDC为用户私有区,用户可以根据需要自己定义此区的编码。   R-ZONE为限制使用区,一些兼容字符、特殊字符均放在此区。 UNICODE定义BMP中的D800-DFFF为代理区(Surrogate Zone),其中D800-D8FF为高半代理(high surrogate), DC00-DFFF为低半代理(low surrogate)。从两个区域分别取一个编码,组成一个4字节的代理对来表示一个编码字符,此即为UTF-16。利用UTF-16机制,UNICODE扩充了1024*1024个字符,相应于OO-OF平面,并且将02平面分配给了CJK Extension B。Microsoft在Windows 2000已实现了 UTF-16。

从以上得知,unicode编码中并无没有给方块壮字以正式的空间。倒是彝族,维族,藏族等留有空间。日后unicode肯定是互联网上的标准。若不为方块壮字的编码做考虑的话,然后恐怕很难在互联网上显示方块壮字。尽管从诸位的言论中赞成拼音的占多数,但是在民间方块壮字还是有生命力的,我想方块壮字不能丢掉。至于如何进行,是个系统工程,留待诸位加以探讨。毕竟这个涉及到字库,输入法,等等


作者: WAXA    时间: 2004-8-11 11:37

cjk是中日韩漢字库 其中也有支番国独有的简体汉字

壮字也可以包含统一在cjk中


作者: marsuncle    时间: 2004-8-11 12:38

2楼太天真了吧?古壮字不是汉字,没有规范没有标准,各地都不一样,国家会划入cjk字库中?


作者: Ayingj    时间: 2004-8-11 14:37
Beix nuengx, geij  yungh   you heiq ,  Sawcuengh caemh ndaej guh bien max ,caemh ndaej guh bien Sawndip ok daeu !  Gou seiz neix cingq ngvanh baenz lawz aeu Sawcuengh guh bien max  bien dauq Sawgun bitveh  dajfap !
作者: WAXA    时间: 2004-8-11 17:26
以下是引用marsuncle在2004-8-11 12:38:33的发言:

2楼太天真了吧?古壮字不是汉字,没有规范没有标准,各地都不一样,国家会划入cjk字库中?

什么呀,编码还不一样的,那支番简体字是倭字也不能说是汉字,

楼主的建议还不是没有的计划,不是建议吗

你不愿加入就算了,空间还省了呢

[此贴子已经被作者于2004-8-11 17:27:59编辑过]

作者: marsuncle    时间: 2004-8-12 18:44
以下是引用WAXA在2004-8-11 17:26:40的发言:

什么呀,编码还不一样的,那支番简体字是倭字也不能说是汉字,

楼主的建议还不是没有的计划,不是建议吗

你不愿加入就算了,空间还省了呢

嘿嘿,我看壮语不是你的母语才会这么说的,用不着尊下操心,我们会自己解决的。会有那么一天,古壮字会出现在互联网上的。
作者: WAXA    时间: 2004-8-12 20:11
以下是引用marsuncle在2004-8-12 18:44:49的发言: 嘿嘿,我看壮语不是你的母语才会这么说的,用不着尊下操心,我们会自己解决的。会有那么一天,古壮字会出现在互联网上的。

小人心态

[此贴子已经被作者于2004-8-12 20:15:39编辑过]

作者: WAXA    时间: 2004-8-12 20:16
方块字编在一个区是最合理的
作者: marsuncle    时间: 2004-8-12 22:56

请注意这个是ISO的标准,ISO的成员都是国家。国家不提交,你能奈何?国家不作为的话我们就要自己进行编码,制定民间的标准,并力争能成为国家标准并向ISO提交。即使国家不承认只要我们做成了,方块壮字一样能上互联网,利用自由软件,我们还可以有自己的操作系统,字处理软件,排版系统等等。


作者: 越色僚人    时间: 2004-8-13 23:46
古壮字还是可以放在 CJK 当中的。
作者: marsuncle    时间: 2004-8-14 00:26

刚从沙南的帖子得知,有古壮文系统,就是不知采用何种编码?估计是双字节编码,可能在高7位置1以区分英文。个人看法,在未成为国家标准前可以制定民间的标准,中文在没有unicode编码前,大陆的有GB2132,后来的GBK,港澳台的BIG 5,海外的HZ,数“码”奔腾


作者: wenlong    时间: 2007-12-27 10:44

古壮文编码终究会进CJK的,越南已将字喃加入,中国不回落后,不过就是时间问题,现在中国方面的精力放在古汉字编码上,CJK专属于IRG,跟汉字相关的比如字喃,韩国国字,日本国字都归IRG负责,中国的各种与汉字有关的民族文字也归IRG负责。


作者: 柳漫    时间: 2008-3-3 05:12

unicode已经把壮字收录进去了。在中日韩统一表意文字扩充A區和B區。海峰五筆可以輸入這些字。


[此贴子已经被作者于2008-3-3 18:06:32编辑过]

作者: wenliqan    时间: 2008-3-3 20:36

海峰五笔有壮字字库吗?要不什么能输入壮字呢。


作者: 柳漫    时间: 2008-3-3 21:14

海峰五筆使用了中日韩统一表意文字的字庫。該字庫裏7万多個漢字以及仿漢字製作的其他方塊表意文字,如喃字、壯字、和制漢字、韓制漢字,都可以通過海峰五筆輸入。

比如“呇”mboq、“伝”vunz都是壯字。


作者: aro    时间: 2008-3-17 16:47

国标码乃至国际码作为一种资源,当然是给那些能够流通的文字了,古壮字虽然在一定程度上具有文字的功能,但是它却是不能算是一个完整的文字系统,在这种情形下,自然不会分到资源。

所以,我们僚人的年轻一辈,应该努力发展自己的文字,把它完善起来,充实起来,才可能有机会分到资源的。


作者: 土著虎尾    时间: 2008-11-24 22:57
自治区民语办正在与科研机构研制古壮字电脑输入法
作者: maniachhz    时间: 2009-11-14 16:37
期待古壮字编码。




欢迎光临 僚人家园 (http://bbs.rauz.net.cn/) Powered by Discuz! X2.5