僚人家园

标题: [讨论]壮文与金山词霸结合成实用壮文电子词典 [打印本页]

作者: 山魂    时间: 2007-6-26 17:33
标题: [讨论]壮文与金山词霸结合成实用壮文电子词典

将壮文和金山词霸结合,先前听一些贝侬提过。每次到了使用壮文的时候就闪过这个念头。将壮文和金山词霸结合,据说关键的就是Windows里Fonts的壮文字库文件,还有金山词霸中要有壮文词典文件。

而目前微软的东亚字库里还没有壮文字库,前阵子听说微软有在做藏文、彝文等中国少数民族文字字库,以便能在windows系统里使用这些语言,就是没有听说做壮文的。将壮文和金山词霸结合,这里面还涉及到知识产权的问题。那么但就技术方面而言,在这些方面技术有特长的贝侬能不能来说说其可行性和详细的步骤、过程或者自己的一些其他方案?


作者: 山魂    时间: 2007-6-26 17:38

如果能做成一个安装程序,以金山词霸补丁的形式,实现傻瓜安装,添加壮文字库和壮文词典,那么将大大方便壮文的使用。现在金山词霸已经实现英,汉,日语三语显示。

同理,可以实现壮汉,壮英,壮日,壮泰语等互译。不过工程浩大倒是事实。


作者: 季人    时间: 2007-6-26 18:30

这个想法是我以前提出来的。当时因为还没有电子版的壮汉词典,操作起来工作量太大,我只做了一小部分就停止了。
现在电子版的《壮汉词汇》已经由各位贝侬合力制作完成,应该说为实现当初的设想提供了可能。

标准壮文采用拉丁字母拼写,这意味着并不需要专门的壮文字库,就可以在现有的Windows操作系统上显示。

《金山词霸》提供了“用户词典”的功能,我们完全可以利用这一功能来制作便于查询和使用的壮语电子词典。
目前要做的主要工作就是把电子版的《壮汉词汇》整理成可以导入《金山词霸》,作为用户词典的格式。这在技术上并没有什么难度,可以说只要会进行word之类的软件进行文本编辑就可以。
我们可以参考先前《壮汉词汇》电子化的工作方式,把工作分成小块交由贝侬们分头完成,最后再整合到一起。

请有兴趣参与这项工作的贝侬跟帖报名!


作者: 梁显宁    时间: 2007-6-26 18:34

敢问所谓的“壮文”是指哪种?拉丁字?还是方块?

如果只是要个词典什么的,当前“灵格斯”软件(免费)完全可做到,且其字典格式是开放的,只要符合规范,什么都可往里面装。就算用金山词霸也未尝不可,它本身就支持“用户词库”这一功能,同样也有导入导出功能,供发布之用。

只是,连一个基于网页的词库都不愿参与的人们,是否会对这个软件字典有热忱,倒是值得商榷。

也许也说不定。可能我错误地理解了“网页的受众面比传统软件受众面大”这一观点了吧。


作者: 季人    时间: 2007-6-26 19:05

以《金山词霸》(2005版)为例:

1. 在《金山词霸》界面上点击“主菜单”-“用户词典”。

[attach]28221[/attach]


作者: VeizSauyenj    时间: 2007-6-26 19:07
这是一个很有意义的事情
作者: 季人    时间: 2007-6-26 19:08
QUOTE:
以下是引用梁显宁在2007-6-26 18:34:00的发言:

敢问所谓的“壮文”是指哪种?拉丁字?还是方块?

如果只是要个词典什么的,当前“灵格斯”软件(免费)完全可做到,且其字典格式是开放的,只要符合规范,什么都可往里面装。就算用金山词霸也未尝不可,它本身就支持“用户词库”这一功能,同样也有导入导出功能,供发布之用。

只是,连一个基于网页的词库都不愿参与的人们,是否会对这个软件字典有热忱,倒是值得商榷。

也许也说不定。可能我错误地理解了“网页的受众面比传统软件受众面大”这一观点了吧。

当初我选择《金山词霸》作为制作壮汉电子词典的平台,只是因为我对这个电子词典比较熟悉。
而且我认为这个词典的“鼠标取词”功能用起来很方便。


作者: 山魂    时间: 2007-6-26 19:13

哈哈哈,太好了。季人贝侬还在用2005版的?给你一个不错的软件下载网站:http://www.97sky.cn/

上面有最新最好的软件,包括最新的mycrack完整版的金山词霸2007。不过做好防毒准备。

[此贴子已经被作者于2007-6-26 19:21:30编辑过]

作者: 季人    时间: 2007-6-26 19:15

关于《金山词霸》用户词典格式的说明:

以词条“a”和“”为例,在TXT文件中以如下格式出现:

a|乌鸦[与roegga同]\r\n呀 Caezgya vaiq daeuj ~!大家快来呀!\r\n(见le) 呢 [语气词,表示疑问]\r\n
alungz|(见naxgwiz) 姨丈[泛指]\r\n

说明:
a 单词
| 单词和释义之间的分隔符号
\r\n 换行。由于《金山词霸》不支持同样拼写而含义不同的单词重复出现,因此需要用分行的形式来区别一个单词的不同义项。最后仍以\r\n结尾。换行后开始下一个单词“alungz”。

释义中的方括号、圆括号、波浪号等按照《壮汉词汇》的凡例使用。

[此贴子已经被作者于2007-6-26 19:21:54编辑过]

作者: 山魂    时间: 2007-6-26 19:16
QUOTE:
以下是引用季人在2007-6-26 18:30:00的发言:

这个想法是我以前提出来的。当时因为还没有电子版的壮汉词典,操作起来工作量太大,我只做了一小部分就停止了。
现在电子版的《壮汉词汇》已经由各位贝侬合力制作完成,应该说为实现当初的设想提供了可能。

标准壮文采用拉丁字母拼写,这意味着并不需要专门的壮文字库,就可以在现有的Windows操作系统上显示。

《金山词霸》提供了“用户词典”的功能,我们完全可以利用这一功能来制作便于查询和使用的壮语电子词典。
目前要做的主要工作就是把电子版的《壮汉词汇》整理成可以导入《金山词霸》,作为用户词典的格式。这在技术上并没有什么难度,可以说只要会进行word之类的软件进行文本编辑就可以。
我们可以参考先前《壮汉词汇》电子化的工作方式,把工作分成小块交由贝侬们分头完成,最后再整合到一起。

请有兴趣参与这项工作的贝侬跟帖报名!

这可不是一个小工程呀,最好能联系到语言学专业的贝侬们,做得专业点。按照你的方法,通过文件替换和添加就可以了,只要提供路径说明就行,不错不错!


作者: 山魂    时间: 2007-6-26 19:18
QUOTE:
以下是引用季人在2007-6-26 19:15:00的发言:

关于《金山词霸》用户词典格式的说明:

以词条“a”和“”为例,在TXT文件中以如下格式出现:

a|乌鸦[与roegga同]\r\n呀 Caezgya vaiq daeuj ~!大家快来呀!\r\n(见le) 呢 [语气词,表示疑问]\r\n
alungz|(见naxgwiz) 姨丈[泛指]\r\n

说明:
a 单词
| 单词和释义之间的分隔符号
\r\n 换行。由于《金山词霸》不支持同样拼写而含义不同的单词重复出现,因此需要用分行的形式来区别一个单词的不同义项。最后仍以\r\n结尾。换行后开始下一个单词“alungz”。

释义中的方括号、圆括号、波浪号等按照《壮汉词典》的凡例使用。

金山词霸中分取词词典和查词词典,如果在查词词典里能提供详细的例句就更好了。这些可以从现有词典里照搬吗?


作者: 山魂    时间: 2007-6-26 19:19
呵呵,音频方面估计就暂时无法实现了。不过如果能实现了取词和查词,就是一个大进步!
作者: 季人    时间: 2007-6-26 19:20
我已经完成从a到bi开头的部分,有兴趣继续的贝侬可以先跟帖认领自己想要完成的部分,制作成符合格式要求的TXT文件后上传。
为统一格式,建议方括号、圆括号和波浪号一律使用全角符号。
作者: 季人    时间: 2007-6-26 19:21
QUOTE:
以下是引用山魂在2007-6-26 19:18:00的发言:

金山词霸中分取词词典和查词词典,如果在查词词典里能提供详细的例句就更好了。这些可以从现有词典里照搬吗?

可以把《壮汉词汇》中的例句也加到释义中。你看我举的例子里就有例句:Caezgya vaiq daeuj ~!大家快来呀!
作者: 季人    时间: 2007-6-26 19:26
QUOTE:
以下是引用山魂在2007-6-26 19:13:00的发言:

哈哈哈,太好了。季人贝侬还在用2005版的?给你一个不错的软件下载网站:http://www.97sky.cn/

上面有最新最好的软件,包括最新的mycrack完整版的金山词霸2007。不过做好防毒准备。


我用2005版只是因为习惯。不过参与这项工作的各位贝侬最好还是能统一使用某个版本,以免出现兼容问题。
不知道2007版金山词霸的用户词典格式和2005版是否相同?


作者: 山魂    时间: 2007-6-26 19:32
QUOTE:
以下是引用季人在2007-6-26 19:26:00的发言:

我用2005版只是因为习惯。不过参与这项工作的各位贝侬最好还是能统一使用某个版本,以免出现兼容问题。
不知道2007版金山词霸的用户词典格式和2005版是否相同?

07的用户词典放在dicts文档里,虽然大都是txt格式,但打开都是乱码,估计是字体问题,或者打开方式不对。


作者: 山魂    时间: 2007-6-26 19:46
看来07版的用户词典的格式是个问题。
作者: 季人    时间: 2007-6-26 19:49
从网上的一些文章来看,《金山词霸》2007版的用户词典格式似乎和2005版没有区别。
你可以试试把我提供的a.TXT导入2007版,看行不行。或者把你从2007版导出的用户词典文件发给我看看。
[此贴子已经被作者于2007-6-26 19:50:34编辑过]

作者: 山魂    时间: 2007-6-26 19:55
在上面的那个网站里,现在就可以下载那个金山07软件合集,因为是压缩包,安装的时候先解压,里面包括金山词霸07和金山快译07等,可以不从外面的主安装exe进入,而从分文件夹中选要安装的软件,比如jscb2007,直接安装金山词霸07版完全版。
作者: 山魂    时间: 2007-6-26 19:59
QUOTE:
以下是引用季人在2007-6-26 19:49:00的发言:
从网上的一些文章来看,《金山词霸》2007版的用户词典格式似乎和2005版没有区别。
你可以试试把我提供的a.TXT导入2007版,看行不行。或者把你从2007版导出的用户词典文件发给我看看。

好的。刚才试过了直接发,说上传错误。我用压缩包的形式试试,里面放两个词典文件。

 

[attach]28231[/attach]

作者: 山魂    时间: 2007-6-26 20:08

呵呵,已经搞定了。07版的用户词典是专门的用户词典文件(后缀.DIC),不过刚才试了一下,文本格式的a文件完全能导入,能查!只要复制到dicts文件夹目录下,然后按照贝侬给出的添加步骤添加就行了。

至于07版的用户词典文件,估计是要专门的编辑器来写入了。


作者: 季人    时间: 2007-6-26 20:10
你上传的文件用notepad打开确实是乱码,看来这个dic格式的词库不能用notepad来编辑。
作者: 精神指导者    时间: 2007-6-26 21:53
可惜我是壮文文盲,没法参与,只能等贝侬们完成后坐享其成了。
作者: 季人    时间: 2007-6-26 22:16
QUOTE:
以下是引用精神指导者在2007-6-26 21:53:00的发言:
可惜我是壮文文盲,没法参与,只能等贝侬们完成后坐享其成了。

不会壮文的贝侬同样可以参与这项工作,还可以顺便多学一些壮文。
作者: 山魂    时间: 2007-7-29 11:59
我在八月中旬以后到九月初都会有时间,有什么安排?




欢迎光临 僚人家园 (http://bbs.rauz.net.cn/) Powered by Discuz! X2.5