僚人家园

标题: 贝侬辛苦,我来晚了(关于《壮汉词汇》的上传工作) [打印本页]

作者: 沙南曼森    时间: 2005-10-30 18:24
标题: 贝侬辛苦,我来晚了(关于《壮汉词汇》的上传工作)

我这段时间上网少,今天才注意到 SAWLOIH CUENGH GUN 壮汉词汇 http://www.rauz.net/bbs/dispbbs.asp?boardID=20&ID=15270 这个帖子涉及一项宏大的工程。我原先竟以为是一个普通的帖子,惭愧惭愧。

StonemanHonghlajmarsuncle三位贝侬已把《SAWLOIH CUENGH GUN 壮汉词汇》整理上传到正文180页,已完成752页正文的24%,实在了不起。

2002年12月在广西民族报社获赠《壮汉词汇》和《汉壮词汇》之后,我今年初又在南宁文化宫旧书市场上买到一本《壮汉词汇》,可惜它们至今没发挥充分的作用。多备的这一本《壮汉词汇》我得赶快送人才行,不知哪位在南宁或百色的贝侬愿意使之物尽所值(该书目前放在南宁)?

我的扫描仪近半年没启动了,再不用就浪费了。11月份我也来接一棒吧。

[此贴子已经被作者于2005-10-30 18:27:53编辑过]

作者: 红水河    时间: 2005-10-30 18:50
上学的学龄儿童每个人应有一本
作者: 卜蛮    时间: 2005-10-30 19:37
能否仿效布依在线搞个《壮汉电子词典》?http://www.5481.net/bbs/dispbbs.asp?boardID=33&ID=2158
作者: Honghlaj    时间: 2005-10-30 19:44
人多力量大,希望更多贝侬参与此项工作。
作者: 山之凤    时间: 2005-10-30 20:41
沙南曼森贝侬:送给我如何,我手头的这一本是图书馆的。
作者: 闻多    时间: 2005-10-30 21:35
我也想支持一下,我的扫描仪也很久没用了.但总是没有合适的时间.上网来览贴也是很匆忙的.非常遗憾 !
作者: mbwenndit    时间: 2005-10-30 22:19

建议扫描后作个电子图书吧,让更多有需要的贝侬拥有她


作者: Stoneman    时间: 2005-11-1 14:44

有能力做的贝侬能否分工一下?例如,每人每周负责扫描10页,按页码顺序上传,再由 Honghlaj 贝侬 OCR 上传; 或会 OCR 的贝侬扫描完后直接上传。愿意参与此项工作的贝侬在开始扫描之前应相互通报一下,以避免做重复工作。11月份按如下去做如何:

沙南曼森:181-190

闻多:191-200

Stoneman: 201-210

沙南曼森:211-220

闻多:221-230

Stoneman: 231-240

如此往后。由 Honghlaj 贝侬统一 OCR 上传。


作者: Honghlaj    时间: 2005-11-1 23:10

我将第1~180页做成了CHM格式的电子书,有谁教我如何上传?


作者: 沙南曼森    时间: 2005-11-2 01:06
以下是引用山之凤在2005-10-30 20:41:29的发言:
沙南曼森贝侬:送给我如何,我手头的这一本是图书馆的。

你学过壮文,送给你应该是合适的。你什么时候有空到南宁呢?不然你通过悄悄话告知你的地址,我给你邮寄过去。
作者: 沙南曼森    时间: 2005-11-2 01:09
以下是引用Stoneman在2005-11-1 14:44:43的发言:

有能力做的贝侬能否分工一下?例如,每人每周负责扫描10页,按页码顺序上传,再由 Honghlaj 贝侬 OCR 上传; 或会 OCR 的贝侬扫描完后直接上传。愿意参与此项工作的贝侬在开始扫描之前应相互通报一下,以避免做重复工作。11月份按如下去做如何:

沙南曼森:181-190

闻多:191-200

Stoneman: 201-210

沙南曼森:211-220

闻多:221-230

Stoneman: 231-240

如此往后。由 Honghlaj 贝侬统一 OCR 上传。


昨天我还想着亲自OCR呢。要这样做也行。我想问一下,贝侬用的分辨率是多少呢?方便OCR的分辨率用300,图片大了点。只是用于阅读的话,分辨率用200就可以了。
作者: Stoneman    时间: 2005-11-2 17:27
我不知道我扫描出来的图片的分辨率是多少,一般应在200KB以上OCR才能分辨出来。具体请与Honghlaj 贝侬联系。沙南贝侬,我不知道闻多贝侬愿不愿意参与此项工作?您打算先扫描多少页?
作者: 沙南曼森    时间: 2005-11-2 18:14

今晚先扫描10页吧。如果进度比较快,我就一口气干完20页。

这书是32开的,又比较厚,扫描麻烦一些。如果是16开或A4的,就好操作多了。

我以前扫描、识别(OCR)并校对一页资料所需要的时间是10分钟,10页资料从扫描、识别到校对、编辑,需要约两个小时的时间。今天仅需扫描、上传,花费时间应该不很多。


作者: Honghlaj    时间: 2005-11-2 20:08
以下是引用沙南曼森在2005-11-2 1:09:54的发言:


昨天我还想着亲自OCR呢。要这样做也行。我想问一下,贝侬用的分辨率是多少呢?方便OCR的分辨率用300,图片大了点。只是用于阅读的话,分辨率用200就可以了。

沙南贝侬:如能OCR上来最好,因为OCR比较费时,我最近要进行保先总结,下月又要年终总结迎检,可能忙些,怕赶不上你们的进度。谢谢。

扫描还是分辨率高一些好,识别率高,可以减少校对时间。

[此贴子已经被作者于2005-11-2 20:09:05编辑过]

作者: 季人    时间: 2005-11-3 09:56
各位贝侬扫描之后,我也可以做一些OCR的工作。
作者: Stoneman    时间: 2005-11-3 16:32

本周沙南贝侬负责181-200页,我来负责扫描201-220页,等沙南贝侬上传完181-200页,Honghlaj 贝侬识别、校对、编辑完并上传181-200页后,我再上传201-220页。

季人贝侬如果能做一些OCR的工作是最好不过了。为避免做重复工作,您最好与Honghlaj 贝侬联系分工事宜。


作者: 沙南曼森    时间: 2005-11-3 17:29
昨晚我已经扫描、识别并校对181-185页。因乱码较多,校对工作量大(发现乱码、错字要当场对照原稿修改),每页约需30分钟。今晚再干两个小时,我就可以完成181-190页的扫描、识别、校对及编辑、上传了。
作者: Honghlaj    时间: 2005-11-3 21:02
关于OCR分工:我负责Stoneman贝侬上传的,季人贝侬负责沙南贝侬上传的,如一时无时间,可先回帖,保留位置,完成OCR后再修改帖子,如何?
作者: marsuncle    时间: 2005-11-4 07:56

我用相机拍的话应该比扫描的速度快些,分辨率自然不及扫描仪。不知上面几位觉得如何??


作者: 季人    时间: 2005-11-4 08:55
沙南贝侬可以通过电子邮件直接把扫描文件发给我。
作者: 沙南曼森    时间: 2005-11-4 09:08

我已完成第181-190页的扫描、识别、校对及编辑、上传。这10页耗费了我5个小时的时间,由此可知Honghlaj等贝侬的艰辛。我用的是方正OCR,差错率挺高,校对效率很低。Honghlaj贝侬用的是哪个OCR软件呢?我感觉你的校对、编辑效率比我高一倍以上。


作者: 沙南曼森    时间: 2005-11-4 09:14
以下是引用Stoneman在2005-11-3 16:32:18的发言:

本周沙南贝侬负责181-200页,我来负责扫描201-220页,等沙南贝侬上传完181-200页,Honghlaj 贝侬识别、校对、编辑完并上传181-200页后,我再上传201-220页。

季人贝侬如果能做一些OCR的工作是最好不过了。为避免做重复工作,您最好与Honghlaj 贝侬联系分工事宜。

191-200页的扫描、识别我暂时没时间来完成。明天起一个星期内我可能都不上网也不用电脑。贝侬可以留一个回帖的位置给191-200页,然后从201页继续往下扫描、识别。我一个星期后再来完成191-200页的相关工作。


作者: Honghlaj    时间: 2005-11-4 12:36

回沙南:我用的是汉王文本王,识别、校对10页约需2.5~3个小时。

回Marsuncle:用相机拍也可以,估计Stoneman也是这样做的。

[此贴子已经被作者于2005-11-4 12:40:17编辑过]

作者: Stoneman    时间: 2005-11-5 15:54

回沙南贝侬:我来负责扫描上传191-210页吧。

回Honghlaj:我是用扫描机扫描的,软件是VistaScan。扫描20页大约用30分钟,上传20页大约也用40到60分钟,因为我没有用宽带。

[此贴子已经被作者于2005-11-6 16:29:19编辑过]

作者: Stoneman    时间: 2005-11-12 16:24
本周末我来负责扫描上传211-230页。愿意帮忙的贝侬请从231页起扫描上传。
作者: Honghlaj    时间: 2005-11-12 20:27

本周至年底我较忙,季人贝侬能否帮忙OCR?谢谢!

期间Stoneman贝侬尽管上传,如我能抽出时间就可以OCR。


作者: marsuncle    时间: 2005-11-13 10:21
gou gaenq hwnjcienz 231-269.
[此贴子已经被作者于2005-11-13 11:35:48编辑过]

作者: 季人    时间: 2005-11-14 10:43
以下是引用Honghlaj在2005-11-12 20:27:27的发言:

本周至年底我较忙,季人贝侬能否帮忙OCR?谢谢!

期间Stoneman贝侬尽管上传,如我能抽出时间就可以OCR。


我开始OCR第211页-220页的内容,分批上传。请各位贝侬注意避免重复劳动。
作者: 季人    时间: 2005-11-15 14:09

第211页-220页OCR并上传完毕。为便于校对,我把扫描图片和OCR后的文本放在一起。

接下来我准备开始OCR第221-230页,请各位贝侬注意避免重复劳动。


作者: marsuncle    时间: 2005-11-15 22:43

gou yaek laebdaeb hwnjcienz 270-290


作者: Stoneman    时间: 2005-11-19 16:13
Marsuncle, 季人, song boux sou dwgrengz lo!
作者: 右江水红河岸    时间: 2005-11-19 20:29
gyongq beixnuengx dwgrengz lailai
作者: Honghlaj    时间: 2005-11-19 23:50
以下是引用marsuncle在2005-11-15 22:43:31的发言:

gou yaek laebdaeb hwnjcienz 270-290

首先对Marsuncle贝侬付出的辛劳表示感谢,不可否认你上传的图片分辨率较高,如文字没有变形的,OCR的识别效率比Stoneman贝侬上传的高许多,但也不得不指出的是部分图片(约占1/3强)文字严重变形,严重影响识别,有时甚至比打字还费时,所以还望贝侬能改进。谢谢!

另外,Marsuncle贝侬遗漏了第256页没有上传,哪位贝侬帮忙补上?同时,我已完成第250~269页的OCR,其他贝侬可不再重复劳动。

[此贴子已经被作者于2005-11-20 1:57:38编辑过]

作者: marsuncle    时间: 2005-11-20 02:15
以下是引用Honghlaj在2005-11-19 23:50:24的发言:

首先对Marsuncle贝侬付出的辛劳表示感谢,不可否认你上传的图片分辨率较高,如文字没有变形的,OCR的识别效率比Stoneman贝侬上传的高许多,但也不得不指出的是部分图片(约占1/3强)文字严重变形,严重影响识别,有时甚至比打字还费时,所以还望贝侬能改进。谢谢!

另外,Marsuncle贝侬遗漏了第256页没有上传,哪位贝侬帮忙补上?同时,我已完成第250~269页的OCR,其他贝侬可不再重复劳动。


多谢提醒,以后拍照时我会尽量压平书再照。我已经在251-269的帖子中补入256页。


作者: Stoneman    时间: 2005-11-27 15:09

marsuncle, Honghlaj, 季人辛苦啦。我最近换了新工作,比较忙;另外,我的扫描器也出了点问题。所以,下来的工作靠各贝侬了。


作者: marsuncle    时间: 2005-11-27 16:42
mbouj miz problem.
作者: 沙南曼森    时间: 2005-11-27 23:12
291-300页的扫描和识别工作,我明晚来做吧。不好意思了,贝侬们。
作者: 沙南曼森    时间: 2005-11-30 14:37
由于32开的厚书页面太小,压不平,扫描变形严重,识别正确率较低,我在三天里先后弄了三次才把291-300页的资料扫描、识别、校对完毕,今天中午才得以编辑、上传。耽误大家了,不好意思。
作者: 季人    时间: 2005-11-30 17:05

我发现大家在标点符号的使用上有不一致的地方,主要是全角和半角的区别。
虽然是小问题,但是如果能统一起来应该更好。例如在壮文例句中,是否应当全部使用半角符号?


作者: Stoneman    时间: 2005-12-16 14:37
看来季人,沙南最近都很忙,我前两天也才到新公司工作,最近不会有太多时间上网,只有marsuncle 和 Honghlaj 两位在坚持, 两位辛苦啦。
作者: Honghlaj    时间: 2005-12-20 23:34
向Marsuncle贝侬提个意见:上传的图片(如mb311~320)上下部分明暗反差太大,影响识别,希望改进。
作者: marsuncle    时间: 2005-12-25 12:08
honglaj辛苦了!p321 to p330 我来负责好了。
作者: Stoneman    时间: 2005-12-25 16:55
我最近换了新工作,尽管新工作没有前一份工作那么忙,但下来这几个月本人又需忙于准备专业考试,还是不能抽出太多时间来上家园,实在是不好意思。Marsuncle caeuq Honghlaj, gou couh cijndaej baengh song boux beixnuengx sou daeuj nem sat bonj saw neix lo! Gyo'mbaiq sou!
作者: marsuncle    时间: 2005-12-27 12:40
p331 to p400还是我来负责
作者: Stoneman    时间: 2005-12-31 13:23
祝 Honghlaj, marsuncle, 季人,沙南以及各位贝侬及家人新年快乐,身体健康,工作顺利,万事胜意。
作者: 沙南曼森    时间: 2005-12-31 15:24

我们还有半天才到元旦。也祝贝侬元旦快乐!


作者: wenliqan    时间: 2005-12-31 15:45
以下是引用沙南曼森在2005-12-31 15:24:19的发言:

我们还有半天才到元旦。也祝贝侬元旦快乐!

真心祝愿各布贝侬工作顺利!!!身体安康!!!!大家辛苦了!!


作者: 沙南曼森    时间: 2005-12-31 15:54

我离岗那么久了,惭愧啊。其他几位贝侬才真的辛苦了。


作者: 山之凤    时间: 2005-12-31 21:35

Gyongq beix nuengx dwg lengz lo!!


作者: Honghlaj    时间: 2005-12-31 22:52
祝众贝侬新年心想事成,事业兴旺!大家为了家园都辛苦啦!希望家园更上一层楼。
作者: marsuncle    时间: 2006-1-9 11:25
p401-500 我先包下来
作者: 季人    时间: 2006-1-10 13:10

那我负责P501-600吧。


作者: marsuncle    时间: 2006-2-9 23:27

p601-700 gou hwnjcienz liux ho ^_^

[此贴子已经被作者于2006-2-13 11:45:02编辑过]

作者: marsuncle    时间: 2006-2-16 07:12
p701-752 gou rap lo.
作者: 季人    时间: 2006-2-16 08:34

marsuncle贝侬效率太高了!
请问是不是有什么诀窍呢?


作者: marsuncle    时间: 2006-2-16 11:24

也不算什么诀窍,一点心得。说出来与大家分享。

我是用相机拍的,拍的时候在东边的阳台比较好,书朝东面,光线就比较均匀(我今天回到公司在宿舍的阳台拍的,阳台朝北,结果有一边拍出来就比较暗,影响识别)。拍完后输入电脑,用photoshop裁剪和自动光阶处理(若有局部还是较暗的话在那里划一个选区再做自动光阶处理)。OCR我用的是网上下载的汉王文笔王,版面分析我采用手工分析,假如成像质量好的话,就分左右两个版面,不好的话分块甚至逐个条目的分。识别后把文字拷入字处理软件(我用的是wordpad),大致看一下,一般的话经常是 l 识别为 1(数字), o 识别为 0(数字),n 可能会识别为 l l , u 可能是 t l ,然后用替换功能把这些和大写的全部替换掉。下来的话都是大致看一下,看多壮文了都不一定要对书来校对,一下小差错很明显就能看出来。至于效率,在家里拍的大概1.5-2小时10页,在公司宿舍的大概3小时不到。

[此贴子已经被作者于2006-2-16 11:26:51编辑过]

作者: Honghlaj    时间: 2006-2-18 10:52

真是佩服Marsuncle贝侬,善于利用工具,效率特高!校对方面,我还是发现许多小差错,但瑕不掩瑜,以后慢慢来。

还有,是否把两个附录也弄上来?汉字的识别率会高很多,不会比正文部分多花时间的,期待中。


作者: marsuncle    时间: 2006-2-18 23:45

2 honghlaj,我想可以,坛子的表格功能我试了一下,估计没问题。国际音标的话有部分不能正确显示。老壮文基于俄文字母的,我试过没问题。

[此贴子已经被作者于2006-2-18 23:53:14编辑过]

作者: marsuncle    时间: 2006-3-28 20:09
gou gaenq ingj p541-560 lo.





欢迎光临 僚人家园 (http://bbs.rauz.net.cn/) Powered by Discuz! X2.5