2007年5月20日宕机事件报告与致歉公告
缘由
2007年5月20日晚开始,因本站所在的服务器不稳定,频繁重启导致了本站论坛数据库损坏,当时开始一个星期内网站的论坛均无法登陆,论坛重新开放后数据至今仍没有完全修复。
过程
2007年5月20日晚本站所在的服务器由于频繁重启导致本站数据库损坏,此后一个星期内虽经本站管理员(bill)与主机商交涉与参与数据库的修复,但事态一直处于不明朗状态,论坛一直没有得到修复。
2007年5月27日,论坛修复有了进展,论坛重新开放。但2006年12月底到2007年5月20日期间发表的新帖子的数据均找不到(不包括在2006年12月下旬以前发表的帖子上于2006年12月底到2007年5月20日期间发表的跟帖),也就是说最近半年的数据表均没有找到。
2007年5月30日,通过与主机商的多方面交涉,拿到了服务器的必要权限后,管理员找回了2006年12月下旬到2007年5月20日的数据表(4万多条数据),但发现已经损坏,得重新抢救,但经过管理员(bill)与多方面联系(包括联系了许多大公司里做数据库维护的人员),一起进行了一个多星期的修复工作,试了能试的所有办法,但结果是至今仍旧没有恢复那份数据。
结果
由于这次宕机事件,本站暂时损失了2006年12月到2007年5月20日这将近半年的新帖数据,目前损坏的数据库还由管理员保存,损坏的数据表没做改动,目前还有4万多条数据保存在里面,日后如果想到恢复的办法,一定会能把那些数据修复回来。我们期待能够尽快有办法恢复这将近半年的数据。
2007年6月9日,本管理员撰写本次宕机事件的报告,最后向技术管理员咨询数据表的修复有没有进展,技术管理员表示到现在仍旧没有新的进展,他也联系了几个朋友,最近都很忙,都没能再帮看,数据库还在他这里,现在暂时是没有能恢复的办法。就此,本次宕机事件算是以令人不满意的结果而先告一段落。
影响
僚人家园论坛五年多来聚集了我们网站的主要动态内容,去年僚人家园论坛曾经丢失了6-7月份的数据,那已经是一次沉痛的教训。本次宕机事件则有将近半年(2006年12月下旬-2007年5月20日)的数据至今无法修复,如果最终无法修复,对本站来说损失可谓惨重之极,这半年僚人家园的历史将会变成空白。
本次宕机事件给我们论坛与许多用户造成了巨大的损失。因为大部分东西都是在论坛上随想随写,大部分用户从来没有留底。特别是半年内刚开设的新版块如“僚商天地”、“勐僚风情”里的大多数帖子都是半年内刚发表的帖子,“僚商天地”版块很多帖子都很有份量,如weyouthey贝侬撰写的开设该版块的倡议,又如“勐僚风情”版块包含了许多德靖土语区经典口头文学特别是“对诗接力”的帖子,所有这些帖子现在均已经找不到了。
这样的数据损失打击了许多注册用户的发言、讨论积极性。可以想象,同样的问题出现多次以后,很多用户都不敢随意发表东西,因为每次发表之前都要先想好留底,这样麻烦的发帖程序就调动不了积极性。而对于大多数用户来说发表东西的同时也在起存档的作用,这个作用没有办法保障,这也使得发帖积极性遭受挫折。
措施
这次宕机事件造成的数据大量损坏和无法修复,有外因也有内因。外因是服务器和主机商的问题,因服务器频繁重启而造成的意外,而内因则是本站数据库多次转换而遗留下来的隐患。也就是说主机商有问题,我们的数据库本身也有缺陷。
以前本站从一个很小的简单的论坛发展到现在,数据库从最初的文本数据库换成AC数据再换成现在的SQL的,转换了那么多次,变得很不规则,所以修复起来难度很大。数据库也有问题,技术管理员也是在不断的修复和修正,也就是想保留以前的帖子与用户。到现在数据库这么庞大,处理的速度也随之降低了很多,当时我们也还没有哪能能力说一步到位的用一个数据库,都是一点一点转换过来的。按理说近半年的数据还在库里,应该不会丢失的,但现在是处于无法修复的尴尬状态。
因为服务器里的数据库是公用的,一些权限本站技术管理员也拿不到,主机商平时也不主动给备份,都是本站技术管理员自己上去备份的。这次要不是本站技术管理员备份过,出这个大个问题,都很有可能全部丢失,那样的话整个网站都不知道怎么办好了。
从内因总结的教训和应该采取的措施:
一、以前为了保住论坛初期的数据做的多次转换,导致数据库不规则,造成了不好修复,因此技术管理员一直在想将数据库转换成其他格式的会不会能好些。要是数据没问题,即使出现这样的状况也不会丢失的,怎样才能切实避免再次发生,这两个月技术管理员将会想办法转换下程序,挑选一个运行效率高和不易损坏的数据库。
二、从数据表的数量来说,为了避免再次发生,以后我们尽量只要一个数据表,那样的话机器运行起来是有点慢,不过却是最稳当的。
从外因总结的教训和应该采取的措施:
追究外部责任,还是在于主机商的服务器质量与服务器管理工作。两度数据大规模损失或损坏,均可以看出主机商和服务器的问题。这次宕机事件是大规模的,不止本站数据的,该主机商一半以上的用户都挂了,其中有一个服务器的用户现在都没通上。我们正在考虑与该主机商追究责任,并采取切实可行的措施保障本站服务器不再出现再次的频繁重启问题。
致歉公告
在事件的过程当中,其中不少用户包括许多骨干会员都会通过各种渠道联系本管理员来咨询,本管理员在做简单的解释之余也深感困扰,因事态在发展过程当中一直处于不明朗的状态,所以当时一直没有办法详细解释,而且一直在等待仍旧保留在库里的数据的修复工作,因此详细的报告一直拖到现在。
虽然本管理员已经在网站首页和论坛都做了简单的公告来解释,但截止目前,事情的详细经过以及半年的数据到底是丢失还是没有修复,都没有给过大家一个明确的交代,为此本管理员代表本站向本站论坛的所有用户诚挚道歉,我们承诺将会继续全力抢修仍未修复的数据,并采取上述措施来尽量杜绝宕机事件的再次发生。希望注册用户结束观望状态,一如既往地关注和参与我们论坛的建设,并支持我们论坛的管理工作。
此致
敬礼!
报告人:红棉树
2007-06-09
[此贴子已经被作者于2007-6-11 0:36:15编辑过]