《从父系遗传结构分析壮族的起源与分类》一帖原由阴暗面网友转帖而来,宕机事件以后帖子也随之遗失,至今没有恢复。记得原帖里有许多很有价值的讨论,想起来真颇让人遗憾。正好,现在中文版的《从父系遗传结构分析壮族的起源与分类》已经出来,特地重开此帖。但考虑到版权的关系,本帖只转录部分摘要,要看全帖的贝侬请到以下网址:http://comonca.org/2007.aspx。
从父系遗传结构分析壮族的起源与分类
陈晶
广西中医学院第一附属医院综合实验室,中国 南宁 530023
摘要:壮族是中国最大的少数民族,与东南亚广泛分布的泰老族群有着密切的关系,在东亚人群的遗传结构
研究中地位非常特殊。然而,由于壮民族缺乏通用的本族文字,历经数千年的发展,壮民族内部人群的迁徙
融合及交流状况很难在现有的文字资料中有所发现。仅有的材料是从语言上将壮族人群区分为壮语北部方言
组和南部方言组。为了解壮族人群的内部遗传结构,我们从父系遗传物质Y 染色体入手,根据东亚人群特异
的18 个Y 染色体双等位标记,7 个Y-STR 标记,对壮族各个支系共八个人群的DNA 样本进行限制性长度片段
多态酶切、荧光PCR 确定SNP、STR 等实验技术分析,及主成份分析、聚类分析、分子方差分析等多种遗传学
分析技术,调查了壮族各个支系的DNA 多样性,分别确定其Y-SNP、Y-STR,揭示壮族的内部遗传结构。结果
发现,壮族的主要Y 染色体单倍群为O*、O2a、O1。壮族的遗传结构中有几个层次,最早的O*、O2a 成分
普遍出现在各个支系中,第二层是由东部来的百越核心成分O1,第三层是北方来的汉族成分O3,与壮族的
历史事件和其他人类学研究基本一致。壮族支系遗传结构体现出以红水河支系为中心从东往西的梯度变化过
程。传统的对壮族按方言分为南北二组的分类方法并没有在遗传学上获得相应的支持。
关键词:Y 染色体;壮族;内部遗传结构;多起源
表1 壮族各支系的Y 染色体SNP 分型频率
Tab.1 Y-SNP haplogroup frequencies of branches of Zhuang
————————————————————————————————————————————————————— size C D D1a F* K* O* O1 O2a* O2a1 O3 O3a O3e* O3e1
—————————————————————————————————————————————————————————————————邕北YB 23 8.70 4.35 4.35 21.74 17.39 8.70 21.74 8.70 4.35 4.35
右江YJ 5 40.00 20.00 20.00 20.00
田林 22 13.64 4.55 72.73 4.55 4.55
桂边GB 4 25.00 25.00 25.00 25.00
红水河HSH 39 2.56 5.13 5.13 23.08 10.26 5.13 7.69 20.51 5.13 15.38
桂北GN 21 4.76 4.76 4.76 38.10 4.76 4.76 4.76 14.29 14.29
邕南YN 19 5.26 5.26 15.79 10.53 10.53 10.53 31.58 5.26 5.26
左江ZJ 15 6.67 33.33 40.00 20.00
上思 15 13.33 20.00 60.00 6.67
德靖DJ 3 100.00
—————————————————————————————————————————————————————
在东亚,研究者通过对不同人群的基因突变进行分析,发现中国南方人群积累的突变要多于北方人群[18-21],许多相当古老的Y 染色体单倍群(单倍群由一系列的Y 染色体上的SNP 定义)大量的出现在中国南方的群体中,这些单倍群包括O、O2a。经过适当的数理计算,人们发现这些单倍群产生的年代大约是距今20000~10000 年[7,11-12,22]。同时,人们也发现了不同的族群其特征的突变也不相同。例如O1 单倍群就被发现是东部百越族群较为特征的单倍群,而另一些来自北方人群的数据则表明相较于南方人群,O3 这个单倍群在北方汉族人群中有着更高的分布频率 [18-19]。依据这些已有的研究成果,我们能够有足够的比对人群进而分析今天壮族人群的整体遗传背景。
为了理清壮族的内部遗传结构,我们采集了129 份分属于不同地区的壮族男子的DNA 样品,并对其进行Y-SNP 单倍群分群。为了更为全面地了解壮族,我们还在上述数据基础上加入了已发表的布依族、水族数据,以及部分未发表数据[23-24],使得参与分析的样本量达到166 份,以保证每一个壮族支系包含的样本数达到统计要求,即壮族每个支系的样本数达到10 例以上。表1 系壮族人群Y 染色体SNP 单倍群分布频率。从表中我们发现C、D、D1a、F 这些较为古老的单倍群在壮族群体中也有一定的分布,但是频率比较低,我们考虑这些古老的单倍群更可能是作为壮族人群中一种遗传背景存在,它们不是壮族人群的主体单倍型。单倍群O*则需要特别的关注,这个单倍群在壮族各个支系中普遍高频,构成了壮族Y 染色体SNP 单倍群的主体,同时,壮族中高频的O*单倍群分布也迥异于南方一些别的群体的Y 染色体SNP 单倍群分布情况。壮族人群单倍群O*普遍高频这个结果提示我们:壮族极大的可能是别于以往一些南方群体而有着自己特征的群体。根据以往一些数据我们大体推测单倍群O*是一个比较古老的单倍群,其产生年代至少是距今一万年以上[7,11-12,22],再结合壮族该单倍群的STR 数据我们大体了解壮族人的历史比较古老。随后则分别是O2a、O1 这两个Y 染色体SNP 单倍群,它们在壮族人群中也有较高的分布频率。而这两个Y 染色体SNP 单倍群在其它东亚南方群体里面也同样高频分布。这个分布格局与原有的东亚南方人群的Y 染色体单倍型频率分布规律相一致,这说明壮族人群尽管有着自己的特点,但仍是较为典型的东亚南方群体。此外我们也发现O3*及其下游的Y染色体SNP 单倍群在壮族人群中也有一定的分布,由于这些单倍群在东亚北方部分人群中拥有比较高的分布频率,加之通过STR 年代估计发现壮族群体中这些单倍群的发生年代均在4000 年以内,因此可以得到提示:O3*可能并非壮族固有的遗传成分,而可能系和东亚北方人群交流获得。
从表1 的Y 染色体SNP 单倍群分布情况分析,我们大体得到几个基本的结论:广西壮族人群仍旧应该是比较典型的东亚南方人群。在保有东亚南方人群比较特征的Y 染色体SNP 单倍群O2a、O1 的同时,壮族人群也拥有自己高频分布的O*单倍群,这也表明壮族很可能有着自己独特的发展历史。最后,通过表1 并综合STR 的相关数据,我们也能看到壮族人群中也有一定的北方人群遗传成分。从这几点而言,再对照壮族现有的历史记载,我们能发现其颇为符合之处:起源于西瓯骆越的壮族人有过自己独立的方国,参与了遍及长江南岸的百越族群辉煌的历史。随后面对汉族的崛起,也曾经为了自己的生
存而一争短长,并在这种过程中艰难地融入中华民族共同进步的历程,接受了来自中原的文明还有中原的移民,最终形成自己独特的民族文化,甚至可能在当初汉民族优势压力下进行了长途的迁徙。
--------------------------------
五、壮族内部遗传层次
经过上述的这些分析,我们通过两种遗传工具使用不同的统计分析方法来展示广西壮族的内部遗传结构,现在我们来整理这些分析结果,使得它更为清晰。我将这些结果概括为壮族的三个遗传层次。
第一个遗传层次是壮民族固有的民族特性。壮民族的起源问题学者们已经在民俗学上、历史学上、考古学上已经得到一个基本的论点,现在我们使用分子生物学的工具进一步肯定了这个论点的正确性。现在从广西壮族不同支系的不同Y-SNP 单倍群频率分布上看,我们发现其与它现存百越系统人群相似,提示他们的共同起源。单倍群O2a 在壮族各个支系的高频分布准确无误地传达了这样的信息。而单倍群O*在壮族支系的普遍高频则提示壮族自身可能存在的特殊发展过程。这两个单倍群也就构成了壮民族遗传层次的最底层,是壮族最基本最特色的遗传结构。所以无论是在那一直存在的考古文化中,
还是在民间代代相传的神话传说中,无论是在历史书籍的明确记载中,还是在今天我们科学地分析中,壮族都是一个有着悠久历史、有着自己族群文化、有着自己独特血缘的民族,他的独特性毫无疑问。
在明确这一点之后,我们就需要去理清壮族内部支系在广西境内是怎么样迁徙演变的。通过主分成分析、聚类分析、分子方差计算、趋势地图绘制等等方法,我们能够明确单倍群O2a 很可能在东亚人进入广西之前就携带有了,其后这个单倍群在广西呈现自南向北的扩散趋势。而单倍群O*则展示了携带这个单倍群的壮族人更为明确的扩散方式:他以红水河为中心和起点,自东向西并且很可能是沿着河流扩散的。
第二个遗传层次是来自单倍群O1。O1单倍群内部结构明显地体现出壮族的某些成分从东部向西部扩散的过程。结合已有的研究资料[22,25],我们猜测这一过程在一万年以内,这是壮族遗传结构的第二个层次。可能是西瓯混入骆越的过程。这个过程很可能与百越族群的整体命运以及百越族群的变迁衍化紧紧联系起来,成为一个宏大历史背景中的一个部分,这也将关系到壮族在整个百越族群中的地位问题。这个问题就留待以后更为详细地分析吧。
第三个遗传层次是来自O3*及其下游单倍群的信息。在我们的分析结果中,我们注意到O3*及其下游单倍群在壮族人群又有着一定频率的分布,但是经过STR 网络结构分析,这些单倍群并没有自己的中心,分布也比较零散。这就使得遗传结构与一些历史记载吻合起来。自有文字记载的历史纪录,我们发现公元前213 年,当时统治者秦始皇就曾从中原征调1.2 万未婚女子至岭南配给驻守在岭南地区的军队。从那时起,岭南成为秦王朝“治狱吏不直者”的发配地。此后历代统治阶级
对岭南地区多采取“羁縻政策”,使得众多来自北方的军人、流官的迁入,这导致了壮族原有的基因库经历了延续不断的扩充乃至混杂。因此属于东亚北方人群特征单倍群的O3*,在壮族人群里面也有一定的比例。但是因为单倍群O3*并没有区分出明显的组群,也没有明显的中心,因此单倍群O3*及其下游单倍群应该是历代东亚北方人群进入广西和当地壮族融合留下来的痕迹,属于壮族人群遗传结构中外来的遗传成分,其历史应该在最近的数千年内,这和历史的记载也是相符合的。
壮族是否土著民族,壮族是否经历过奴隶社会,侬智高起义研究,这三个问题是长期以来壮族研究中人们关注的热点问题。近两年来随着研究的深入,学者们对第一第二个问题的看法日趋一致。现在我们使用分子生物手段来探寻壮族族源及其迁徙演变,得到了壮族土著起源的结论,更进一步的理清了壮族不同语言支系的发展演变趋势,证实了前人的研究成果,也理清了一些含混不清的问题。尽管如此,关于壮族遗传结构的研究却远未结束。壮泰族群研究历史上的“泛泰”概念是否有所根据?壮族和老族掸族又存在什么样的关系?甚至从更高的角度来看,壮族在整个东南亚民族中处于什么样的
位置?这些都有待我们的努力。我们期待在更进一步的研究中,壮族的发展历史将会得到更加全面的展示。
致谢:感谢复旦大学现代人类学教育部重点实验室对本项研究的支持和帮助,尤其感谢金力教授和李辉博士的指导。
[此贴子已经被作者于2007-6-12 22:27:09编辑过]