由西班牙国家癌症研究中心(CNIO)领导的一项新研究显示,多达20%的被归类为编码的基因(那些产生构成所有生物的蛋白质的基因)可能并不编码,因为它们具有典型的非编码或伪基因(过时的编码基因)的特征。因此,人类基因组尺寸的减少在生物医学中可能产生重要影响,因为产生蛋白质的基因的数量及其鉴定对于包括癌症和心血管疾病在内的多种疾病的研究具有至关重要的意义。
发表在杂志上的这项工作核酸研究它是由CNIO生物信息学股的Michael Tress领导的,以及来自联合王国WellcomTrust Sanger研究所、美国麻省理工学院、Pompeu Fabra大学和位于巴塞罗那的国家超级计算中心(BSC-CNS)和位于马德里的国家心血管研究中心(CNIC)的研究人员领导的。
自测序工作完成以来人类基因组在2003年,来自世界各地的专家一直在致力于编纂最后的人类。蛋白质组(由基因产生的蛋白质总数)和产生它们的基因。这一任务是巨大的,因为人类基因组的复杂性和人类大约有2万独立的事实。编码基因
研究人员分析了主要参考人类蛋白质组中被归类为蛋白质编码的基因。对GENCODE/Ensembl、RefSeq和UniProtKB的参考蛋白质组进行了详细的比较,发现22,210个编码基因,但在所有3个注释中只有19,446个。
当他们分析这些参考注释中仅有一到两个的2,764个基因时,他们惊讶地发现,实验证据和人工注释表明,几乎所有这些基因都更有可能是。非编码基因或者是假基因。事实上,这些基因,再加上三个参考目录中的另外1470个编码基因,并没有像典型的蛋白质编码基因那样进化。这项研究的结论是,这4234个基因中的大多数可能不编码蛋白质。
科学家们说,这项研究已经收到了成效。“我们已经能够详细分析这些基因中的许多,”特雷斯解释说,“已经有300多个基因被重新归类为非编码基因。”这些结果已经被GENCODE国际联合会纳入了人类基因组的新注释中,CNIO的研究人员也是其中之一。
近年来相互矛盾的基因数目
这项工作再次凸显了人类基因组测序15年后,人类细胞中真正存在的基因数量的疑问。尽管最近的数据表明,编码人类蛋白质的基因数量可能超过2万,英国威康信托桑格研究所的Federico Abascal说,“我们的证据表明,人类可能只有1.9000个编码基因,但我们仍然不知道19000个基因是哪一个。”
庞培法布拉大学(Pompeu Fabra University)的大卫·胡安(David Juan)也是这项研究的参与者,他重申了这些结果的重要性:“令人惊讶的是,其中一些不寻常的基因已经得到了很好的研究,并发表了100多篇科学论文。蛋白. "
这项研究表明,仍然存在大量的不确定性,因为编码基因的最终数量可能比现在多或减少2,000多个。人类蛋白质组仍然需要大量的工作,特别是考虑到它对医学界的重要性。
发表评论 取消回复