由西班牙国家癌症研究中心(CNIO)领导的一项新研究表明,高达20%被归类为编码的基因(那些产生所有生物构成块的蛋白质的基因)可能不会编码,因为它们有非编码或假基因(过时的编码基因)的典型特征。随之而来的人类基因组大小的减少可能对生物医学产生重要影响,因为产生蛋白质及其鉴定的基因数量对于多种疾病(包括癌症和心血管疾病)的研究至关重要。

这项研究发表在Nucleic Acids Research杂志上,是由CNIO生物信息学部门的Michael Tress和英国Wellcome Trust Sanger研究所,美国麻省理工学院的研究人员领导的国际合作的成果。 ,巴塞罗那的庞培法布拉大学和国家超级计算中心(BSC-CNS),以及马德里的国家心血管研究中心(CNIC)。

自2003年人类基因组测序完成以来,来自世界各地的专家一直致力于编制最终的人类蛋白质组(基因产生的蛋白质总数)和产生它们的基因。鉴于人类基因组的复杂性以及人类拥有大约20,000个独立编码基因的事实,这项任务是巨大的。

研究人员分析了在主要参考人类蛋白质组中编目为蛋白质编码的基因。来自GENCODE / Ensembl,RefSeq和UniProtKB的参考蛋白质组的详细比较发现了22,210个编码基因,但在所有3个注释中仅存在19,446个这些基因。

当他们分析仅存在于这些参考注释中的一个或两个中的2,764个基因时,他们惊讶地发现实验证据和手动注释表明几乎所有这些基因更可能是非编码基因或假基因。事实上,这些基因与三个参考目录中存在的另外1,470个编码基因一起,不像典型的蛋白质编码基因那样发展。该研究的结论是,这些4,234个基因中的大多数可能不编码蛋白质。

据科学家称,这项研究已经取得了成效。“我们已经能够详细分析这些基因中的许多,”Tress解释说,“已有300多种基因被重新分类为非编码基因。” 这些结果已经被GENCODE国际财团纳入人类基因组的新注释中,CNIO的研究人员也参与其中。

近年来基因数量相互矛盾

这项工作再次突出了对人类基因组测序15年后人类细胞中存在的真实基因数量的怀疑。尽管最新数据显示编码人类蛋白质的基因数量可能超过20,000,但英国Wellcome Trust Sanger研究所的Federico Abascal和该作品的第一作者说:“我们的证据表明,人类可能只有19,000人编码基因,但我们仍然不知道19,000个基因是什么。“

Pompeu Fabra大学的David Juan和该研究的参与者重申了这些结果的重要性:“令人惊讶的是,这些不寻常的基因中的一些已经得到了很好的研究,并且基于以下假设有超过100种科学出版物。基因产生一种蛋白质。“

这项研究表明,仍存在大量的不确定性,因为编码基因的最终数量可能比现在多2,000或2,000。人类蛋白质组仍然需要做很多工作,特别是考虑到它对医学界的重要性。