全基因组测序(WGS)是下一代测序技术,用于快速,低成本地确定生物体的完整基因组序列。基因组的深度测序对于临床研究的意义重大,解读WGS数据并了解基因组突变在健康和疾病中的重要性是精准医疗的基石。

       WGS分析流程能分为三大块,数据处理、检测变异和综合分析,具体如下图所示:

       由于WGS现在已经非常成熟了,因此这里面的每一步骤都能在网上找到相应的工具。

       质量控制

       在高通量测序中,有时候会出现低质量读数和污染读数等问题,会影响接下去的分析结果。因此,质量控制(QC)对于原始NGS数据至关重要。现在质量控制软件主要用的是 NGS-QC Generator,它可以从与特定NGS概况相关联排序读数的分布推断出质量指标。

       基因组对齐

       高通量测序分析中需要将生成的读数对准(映射)到参考序列。此时,就需要用到Bowtie和BWA。前者能以每小时超过2500万个35 bp读数的速率将短DNA序列(读取)与人类基因组进行比对。后者针对大型参考基因组(如人类基因组)绘制低分歧序列。

       序列可视化

       可视化读取对齐是使用现有数据验证候选结构变体(SV)的最有效方式。这可以用IGV来完成。高性能的查看器可以有效地处理大型异构数据集,同时在所有基因组分辨率级别提供直观的用户体验。IGV的一个关键特征是其关注于基因组研究的综合性质,支持基于阵列和下一代测序数据,以及临床和表型数据的整合。

一文囊括全基因组测序各步骤工具,值得收藏

       变异检测

       都是各种基因变异的检测手段,就放一起说了。种系突变、体细胞突变和插入缺失检测这三个的检测都可以用一个软件,SAMtools。这是用于与高通量排序数据进行交互的程序。它可以处理SAM / BAM / CRAM格式的读取,写入,编辑,索引,查看和转换SAM / BAM / CRAM格式。SAMtools还可以索引FASTA格式的引用序列或从索引引用序列中提取子序列。

       拷贝数变异(CNV)是遗传变异的常见来源,涉及许多基因组障碍。CNV是基因组中结构变异(SV)的一种形式。通常,CNV是指大于1kbp的DNA片段的重复或缺失。CNV检测可以用CNVnator,它可以从家族和群体基因组测序中发现基因型、表征典型和非典型CNV的方法。CNVnator具有灵敏度高(86%-96%),假阳性低(3%-20%),基因分型准确率高(93%-95%)的特点。

       短串联重复序列(STR)是DNA重复的一种,重复单位为2-6bp,重复次数10~60多次,基因片段,400bp以下。STR是存在于人类基因组DNA中的一类具有长度多态性的DNA序列,不同数目的核心序列呈串联重复排列,而呈现出长度多态性,通常多态性片段长度在100-300bp。

       STR的长度变异性与许多物种的表型变异有关,一些疾病也是由重复扩张引起。分析STR,特别是长STRs的变化是理解其个体变异性和导致其不稳定的机制的重要步骤。

       检测STR比较简单,不用下软件,直接在线操作。用MISA-web (http://webblast.ipk-gatersleben.de/misa/) 中的MIcroSAtellite identification tool可以通过在输入字段中指定相应的登录号来从NCBI数据库中检索序列。MISA-web支持两种不同的输出格式:专有的MISA输出格式和通用GFF3。GFF3输出格式有助于将MISA网页搜索结果集成到下游分析中。