利用宏基因组测序分析细菌流行病学和菌株

Davide Albanese & Claudio Donati
2017-12-31

微生物群落通常由同一物种的多个菌株组成的复杂混合物,具有广泛的基因组和表型变异性。在微生物生态学中,为了充分发挥宏基因组测序的潜能,从传染病流行病学到微生物定植的动态界定 ,找到能够识别、量化和分类样品中不同的菌株的计算方法是最根本的。

在这里,我们提出了一种计算方法,使用可用的基因组数据,从宏基因组测序重建复杂的菌株图谱,量化不同菌株的丰度,根据物种的种群结构对它们编目。

我们利用合成数据集对该方法进行了验证,并将其应用于实际样品中几种重要细菌菌种的菌株分布表征界定,展示了该应用对微生物群落结构和复杂性的新见解。

然而,为了充分利用宏基因组学在临床和流行病学的应用潜力,需要一种新的计算技术,在同种菌株之间的表型和基因组变异水平已知的情况下,在物种水平分辨率之上,分析微生物群落。

目前广泛使用的是基于标记的计算方法,该方法通过基因组测序数据,采集基因组标记,分析宏基因组样品的分类组成。

在这里,我们提出一个新的宏基因组测序数据分析方法,StrainEst,基于引用的方法,利用所选择的菌种的可用基因组的单核苷酸变异(SNV)分析,来确定共存的菌株的身份和数量,以及他们在混合宏基因组样品中的相对丰度。

除了做为一种可以同时界定所有物种的通用的工具, StrainEst利用SNV分析聚类,定义菌种结构,着重于相关的菌种。

利用惩罚优化程序分解独立的组件,StrainEst识别并量化样品种所有相关菌种,提高目前菌株识别方法的分辨率。

此外,通过使用具有代表性的基因组测序预定义数据库对组成分类,StrainEst允许大型荟萃分析编辑 ,包括无关研究的样本,是流行病学研究中,广泛使用宏基因组学的基础。

利用宏基因组测序分析细菌流行病学和菌株

StrainEst 概述

a. 

给定相关菌种的基因草图和完整图(G1,G2...),菌种代表(SR),计算出两两的Mash距离。SR中Mash的距离大于0.1的基因组被剔除,剩下的聚集一起,去除冗余序列。

对于每个聚类,选择与其他成员平均距离最小的基因组作为代表(R1,R2,…)。

b.

SR using MUMmer   ( nucmer command with default parameters),

用nucmer(MUMmer软件)对比SR,映射代表序列,删除模糊映射。

c.

每个代表的变异位点的位置(P1,P2,…)被识别,SNV数据被提取。数据保持99%的一致性,保证它们的代表性。

d.

考虑到该物种的变异,为宏基因组读取队列设置参数组,为宏基因组队列步骤(A1, A2, …)选择基因组。

e.

对比SR,映射。

f.

对于每个宏基因组(MG),用Bowtie 2让读取与选定的基因组一致。

g.

按步骤明确的不同位置上(C)的等位基因变异的频率,从BAM文件提取。

根据用户定义的滤波参数过滤低覆盖率的位点;最后通过套索回归推断相对丰度。


返回首页


参考文献

Strain profiling and epidemiology of bacterial species from metagenomic sequencing

Davide Albanese & Claudio Donati


相关阅读


利用高通量测序研究放牧系统对奶牛细菌群落的影响

菌根和根际细菌相互作用增强宿主植物防御病原体的能力   

菌根和根际细菌协同增强植物防御病原体

唾液流动形成口腔细菌多样性的空间梯度

食品废弃物腐败过程中的细菌群落研究   

内生细菌与植物结合,修复被金属污染的土壤   

细菌可以分解危险的化学物质二恶英


分享