拷贝数变异(CNV)是遗传变异和进化潜力的普遍来源,但在进化种群中CNV的动态和多样性仍不清楚。
恒化器中的长期进化实验为研究CNV形成的分子过程和它们产生、选择和维持的时间动力学提供了一个理想的系统。
我们开发了一个荧光CNV报告装置,来检测单个细胞中的新生基因扩增和缺失。
我们利用酿酒酵母中的CNV报告装置,研究了不同有限营养恒化条件下GAP1基因座(编码一般氨基酸渗透酶)的CNV形成。
我们发现,在强选择下,GAP1 CNV在适应性进化的早期阶段反复产生和选择,从而产生可预测的动力。
含CNV谱系的分子特征表明,CNV报告器检测不同类别的CNV,包括非整倍体、非互易易位、串联重复和复杂CNV。
尽管GAP1与促进染色体内重组的重复序列很接近,但断点分析显示,短的反向重复序列介导了至少50%的GAP1 CNVs的形成。
在DUR3位点的断点处也发现了反向重复序列,其中CNVs在尿素限制的恒化器中被选择。
对28个CNV断裂点的分析表明,反向重复序列的长度通常为8个核苷酸,由40个碱基分开。
这些CNV的特征与起源依赖的反向重复扩增(ODIRA)一致,表明基于复制的CNV形成机制可能是基因扩增的共同来源。
我们将CNV报告器与谱系追踪相结合,发现102-104个独立的包含谱系的CNV,最初在种群内竞争,导致极端的克隆干扰。
然而,只有少数(18-21)CNV谱系占CNV亚群的1%以上,随着选择的进展,CNV谱系的多样性下降。
我们的研究引入了一种新的方法来研究异种细胞群体中的CNV,并提供了在适应性进化背景下对其动力学、多样性和形成机制的洞察。
基因组序列的重复和缺失,即拷贝数变异,是所有生命领域遗传多样性的共同来源。拷贝数变异在推动进化过程中起着至关重要的作用,但也可能导致遗传病和癌症。
尽管拷贝数变异是多样性、适应和疾病的重要驱动因素,但对其形成和选择的基本动力学却知之甚少。
拷贝数变异很难被检测到,尤其是在异源进化群体中以低频率出现时。
为了克服这一挑战,我们开发了一种新型的荧光报告器,使我们能够在拷贝数变异出现时看到它们,并在数百代实验室进化过程中跟踪它们。
拷贝数变异出现得早且反复,它们的大小和拷贝数各不相同,并且它们的生成速度很快,导致包含不同拷贝数变异的细胞之间的竞争。
拷贝数变异的分子特征表明,其中许多变异可能是由DNA复制过程中的错误引起的。
这种方法广泛适用于研究拷贝数变异形成的分子机制,以及它们在驱动进化过程和癌症中的作用。
长期的实验进化提供了一种有效的方法,可以利用受控和复制的选择性条件洞察进化过程。恒化器是通过连续培养,使细胞保持营养不良的恒定生长状态的装置。
恒化器中的营养限制提供了一个明确的、强烈的选择性压力,在这种压力下,CNV被反复确认为适应的主要驱动因素。
含有负责运输限制营养素基因的CNV在多种生物体和条件下反复选择,包括大肠杆菌限制乳糖,鼠伤寒沙门氏菌限制不同碳源,酿酒酵母限制葡萄糖、磷酸盐、硫和氮的恒化器。
CNV具有很大的选择性优势,在实验进化群体中已经鉴定出多个独立的CNV等位基因。
这些发现表明,CNV的产生率很高,但估计值差异很大,从1×10-10到3.4×10-6每分裂一个细胞的重复,CNV形成率的变化可能在基因座和/或条件之间存在差异。
较高的CNV形成率表明,在适应性进化过程中,多个独立的包含CNV的谱系可能会相互竞争,从而导致克隆干扰,这是进化种群大的特点。
然而,含CNV谱系间的克隆干扰对适应动力的影响程度尚不清楚。
一般氨基酸渗透酶基因GAP1非常适合研究CNVs在适应性进化中的作用。GAP1编码所有天然氨基酸的高亲和力转运体,在贫氮环境中高度表达。
我们之前已经证明,当提供唯一的氮源时,在酿酒酵母的GAP1基因座上选择两类CNV:谷氨酰胺和谷氨酸盐限制性恒化器中选择GAP1扩增等位基因,尿素和尿囊素限制性恒化器中选择GAP1缺失等位基因。
CNV是由两类主要机制产生的:同源重组和DNA复制。DNA双链断裂(DSB)通常通过同源重组进行修复,不会导致CNV形成。
然而,当使用不正确的修复模板时,非等位基因同源重组(NAHR)可以产生CNV,这种情况更常见于重复的DNA序列,如转座元件和长末端重复(LTRs)。
在DNA复制过程中,停滞和断裂的复制分叉可以通过断裂诱导复制(BIR)、微同源介导的断裂诱导复制(MMBIR)和分叉停滞和模板转换(FOSTES)等过程重新启动DNA复制。
BIR由同源序列驱动,而MMBIR依赖于序列同源性的较短延伸。近年来,来源依赖性反向重复扩增(odira)被认为是酵母SUL1基因座扩增的一种新机制。
ODIRA是由短的反向重复序列介导的,该序列在DNA合成过程中促进复制叉退化后的领先和落后链的连接。
ODIRA涉及形成一个染色体外环状中间产物,该中间产物独立复制,因此需要在扩增区域内的复制起源。
随后,通过同源重组将环形整合到原来的基因座上,形成了一个倒置的三倍体。
染色体外环状DNA在酵母中很常见,能促进肿瘤的发生,可能是产生适应性CNV的快速可逆机制。
为了了解CNV在进化过程和人类疾病中的作用,需要确定CNV形成的机制。
在进化种群中研究CNV的一个关键限制是:在不同种群中以低频率识别CNV。CNV通常使用分子方法检测,包括定量PCR(qPCR)、Southern blotting、DNA微阵列和测序。
然而,使用这些方法中的任何一种,在异质群体中都无法检测到新的CNV,直到出现在高频(例如>50%)的情况。
这排除了对CNV在进化种群中出现和竞争的早期动力学的分析。
由于CNV通常包含多个相邻基因的基因组区域,我们假设CNVs可以通过在目标基因附近插入一个组成性表达的荧光报告基因来识别。
这种方法的一个主要好处是,它可以独立于全基因组测序检测CNV,从而在进化群体中使用单细胞分辨率,实现高分辨率和高效的CNV动力学分析。
在本研究中,我们在酿酒酵母的GAP1附近构建了含有荧光CNV报告器的菌株,并利用恒化器,在不同的选择性环境中进行了进化实验。
CNV报告器让我们能够以全新的瞬时分辨率,实时地看到在GAP1位点选择的CNV。
我们发现CNV动力学发生在两个不同的阶段:CNV在自适应进化早期被选择,并迅速上升到高频,但随后的动力学是复杂的。
我们发现GAP1 CNV的大小和拷贝数各不相同,可以通过一系列过程产生,包括非整倍体、非互易易位和NAHR的串联复制。
对GAP1 CNV断点的核苷酸分辨率分析显示,在一半的可解决病例中,CNV的形成是由短的、中断的反向重复介导的,这表明基于复制的机制也构成了GAP1位点基因扩增的基础。
反向重复的存在,结合复制起源和倒置的三倍体,与通过ODIRA形成GAP1 CNV相一致。
ODIRA可能是酵母中新生CNV的主要来源,因为这些断点特征也在我们研究中确定的一个额外的位点DUR3上表征了CNV。
为了确定CNV亚群的基本结构,我们使用随机DNA条形码生成了一个谱系跟踪库。
CNV谱系中基于荧光激活细胞分类(FACS)的分离和条形码测序,确定了种群内数百到数千个单独的CNV谱系,符合高CNV供应率和极端克隆干扰。
综上所述,我们的研究结果表明,CNV是由不同的过程反复产生的,从而产生可预测的动态。
但是,在进化种群中,包含CNV的谱系的长期命运是由克隆干扰和额外的变异决定的。
蛋白质荧光随基因拷贝数成比例增加。
我们试图为发生在特定关注点的CNV建立一个报告器。
基于先前的研究,我们假设改变组成性表达荧光蛋白基因拷贝数的CNV将有助于单细胞检测从头开始的拷贝数变化。
为了验证这种方法的可行性,我们构建了与参考菌株(S288c)等基因的单倍体酿酒酵母菌株,携带一个或两个组成表达的绿色荧光蛋白(GFP)变体mCitrine拷贝和二倍体菌株,其中1-4个mCitrine拷贝的整合到基因组中。
流式细胞术分析证实,多拷贝的mcitrine能定量地产生不同的蛋白质荧光分布(图1a)。
两个拷贝的单倍体细胞比一个拷贝的单倍体细胞具有更高的荧光强度,并且荧光信号在两个菌株中的分布几乎没有重叠。
荧光信号的前向散射正态化与细胞大小相关表明,荧光蛋白的集中度与mCitrine基因的倍性正态化拷贝数成正比,
即单倍体中的1个拷贝产生的信号相当于1个二倍体中的2个拷贝,1个单倍体中的2个拷贝产生的信号相当于1个二倍体中的4个拷贝。
因此,细胞大小——正态化荧光信号或集中度——准确地报告了单个细胞中荧光基因的拷贝数。
整合一个组成性表达的荧光蛋白基因,接近预期的选择目标,用作一个CNV报告器,跟踪进化群体中的基因扩增和缺失(图1b)。
图1.荧光蛋白信号与基因拷贝数成正比。
a. 蛋白荧光随着mcitrine基因拷贝数的增加而增加。
b. 荧光报告器如何通过蛋白质荧光的定量变化,在异质进化群体中实现CNV检测的示意图。
参考文献
Single-cell copy number variant detection reveals the dynamics and diversity of adaptation
Stephanie Lauer, Grace Avecilla, Pieter Spealman, Gunjan Sethia, Nathan Brandt, Sasha F. Levy, David Gresham
相关阅读