Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020191521 - NUCLEOTIDE SEQUENCE, AND METHOD FOR CONSTRUCTING RNA TARGET AREA SEQUENCING LIBRARY AND APPLICATION THEREOF

Document

说明书

发明名称 0001   0002   0003   0004   0005   0006   0007   0008   0009   0010   0011   0012   0013   0014   0015   0016   0017   0018   0019   0020   0021   0022   0023   0024   0025   0026   0027   0028   0029   0030   0031   0032   0033   0034   0035   0036   0037   0038   0039   0040   0041   0042   0043   0044   0045   0046   0047   0048   0049   0050   0051   0052   0053   0054   0055   0056   0057   0058   0059   0060   0061   0062   0063   0064   0065   0066   0067   0068   0069   0070   0071   0072   0073   0074   0075   0076   0077   0078   0079   0080   0081   0082   0083   0084   0085   0086   0087   0088   0089   0090   0091   0092   0093   0094   0095   0096   0097   0098   0099   0100   0101   0102   0103   0104   0105   0106   0107   0108   0109   0110   0111  

权利要求书

1   2   3   4   5   6   7   8   9   10   11   12   13   14   15   16  

附图

1   2   3   4   5   6  

说明书

发明名称 : 核酸序列、RNA目标区域测序文库的构建方法及应用

技术领域

[0001]
本发明涉及基因检测领域,具体涉及一种核酸序列以及RNA目标区域测序文库的构建方法及应用。

背景技术

[0002]
RNA测序(RNAseq)技术在基因表达研究中得到了广泛的应用,可对表达基因进行无偏见的采样。相比定量PCR可以对更广泛的基因同步分析,相比芯片方法RNAseq测序结果准确性也更高。然而,真核细胞的表达谱具有转录本数量众多、可变剪切情况复杂,且表达量高低差异大的特点。RNAseq测序结果分散在整个基因组中,不同基因测序深度差异显著,对转录水平偏低的转录本往往测序深度不足,为进行特定基因的可变剪切体拼接及定量研究造成阻碍。
[0003]
自20世纪80年代早期第一个融合基因(BCR/ABL1)被检测证实,融合基因已成为多个癌种的重要标志,例如:BCR/ABL1用于检测慢性骨髓性白血病;EML4/ALK用于检测恶性肺腺癌;TMPRSS2/ERG用于检测前列腺癌,等等。21世纪开始,随着靶向药物的兴起,癌症治疗药物,尤其非小细胞肺癌(NSCLC)的治疗药物,也开始使用融合基因所在的代谢通路。例如,2011年克唑替尼获得FDA许可用于ALK和ROS1基因融合的治疗;2015年艾乐替尼获得FDA许可用于ALK基因融合的治疗;索拉非尼和舒尼替尼获得RET基因融合的治疗许可。在恶性肿瘤精准检测及个性化治疗概念被提出的今天,为了避免药物禁忌和耐受引起无效治疗,耽误宝贵的治疗时间,对于融合基因的有效特异检测成为临床医师给药的重要依据。早期的融合基因检测是在传统组织活检的基础上,采用荧光原位杂交、染色体条带分析以及RT-PCR分析技术来确认患者的肿瘤细胞是否发生了特定基因的基因融合。但是这些早期的细胞学及分子生物学技术对于融合基因的检测存在以下缺陷:1)检测时间久;2)假阳性率偏高;3)检测技术要求高,需要熟练有经验的检测人员,不利于标准化;4)在融合基因基因型细胞在癌组织中含量少的情况下,无法有效检出;5)无法对多个融合基因进行检测。
[0004]
随着高通量技术的发展,越来越多的人采用RNAseq对融合基因进行检测,但因为真核生物转录本数据众多,全转录本的RNAseq造成很多不必要的浪费,因此针对融合基因的检测还有待进一步改进。
[0005]
发明内容
[0006]
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出一种核酸序列以及利用这种核酸序列对RNA目标区域构建测序文库的方法及应用。
[0007]
利用目标区域捕获技术,能够富集所感兴趣的基因或基因组区段,从而可以实现定向测序。将目标区域捕获技术与RNAseq结合,即对RNAseq的测序文库先进行序列捕获实验富集感兴趣的转录本,再进行测序,实现定向RNAseq或RNA捕获测序(CaptureSeq)。这一方法可以提高目标转录本的测序深度,进行灵敏的基因发现、有效的转录本组装和准确的基因表达定量。该技术结合应用目标区域捕获技术与RNAseq技术,可以称作RNA捕获测序技术。应用RNA捕获测序技术对样本中特定基因的表达进行研究。该方法既RNASeq相比其他表达谱研究方法的优势,又可以进行有目的性的、多样本的研究。尤其在对于表达水平中低等的转录本研究中,可以更好地拼接全长转录本、发现新基因以及定量分析。
[0008]
本发明用带有一段5’端带有测序通用序列,3’端带有6-10nt随机引物序列的核酸序列对RNA样本进行逆转录,获得cDNA的一条链,然后对所获得的cDNA的一条链进行巢氏PCR多重扩增,所获得的多重PCR产物中带有完整的测序接头,可以直接进行高通量测序。从而通过测序获得RNA样本的信息。根 据需要,这些RNA样本可以是生物样品中的总的RNA、mRNA、以及cfRNA(血浆游离DNA)等。
[0009]
具体而言,本发明提供了如下技术方案:
[0010]
根据本发明的第一方面,本发明提供了一种核酸序列,包含:第一测序通用序列和随机序列,所述第一测序通用序列和所述随机引物序列相连,所述第一测序通用序列位于所述核酸序列的5’端,所述随机引物序列位于所述核酸序列的3’端,其中,所述随机引物序列含有6~10个随机核苷酸。本发明提供的核酸序列至少包括两部分,一部分是位于5’端的第一测序通用序列,另一部分是位于3’端的随机引物序列,其中第一测序通用序列和随机引物序列可以通过3’-5’磷酸二酯键直接相连。第一测序通用序列可以是任何一种测序平台的任何一种测序接头序列(部分或者全部序列),也可以是任意一种已知的固定序列,用于后续的PCR扩增过程中。随机引物序列含有6~10个随机核苷酸,例如可以是8个随机核苷酸。随机核苷酸是指核苷酸上的碱基可以是A、T、C、G中的任意一种。该随机引物序列用于以RNA样本为模板,用于与RNA样本的结合。本发明提供的核酸序列可以用作逆转录反应的引物,即以RNA样本为模板,通过逆转录获得cDNA的一条链,获得的产物用作后续的PCR扩增。
[0011]
根据本发明的实施例,以上所述核酸序列可以进一步包含如下附加技术特征:
[0012]
在本发明的一些实施例中,所述随机引物序列含有8个随机核苷酸。
[0013]
在本发明的一些实施例中,所述核酸序列进一步包含:第一分子标签序列,所述第一分子标签序列位于所述第一测序通用序列和所述随机引物序列之间;互补序列,所述互补序列位于所述第一分子标签序列和所述随机引物序列之间,所述互补序列与所述第一测序通用序列的部分序列互补。在所述第一测序通用序列和随机引物序列之间添加有分子标签序列,通过大量不同的分子标签序列对原始的RNA模板个数进行计数,通过后续对分子标签的统计来追溯原始模板的个数,从而可以实现对于RNA模板的定量研究。同时,为了保证分子标签序列不和随机引物序列互相发生作用,可以对该分子标签序列进行“包裹”,即在随机引物序列和分子标签序列之间插入一段互补序列,该互补序列能够和第一测序通用序列上的5’末端的部分序列反向互补。从而使得核酸序列的5’端的序列能够和该互补序列退火形成颈环结构,从而保证分子标签被包裹在内部,防止其与随机引物序列发生非特异性的结合或者扩增。
[0014]
在本发明的一些实施例中,所述第一分子标签序列含有8~20个随机核苷酸。第一分子标签序列含有8-20bp的随机碱基,可以产生4 8-20不一样的分子标签序列,由于开始RNA模板数量一定,当分子标签序列远远大于RNA模板数时,每一种RNA模板都会加上了一种唯一的分子标签,通过大量不同的分子标签对原始的RNA模板个数进行标记,通过后续对分子标签种类的多少统计来追溯原始模板的个数。
[0015]
在本发明的一些实施例中,所述互补序列与所述第一测序通用序列的5’端的部分序列互补。
[0016]
根据本发明的第二方面,本发明提供了一种RNA目标区域测序文库的构建方法,包括:基于RNA样本,利用逆转录引物和逆转录酶进行逆转录反应,获得cDNA的第一条链,其中所述逆转录引物为本发明第一方面任一实施例所述的核酸序列;基于所述cDNA的第一条链,利用上游特异性引物和第一通用引物进行第一轮PCR扩增,获得第一扩增产物,所述第一通用引物与所述第一测序通用序列的部分序列重叠,所述上游特异性引物的结合位点位于所述目标区域的上游;基于所述第一扩增产物,利用下游特异性引物、第二通用引物和标签引物进行第二轮巢氏PCR扩增,获得所述目标区域测序文库,所述下游特异性引物的5’端含有部分或者全部第二通用测序序列,所述第二通用引物的5’端含有磷酸基团,所述第二通用引物和所述下游特异性引物的部分或者全部序列重叠,所述下游特异性引物的结合位点位于所述目标区域的上游,所述标签引物与所述第一通用引物的部分序列重叠;所述下游特异性引物3’端的结合位点位于所述上游特异性引物的下游。
[0017]
核酸序列上的随机引物序列能够随机锚定在所有RNA分子上,从而合成cDNA的一条链,然后利用 测序通用序列以及上游特异性引物和下游特异性引物可以富集目标区域。表现为:利用多个上游特异性引物和第一通用引物,以cDNA的一条链为模板,进行第一轮PCR扩增,利用多个下游特异性引物、第二通用引物和标签引物进行第二轮巢式PCR扩增,从而能够实现对多个目标区域进行捕获并通过高通量测序技术对目标区域进行分析,一次完成多个基因的检测分析。该方法能够尽可能多的利用cDNA的模板,从而提高了原始RNA分子的利用效率。而且该方法可以对融合基因进行检测,也可以对未知基因的融合情况进行检测。
[0018]
根据本发明的实施例,以上所述的构建方法可以进一步附加如下技术特征:
[0019]
在本发明的一些实施例中,所述RNA为cfRNA(血浆游离DNA)、高度降解的RNA或者长度为200~300bp的RNA。
[0020]
在本发明的一些实施例中,所述长度为200~300bp的RNA通过利用Mg 2+对长片段RNA样本孵育获得。对于总的RNA或者mRNA样本,可以利用Mg 2+孵育,实现RNA的片段化,从而用于RNA目标区域测序文库的构建。
[0021]
在本发明的一些实施例中,所述标签引物中含有第二分子标签序列,用于区分不同样本。所述标签引物的3’端和所述第一通用引物的5’端部分序列重叠(或者也可以称为一致,在本文中当表示两个核酸序列对应核酸重叠时,即表示的两个核酸序列对应核酸碱基一致),所述标签引物中间有一段分子标签序列(为了同上述核酸序列中的第一分子标签序列相区分,这里称为第二分子标签序列)。
[0022]
在本发明的一些实施例中,所述第二分子标签序列为8~12个核苷酸。这些分子标签序列是一些测序平台上的固定的序列,每个测序平台有自己一套分子标签序列,例如可以是barcode序列或者index序列,这些分子标签序列的长度可以为10个核苷酸。
[0023]
在本发明的一些实施例中,所述构建方法进一步包括:可以在设计上游特异性引物或者下游特异性引物的过程中,可以在基因组的至少一个内含子上设计,这里含有内含子的引物,采用对RNA样本进行扩增的相同的方式来使用,作为质检引物,来质检RNA样本是否在扩增过程中被DNA污染。这些用作质检引物的上游特异性引物或者下游特异性引物可以针对目标区域设计,也可以针对非目标区域设计。
[0024]
根据本发明的第三方面,本发明提供了一种对目标基因变异检测的方法,包括:
[0025]
采用本发明第二方面任一实施例所述的构建方法获得目标区域文库;
[0026]
基于所述目标区域文库,进行测序获得测序数据;
[0027]
将所述测序数据与参考基因组进行比对,确定所述目标基因的变异结果。
[0028]
在本发明的一些实施例中,所述参考基因组为人类基因组hg19。
[0029]
在本发明的一些实施例中,所述变异包括基因融合、SNV、基因缺失、基因插入突变中的至少一种。
[0030]
在本发明的一些实施例中,所述变异为基因融合。
[0031]
在本发明的一些实施例中,所述基因融合为EML4-ALK基因融合。
[0032]
根据本发明的第四方面,本发明提供了一种EML4-ALK融合基因的检测方法,包括:基于RNA样本,利用逆转录引物和逆转录酶进行逆转录反应,获得cDNA的第一条链,其中所述逆转录引物为SEQ ID NO:1或者SEQ ID NO:2中的一种;基于所述cDNA的第一条链,利用上游特异性引物和第一通用引物进行第一轮PCR扩增,获得第一扩增产物,所述第一通用引物为SEQ ID NO:3,所述上游特异性引物为选自SEQ ID NO:6~SEQ ID NO:30中的至少一种;基于所述第一扩增产物,利用下游特异性引物、第二通用引物和标签引物进行第二轮巢氏PCR扩增,获得所述目标区域测序文库,所述第二通用引物为SEQ ID NO:4,所述标签引物为SEQ ID NO:5,所述下游特异性引物为SEQ ID NO:31~SEQ ID NO:55中的至少一种;将所述目标区域测序文库进行测序,获得测序数据,基于所述测序数据与参考基因组的对 比结果,确定所述EML4-ALK基因的融合结果。

附图说明

[0033]
图1是根据本发明的实施例提供的核酸序列的结构示意图。
[0034]
图2是根据本发明的实施例提供的带有分子标签序列和互补序列的核酸序列的结构示意图。
[0035]
图3是根据本发明的实施例提供的利用一些核酸序列进行RNA目标区域测序文库构建的方法的实验流程图。
[0036]
图4是根据本发明的实施例提供的利用一些核酸序列进行进行RNA目标区域测序文库构建的方法的实验流程图。
[0037]
图5是根据本发明的实施例提供的对高度降解的RNA或者cfRNA构建测序文库的实验流程图。
[0038]
图6是根据本发明的实施例提供的针对融合基因检测的引物设计示意图。

具体实施方式

[0039]
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
[0040]
同时,为了方便本领域技术人员的理解,对本发明的某些术语进行解释和说明,需要说明的是,这些解释和说明,仅用来帮助对于本发明技术方案的理解,而不应当看做是对本发明保护范围的限制。
[0041]
本文中,如无特殊说明,当提到两个核酸序列相连时,是指通过3’-5’磷酸二酯键相连。
[0042]
本文中,“上游特异性引物”是指结合位点位于目标区域上游的特异性引物。
[0043]
本文中,“下游特异性引物”也是指结合位点位于目标区域上游的特异性引物,只是相比较于上游特异性引物而言,下游特异性引物的结合位点位于上游特异性引物的下游。
[0044]
需要说明的是,下游特异性引物的结合位点位于上游特异性引物的下游,不仅仅包括:下游特异性引物的所有结合位点均位于上游特异性引物的下游的情况,还包括:下游特异性引物的部分结合位点和上游特异性引物的部分结合位点重叠的情况,只要下游特异性引物的最末端结合位点位于上游特异性引物的最末端结合位点的下游即可。
[0045]
RNA捕获测序技术有天然的优势,其能够有目的性的捕获感兴趣的RNA片段进行测序分析,为疾病的诊断提供依据。测序后的分析步骤包括比对、拼接、去除非目标序列、新基因(外显子)发现、定量等。
[0046]
为此,根据本发明的一个方面,本发明提供了一种核酸序列。在至少一些实施方式中,本发明提供的核酸序列为常规引物结构,该核酸序列包括位于3’端的6-10nt随机引物序列和位于5’端的第一测序通用序列,如图1所示。利用3’端的为随机引物序列能够与RNA进行随机互补配对,从而以提取好的总RNA或者mRNA为模板,实现cDNA的第一链合成。在至少一些实施方式中,3’端的随机序列的长度6-10nt,优先采用8nt。5’端第一测序通用序列既可以是任何一种测序平台的任何一种测序接头序列(部分或全部序列),也可以是一任意固定序列。利用该核酸序列,可以对RNA样本进行定性研究。
[0047]
在至少一些实施方式中,本发明还提供了另一种核酸序列,该核酸序列与上述核酸序列不同的是,除了第一测序通用序列和随机引物序列之外,还带有第一分子标签序列和互补序列,如图2所示(其中为了更方便观察第一测序通用序列5’端能够与该互补序列反向互补或者也可以称为反向配对的序列,将这段能够与互补序列配对的序列以与第一测序通用序列不同的线条示出,图3也采用相同的策略)。该 核酸序列3’端为6-10nt的随机引物序列,5’端除第一测序通用序列外还有一段8-20nt随机的第一分子标签序列。同时为了保证分子标签序列不和模板引物之间的产生互相作用,在设计上对该分子标签序列进行“包裹”,在随机引物序列和分子标签序列之间插入一段互补序列,该互补序列和5’末端的第一测序通用序列的部分序列反向互补。正常情况下5’端的序列和该互补序列能够退火形成颈环结构,保证分子标签被包裹在内部而防止进行非特异性的结合或者扩增。利用该核酸序列可以对RNA样本进行定性和准确的定量研究。
[0048]
本发明还提供了一种RNA目标区域测序文库的构建方法,包括:基于RNA样本,利用逆转录引物和逆转录酶进行逆转录反应,获得cDNA的第一条链,其中所述逆转录引物为本发明第一方面任一实施例所述的核酸序列;基于所述cDNA的第一条链,利用上游特异性引物和第一通用引物进行第一轮PCR扩增,获得第一扩增产物,所述第一通用引物与所述测序通用序列的部分序列重叠,所述上游特异性引物的结合位点位于所述目标区域的上游;基于所述第一扩增产物,利用下游特异性引物、标签引物和第二通用引物进行第二轮巢氏PCR扩增,获得所述目标区域测序文库,所述第二通用引物的5’端含有磷酸基团,所述第二通用引物和所述下游特异性引物的部分序列重叠,所述标签引物与所述第一通用引物的部分序列重叠,所述下游特异性引物的结合位点位于所述目标区域的上游;所述下游特异性引物的结合位点位于所述上游特异性引物的下游。在至少一些实施方式中,所述标签引物的3端和第一通用引物的5’端部分序列重叠,所述标签引物中间有一段分子标签序列(称为第二分子标签序列),用于区分不同的样本。
[0049]
为了方便理解,参照图3、图4或者图5所示,对上述RNA目标区域测序文库的构建方法进行说明。利用上述核酸序列,以RNA为模板,进行逆转录获得cDNA的第一条链:首先,对总RNA或者mRNA用mg 2+孵育进行RNA片段化,不同的mg 2+离子浓度和温度以及孵育时间得到不一样的片段大小的分子,优先地打断到200-300bp。当然,对于已经片段化的RNA或者高度降解的RNA如cfRNA,则不需要进行RNA片段化,可以直接以这些片段化的RNA或者高度降解的RNA如cfRNA为模板,通过逆转录获得cDNA的第一条链。在至少一些实施方式中,可以RNA为模板在逆转录引物、逆转录酶的作用下孵育30分钟得到cDNA的第一条链,将得到的第一条链进行纯化,将多余的引物和离子除去。本文中“cDNA的第一条链”指的是以RNA为模板,经过逆转录合成的与RNA互补的那条链。该逆转录引物即上文所提到的核酸序列。
[0050]
然后利用上游特异性引物和第一通用引物进行第一轮PCR扩增,获得第一扩增产物。上游特异性引物是需要研究的目标区域,例如目标基因或目标位点的上游区域的基因序列。以融合基因检测如EML4-ALK为例,上游特异性引物应该在EML4上;第一通用引物和逆转录引物的5’端的第一测序通用序列的部分序列一致,第一轮PCR得到的产物上带有上游特异性引物序列和第一通用序列。扩增得到的产物经过纯化去掉多余的上游特异性引物和离子。
[0051]
然后用下游特异性引物、第二通用引物以及标签引物进行第二轮巢式扩增,下游特异性引物由5’端的部分测序接头序列(该部分测序接头序列即与第二通用引物的一部分序列重叠或一致)和基因特异性序列组成,基因特异性序列在上游特异性引物的下游,两者可以重叠或相隔。对于融合基因,上下游特异性引物都设置在上游基因上(如EML4-ALK,上下游特异性引物序列都应该在EML4上)。其中,标签引物用来区分不同的样本,待到测序文库建好后,可以等量混合进行上机测序。第二通用引物的5’端含有磷酸基团,通过第二通用引物可以使得经过第二轮扩增得到的产物的5’端带有磷酸基团,从而避免专门进行磷酸化的过高成本。同时,下游特异性引物的结合位点位于上游特异性引物的下游,在进行扩增的同时,还是二轮特异性筛选,使得扩增结果更加特异。
[0052]
为防止DNA污染影响基因表达定量,可以设计质检引物用于质检,质检引物跨外显子和内含子或内 含子上设计。如图6所示。正常情况下,DNA质检引物无法扩增出产物。当污染了DNA时,能够扩增出产物。
[0053]
利用上述RNA目标区域测序文库的构建方法,对RNA进行测序,然后通过与参考基因组进行比对,从而可以获得RNA的信息。在构建测序文库的过程中,具有极高的模板利用效率,RNA用带有随机引物序列的逆转录引物进行逆转录。逆转录后的cDNA直接用于巢式PCR,该PCR所需要的模板长度小,引物占位低,极大的提高了模板的利用效率。而且采用单方向的巢式引物结合通用引物进行两轮PCR扩增,扩增得到的产物一端为固定端,一段为随机端,该方案可以对目标基因、目标位置上发生的任意未知融合突变进行检测。例如,对于未知融合,比如要研究EML1号外显子上发生的所有融合,那么在EML1号外显子上设计上下游特异性引物,由于本发明对RNA样本扩增的方式为一端是固定序列,另外一端的引物结合的序列是加在随机锚定到RNA上的第一测序通用序列上,因此可以检测和EML1号外显子发生任何随机融合的情况。
[0054]
同时采用第一分子标签序列对逆转录后的cDNA进行标记,可以准确地对原始的mRNA分子的绝对量进行计数,并且通过分子标签结合信息分析算法可以对突变进行校正,提高对RNA突变检测的准确性。而且,整个RNA靶向建库实验流程只有三个步骤,逆转录、第一轮PCR、第二轮PCR,相对于常规的RNAseq以及基于探针杂交的捕获技术,其极大地简化了实验的流程。
[0055]
下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解,下面的实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。
[0056]
实施例1 EML4-ALK融合基因检测
[0057]
引物设计:在EML4的外显子上设计上下游引物共计20对,在内含子上设计一对上下游内参引物,引物序列如表2,形成一个EML4-ALK检测panel,该panel可以对发生在EML4基因上所有可能的融合基因进行检测;
[0058]
用上述panel对阳性样本(指的是已经确定发生EML4-ALK融合的RNA标准品)和阴性样本(阴性标准品是指未发生EML4-ALK融合的正常人的RNA标准品)进行文库制备,每个重复4次,文库制备完成后进行高通量测序,得到的数据用于基因融合分析,逆转录酶采用TAKARA公司的MMLV Reverse Transcriptase,GPR,货号639574。
[0059]
表1 实施例中所用到的核酸序列
[0060]
[0061]
其中,*N为随机碱基, #N为第二分子标签序列,该第二分子标签序列也可以称为样本标签序列。其中N为碱基A、T、C或者G。
[0062]
表2 上游特异性引物
[0063]
[表0001]
引物(Primer)编号 序列
EML4-E02-01-USP (SEQ ID NO:6)CCGGCAGTCTCGATGATAGTA
EML4-E02-02-USP (SEQ ID NO:7)ATGTTTTGAGGCGTCTTGCAATC
EML4-E03-USP (SEQ ID NO:8)AAGTCATACCAGTGCTGTCTCAA
EML4-E04-USP (SEQ ID NO:9)CAACCTCTCCAAATACACAGAC
EML4-E05-USP (SEQ ID NO:10)GTCGAAAATACCTTCAACACCCAA
EML4-E07-USP (SEQ ID NO:11)CTATGATGACATCAGAACGGAACTG
EML4-E08-USP (SEQ ID NO:12)GAGAACTCAGCGACACTACCTG
EML4-E10-USP (SEQ ID NO:13)GTCAGAGTGTGGGATTCTGTTAC
EML4-E11-USP (SEQ ID NO:14)GATGACTCCAATGAGCATATGC
EML4-E12-USP (SEQ ID NO:15)TACCATAATTACATGCGGTAAATCTCAT
EML4-E13-USP (SEQ ID NO:16)GAGACTCAGGTGGAGTCATG
EML4-E14-USP (SEQ ID NO:17)AGACAGAAAAATAATTCTGTGGGATCA
EML4-E15-USP (SEQ ID NO:18)CACGAAACTTTATTTTACGAGGAACAT
EML4-E16-USP (SEQ ID NO:19)GTGTGCCTGTGGAACTCAATG
EML4-E17-USP (SEQ ID NO:20)GATTTTCATCCAAGTGGCACAGT
EML4-E18-USP (SEQ ID NO:21)CACAGACGGGAATGAACAGCT
EML4-E19-USP (SEQ ID NO:22)CTCTATGTAGTCTCTGAAAATGGAAGA
EML4-E20-USP (SEQ ID NO:23)CCCCAGACAACAAGTATATAATGTCTA
EML4-E21-USP (SEQ ID NO:24)CACAATAGAAAGGTGATAGCTGTT
EML4-E22-01-USP (SEQ ID NO:25)GTGGAAACTTGTGGAAAAGTTATC
EML4-E22-02-USP (SEQ ID NO:26)AGACAGCTGAAGAGGAAAGTAG
GAPDH-DNA-E1-USP (SEQ ID NO:27)GACACCATGGGGAAGGTGAA
GAPDH-RNA-E2-USP (SEQ ID NO:28)GTGGATATTGTTGCCATCAATGACC
GAPDH-RNA-E3-USP (SEQ ID NO:29)TGAGAACGGGAAGCTTGTCA
GAPDH-RNA-E4-USP (SEQ ID NO:30)TGAGTACGTCGTGGAGTCCA

[0064]
上游引物池由10μM的上述引物等浓度混合而成。其中表2中编号代表:以EML4-E02-01-USP为例,该编号中EML4代表基因,E02代表第二号外显子,01代表第一号外显子的第一对引物,USP代表上游特异性引物等。相应地,表3中DSP代表下游特异性引物。
[0065]
表3 下游特异性引物
[0066]
[0067]
[0068]
[0069]
下游引物池有10μM上述引物等浓度混合而成。其中各下游特异性引物的编号与上述上游特异性引物的编号的含义一致。
[0070]
其测定包括如下步骤:
[0071]
1、RNA反转
[0072]
在200μlPCR管子配置如下反应体系,并在95摄氏度下反应10分钟,然后再冰上放置5分钟。
[0073]
[0074]
2、在上述反应体系中加入如下试剂
[0075]
[0076]
37度30分钟,45度10分钟,55度10分钟,65度10分钟
[0077]
得到的产物加入30ul XPure beads进行纯化(beackman公司agencourt AMPure XP磁珠,货号A63881),得到的产物溶于20ulTE中。
[0078]
3、第一轮PCR
[0079]
采用QIAGEN Multiplex PCR Kit,货号Cat No./ID:206143,进行PCR
[0080]
在200ulPCR管子配置如下试剂
[0081]
[0082]
[0083]
按照以下程序进行第一轮PCR
[0084]
[0085]
得到的PCR产物中加入20μl的XP beads进行纯化(beackman公司agencourt AMPure XP磁珠,货号A63881),得到的产物溶解于20ulTE中;
[0086]
4、第二轮PCR
[0087]
采用QIAGEN Multiplex PCR Kit,货号Cat No./ID:206143,进行PCR
[0088]
在200ulPCR管子配置如下试剂
[0089]
[0090]
按照以下程序进行第一轮PCR
[0091]
[0092]
得到的PCR产物中加入20ul的XP beads进行纯化(beackman公司agencourt AMPure XP磁珠,货号A63881),得到的产物溶解于20ulTE中,采用agilent2100对产物的大小进行检测,采用qubit 2.0对溶度进行文库质检。
[0093]
5、上机测序
[0094]
得到的所有产物进行标准化,进行等量混合,混合得到的文库进行平行测序,测序平台BGIseq-500,测序类型PE100。
[0095]
6、数据分析
[0096]
分析步骤包括比对、拼接、去除非目标序列;
[0097]
统计测序的基本性能参数,包括比对率等;
[0098]
统计目标基因捕获的效率;
[0099]
统计EML4基因上各个引物扩增得到的序列比对到目标区域的深度;
[0100]
分析EML4和ALK发生融合的情况。
[0101]
表4 测序下机数据基本参数统计结果:
[0102]
[0103]
其中,阳性样本1~阳性样本4分别代表来自同一个人的阳性样本;阴性样本1~阴性样本4分别代表同一个人的阴性样本。
[0104]
从表4给出的结果可以看出,按照上述方法,无论是对阳性样本进行测序,还是对阴性样本进行测序,所获得的测序数据在0.5M(原始数据)左右,捕获率97±1%(目标区域比例),平均reads深度14000±3000乘,覆盖度100%。表4的结果说明,利用上述设计的引物,采用本发明提供的方法能够覆盖需要检测的区域,各项参数优良。
[0105]
表5 各引物扩增得到的比对到目标位置的reads数
[0106]
[0107]
考虑到在阳性样本中融合会占到一定的比例,也就在阳性样本中是会得到正常的EML4转录的 mRNA,也会存在异常转录的mRNA(EML4-ALK),一般通过异常mRNA的比例来判断是否发生融合,发生融合的比例大于0.1%就认为是存在异常。
[0108]
从表5给出的数据来看,阴性样本未检测到EML-ALK融合,阳性样本有两条引物检测到目标基因融合(EML-E13-ALK/EML-E14-ALK),融合比例分别为EML-E13-ALK 21.5%(2756/12805=21.5%),EML-E14-ALK 24.7%(4568/18464=24.7%)。由此,采用本发明的方法能够检测到基因融合。
[0109]
在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0110]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0111]
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

权利要求书

[权利要求 1]
一种核酸序列,其特征在于,包含: 第一测序通用序列和随机引物序列,所述第一测序通用序列和所述随机引物序列相连,所述第一测序通用序列位于所述核酸序列的5’端,所述随机引物序列位于所述核酸序列的3’端, 其中,所述随机引物序列含有6~10个随机核苷酸。
[权利要求 2]
根据权利要求1所述的核酸序列,其特征在于,所述随机引物序列含有8个随机核苷酸。
[权利要求 3]
根据权利要求1所述的核酸序列,其特征在于,进一步包含: 第一分子标签序列,所述第一分子标签序列位于所述第一测序通用序列和所述随机引物序列之间; 互补序列,所述互补序列位于所述第一分子标签序列和所述随机引物序列之间,所述互补序列与所述第一测序通用序列的部分序列互补。
[权利要求 4]
根据权利要求3所述的核酸序列,所述第一分子标签序列含有8~20个随机核苷酸。
[权利要求 5]
根据权利要求3所述的核酸序列,其特征在于,所述互补序列与所述第一测序通用序列的5’端的部分序列互补。
[权利要求 6]
一种RNA目标区域测序文库的构建方法,其特征在于,包括: 基于RNA样本,利用逆转录引物和逆转录酶进行逆转录反应,获得cDNA的第一条链,其中所述逆转录引物为权利要求1~5中任一项所述的核酸序列; 基于所述cDNA的第一条链,利用上游特异性引物和第一通用引物进行第一轮PCR扩增,获得第一扩增产物,所述第一通用引物与所述第一测序通用序列的部分序列重叠,所述上游特异性引物的结合位点位于所述目标区域的上游; 基于所述第一扩增产物,利用下游特异性引物、第二通用引物和标签引物进行第二轮巢氏PCR扩增,获得所述目标区域测序文库,所述下游特异性引物的5’端含有部分或者全部第二通用测序序列,所述第二通用引物中含有第二测序通用序列,所述第二通用引物的5’端含有磷酸基团,所述第二通用引物和所述下游特异性引物的部分或者全部序列重叠,所述下游特异性引物3’端的结合位点位于所述目标区域的上游,所述标签引物与所述第一通用引物的部分序列重叠; 其中,所述下游特异性引物的结合位点位于所述上游特异性引物的下游。
[权利要求 7]
根据权利要求6所述的构建方法,其特征在于,所述RNA为cfRNA、高度降解的RNA或者长度为200~300bp的RNA。
[权利要求 8]
根据权利要求7所述的构建方法,其特征在于,所述长度为200~300bp的RNA通过利用Mg 2+对长片段RNA样本孵育获得。
[权利要求 9]
根据权利要求6所述的构建方法,其特征在于,所述标签引物中含有第二分子标签序列,用于区分不同样本。
[权利要求 10]
根据权利要求9所述的构建方法,其特征在于,所述第二分子标签序列为8~12个核苷酸。
[权利要求 11]
根据权利要求6所述的构建方法,其特征在于,进一步包括: 所述上游特异性引物和/或所述下游特异性引物中含有至少有一个设计在内含子,基于所述至少有一个设计在内含子上的所述上游特异性引物和/或所述下游特异性引物进行所述第一轮PCR扩增和/或第二轮PCR扩增,检测所述RNA样本是否被DNA污染。
[权利要求 12]
一种对目标区域基因变异检测的方法,其特征在于,包括: 采用权利要求6~11中任一项所述的构建方法获得目标区域测序文库; 基于所述目标区域测序文库,测序获得测序数据; 将所述测序数据与参考基因组进行比对,确定所述目标区域基因变异的结果。
[权利要求 13]
根据权利要求12所述的方法,其特征在于,所述参考基因组为人类基因组hg19。
[权利要求 14]
根据权利要求12所述的方法,其特征在于,所述变异包括基因融合、SNV、基因缺失、基因插入突变中的至少一种;优选为基因融合。
[权利要求 15]
根据权利要求14所述的方法,其特征在于,所述基因融合为EML4-ALK基因融合。
[权利要求 16]
一种EML4-ALK融合基因的检测方法,其特征在于,包括: 基于RNA样本,利用逆转录引物和逆转录酶进行逆转录反应,获得cDNA的第一条链,其中所述逆转录引物为SEQ ID NO:1或者SEQ ID NO:2中的一种; 基于所述cDNA的第一条链,利用上游特异性引物和第一通用引物进行第一轮PCR扩增,获得第一扩增产物,所述第一通用引物为SEQ ID NO:3,所述上游特异性引物为选自SEQ ID NO:6~SEQ ID NO:30中的至少一种; 基于所述第一扩增产物,利用下游特异性引物、第二通用引物和标签引物进行第二轮巢氏PCR扩增,获得所述目标区域测序文库,所述第二通用引物为SEQ ID NO:4,所述标签引物为SEQ ID NO:5,所述下游特异性引物为SEQ ID NO:31~SEQ ID NO:55中的至少一种; 将所述目标区域测序文库进行测序,获得测序数据,基于所述测序数据与参考基因组的对比结果,确定所述EML4-ALK基因的融合结果。

附图

[ 图 1]  
[ 图 2]  
[ 图 3]  
[ 图 4]  
[ 图 5]  
[ 图 6]