rna测序

时间:2025-01-19 23:15:55编辑:阿奇

【转录组-1】RNAseq基本知识

欢迎关注: oddxix 有问题,欢迎后台沟通 广义: 转录组 (transcriptome)是特定细胞在某一功能状态下转录本的总和。同一细胞在不同的生长时期及生长环境下,其基因表达情况是不完全相同的,具有特定的空间性和时间性。 狭义:转录组是指直接参与蛋白质的mRNA的总和 mRNA:编码基因 tRNA:携带氨基酸到核糖体上进行蛋白质的合成 rRNA:与多种蛋白质结合成核糖体,作为蛋白质生物“合成”的装配机 micro RNA/mi RNA :调控基因表达 snoRNA(核仁小RNA):参与rRNA成熟加工 snRNA(核内小分子RNA):参与mRNA的剪接 gRNA(引导RNA):参与RNA编辑 SRP-RNA(信号识别颗粒)参与蛋白质分泌 dsRNA(双链RNA):基因沉默 IncRNA长链非编码RNA:表达调控 ······ 分子杂交 :RT-PCR(Real Timeq PCR)通过对经典PCR扩增反应中的每个循环产物荧光信号的实时检测,我们可以实现对模板的定量分析,通过正确设定引物(primer)和探针(probe),qRT-PCR技术可以很大范围内定量检测目标转录本的拷贝数,即表达水平。 EST (Expressed sequence tags):表达序列标签。是指从不同组织来源的cDNA序列,通过对一个随机选择的cDNA克隆进行单次测序来获得cDNA的部分序列,只要测序到一个基因的EST片段,就能证明这个基因是有表达的。EST是基于测序的,并不需要事先知道待检测转录本的序列。 基因表达的连续分析技术 (Serial Analysis of Gene Expression,SAGE)能同时对上千个转录本进行研究。 SAGE技术的主要依据有两个: (1)一个9~10碱基的短核苷酸序列标签包含足够的信息,足以特异性的确定某一种转录本。 (2)如果将短片段标签相互连接,集中形成长的DNA分子,则对该克隆进行测序将得到大量连续的单个标签,并能以连续的数据形式输入计算机中进行处理,这样就可以对数以千计的mRNA转录本进行分析,这个和DGE技术有些类似。 基因芯片(genechip) 也叫微阵列( microarray)通过将几十万个不等的探针(probe)分子固定在约1厘米见方的固体片基上制成。利用核苷酸分子在形成双链时碱基互补配对的原理,微阵列可以一次性检测出样本中所有与探针互补的核苷酸片段,从而快速得到样本中基因的表达谱(expression profile) 缺陷:只能检测已知物种的转录表达情况,无法检测芯片中不包含的序列,并且不容易定量。 数字基因表达谱DGE (Digital Gene Expression Profiling)DGE利用新一代高通量测序技术和高性能计算分析技术,能够全面、经济、快速的检测到某一物种特定组织在特定状态下的基因表达情况。 缺陷: 基于序列标签进行测序,只能适用于真核生物,不适合原核生物。 以上技术缺陷: 第一: 需要依赖已知参考序列,如果没有一直序列,就无法捕获。 第二:通量低,一次不能捕获全部的转录情况 第三:只能定性,不能定量,只能确定有无,不能确定多少。只能确定一个基因是否表达,不能确定表达量的多少。 第四: 不适合所有物种 欢迎关注 oddxix 有趣的灵魂等着你~

转录组基础--什么是RNA-seq

当进行转录组学数据分析时,会发现有两种数据。一种被称为芯片数据(Microarray data),另一种是下一代测序技术(NGS)得到的数据(eg,二代测序,三代测序)。 目录 1. Microarray: 芯片数据 2. NGS (Next Generation Sequencing) 3. RNA-Seq的应用 原理:基于分子杂交技术,主要是依靠印刷有荧光标记探针的基因芯片来实现。 比如说基因组芯片,它高密度的集成了分辨率高达几bp~100bp的探针,通过与样品杂交荧光显色的办法来刻画转录组的信息。 直接对cDNA进行测序。下一代测序(Next Generation Sequencing,NGS)又名高通量测序(High-Throughput Sequencing),是相对于传统的桑格测序(Sanger Sequencing)而言的。 RNA-Seq即对转录组进行测序和分析。一般来说在研究所会委托公司测序得到数据自己进行后续的生信分析(质控,mapping,差异基因表达分析,SNV分析等)。RNA-Seq有着巨大的应用前景。 参考资料

RNA-seq的实验流程

样品提取总RNA后,对于真核生物,用带有Oligo(dT)的磁珠富集mRNA,对于原核生物,用试剂盒去除rRNA,向得到的mRNA中加入Fragmentation Buffer使其片断成为短片段,再以片断后的mRNA为模板,用六碱基随机引物(random hexamers)合成cDNA第一链,并加入缓冲液、dNTPs、RNase H 和DNA polymerase I 合成cDNA第二链,经过QiaQuick PCR试剂盒纯化并加 EB缓冲液洗脱经末端修复、加碱基A,加测序接头,再经琼脂糖凝胶电泳回收目的大小片段,并进行PCR扩增,从而完成整个文库制备工作,构建好的文库用Illumina HiSeq2000进行测序。

RNA-seq原理

测序技术发展:

1977Sanger测序--1996焦磷酸测序--2003cmPCR--2003ZMW---2012纳米孔测序

RNA-seq的一些技术限制,测序误差主要由生物学误差(生物学重复,比如取30只小鼠采样)和技术性误差(技术性重复,比如对1只小鼠采样3次)造成,如果想要得到的数据为无偏的,那么生物学重复最重要,因为生物个体代表着样本,而技术手段只会造成不可控干扰。总的来说,只做技术性重复的实验结果偏差最大,技术性重复+生物学重复的实验结果偏差也可能较大,除非生物学重复远大于技术性重复(因为当生物学重复次数不足时,技术性重复能扩大样本单一的影响),无论如何,多做生物学重复,这有助于你的结论被其他人复现。

原理详解:




A 为了保证细胞在标记的过程中是单独分开的,10X开发了微流体设备(microfuidic device)进行预处理,设备有三个上样孔,分别加入你的1.样本细胞悬液(Sample) 2.凝胶小球(Beads) 3.分离液(Oil),下图为具体设备的示意图。




当我们把样本细胞悬液加入设备时,每一个细胞会与凝胶小球单独结合,然后被分离液包裹,形成一个油包水的密闭小液滴(droplet)。进一步地,细胞和凝胶小球相遇不久后会裂解,释放出里面的各种物质,RNA(mRNA、tRNA、rRNA),蛋白质,脂质,DNA等。实际上Beads上联接了不同的接头,其中有一个接头包含ploy(dT)序列,在细胞裂解后释放的核酸中,只有mRNA带有polyA tail,于是Beads的poly(dT)接头就可以从众多的裂解产物里捕获到mRNA(实际上drop-seq采用3'端测序,就是为了检测polyA tail)。

Master Mix中带有反转录试剂,当mRNA被捕获后,就可以从它的3‘端开始作为模板,进行反转录出cDNA的第一条链,这第一条链就沿着poly(dT)序列延申,长在了beads上,形成了图一7中的STAMPs,接着我们把反转录出来的cDNA序列洗脱,以cDNA的第一条链为模板,进行PCR,合成cDNA的第二条链,然后就是我们熟悉的cDNA扩增以及illumina测序。

如何确定测序序列来自哪个细胞?single cell的RNA-seq和bulk的RNA-seq的最大区别是什么?是barcode,或者说是cell barcode(实际上DNA自带barcode,cell barcode是人为控制的)。每一种single cell的beads上都有着相同的cell barcode(beads与beads间的cell barcode是不同的),假设每个beads只捕获一个cell,那么则每个cell都被cell barcode 单独标记了。

如何保证每个beads只捕获一个cell?第一是控制cell和beads的流速,第二是beads的数目远远超过cell的数目,即绝大多数的beads都是空的,只有少数的才捕获到了cell。但是还是有个别的droplet里面会两个或者更多的细胞,这就需要进行质控(QualityControl)。

接下来可以参照10X Genomics的说明书详解single cell RNA-seq的barcode。

实际上beads上一开始只接了Read1、Barcode、Poly(dT)。

名词解释:

Poly(dT): 用来和mRNA的polyA结合,捕获mRNA

UMI: 用来标记不同的PCR产物(用于count计数)。为了减少由于复制引起的误差(重复抽样导致重复计数),人们在一些单细胞测序的步骤中增加了UMI(unique molecular identifiers),UMIs 是由 4-10 个随机核苷酸组成的序列,在 mRNA 反转录后,进入到文库中,每一个 mRNA,随机连上一个 UMI,因此可以计数不同的 UMI,最终计数 mRNA 的数量。

10X Barcode: 用来标记不同的single cell

Sample Index: 用来标记不同的sample

P5和P7: 用来进行illumina的桥式PCR测序

Truseq Read 1、2: 用来进行连接beads,cDNA的PCR扩增和加P7接头

在这些序列中,P5、P7、Truseq Read 1、2 的序列是已知的。

其他的序列是怎么一步一步添加上去的?

具体步骤:

利用Poly(dT)来捕获mRNA,在mRNA的5'端插入TSO(Template Switch Oligo模板切换低聚糖)引物,然后从mRNA的polyA开始反转录,直至mRNA的DNA序列被转录完成,然后在beads序列的3'端插入CCC,再对mRNA的TSO进行反转录,至此完成了cDNA的第一条链(序列顺序和mRNA逆序)。上述步骤很重要,因为中间cDNA的序列我们是不知道的(仪器测序长度有限),如果不加上这个接头,就没有办法设计引物来合成cDNA的第二条链。

将mRNA溶解,对cDNA的第一条链加入UMI引物,以cDNA的第一条链为模板合成cDNA的第二条链。最后使用PCR(聚合酶链式反应)对cDNA(拷贝DNA)进行扩增(为了富集)。

PCR原理

因为II代测序(NGS)的illumina测序不能测很长的seq,约为200-700bp,所以不能测得mRNA全长,因此需要进一步把合成的cDNA利用酶打断到illumina能测的长度(长度有些随机,比如300bp的cDNA能通过头尾150bp完整测序,但700bp的cDNA只能通过头尾150bp测序+参考基因组推断出来)。然后在cDNA的3'端插入Truseq Read2引物(和Truseq Read1引物匹配为头尾,中间序列就是reads)、P5、P7。

最后的测序数据(reads)从Truseq Read1后的10X Barcode开始,一直到Truseq Read2为止。




PCR扩增是对cDNA单链进行复制,后面的桥式PCR是对完整的样本进行复制(增加数据深度),总的来说各个cDNA呈均匀分布,然后进行抽样。

RNA-seq duplications有PCR duplication(最主要)、cluster duplication、optical duplication。




实际上仪器会对核苷酸进行染色,然后判断颜色确定ATCG碱基,因此有很多原因会导致机器误判,和后续QC有关。

1.某些核苷酸对颜色附着不明显

2.大片区域颜色相同(相同类型核苷酸),而其中仅有几个颜色不同的点(不同类型的核苷酸)


上一篇:淘代码

下一篇:没有了