宁波皮肤科

基因外显子两组测序技术手册

2022-02-21 12:16:59 来源:宁波皮肤科 咨询医生

亚基小组的仅列非常少分之一同类型DNA仅列的1%左右,但大多仅与肝肝癌方面的开放性状毗邻亚基区之中的。通过亚基小组DNA可检验共约8万个开放性状,同类型DNADNA可检验300万个开放性状,因此,与同类型DNADNA相比较,亚基小组DNA不非常少费用较偏高,统计仅据阐释也非常非常简单。亚基小组DNA新技术以其社都会发展、有效的竞争者广泛不应用研究于遗传学基因开放性状病、有名病症及适合于肝肝癌的研究,并于2010年被Science新闻周刊评为十大取得成功之一。

一、新技术详述

随着社都会上生活程度的大大提颇高,人类健康原因也越来越多的受到社都会上各界的关注。现代的基因开放性状肝肝癌研究来进行是采行显带研究、核型研究、FISH、基因开放性状标记、PCR-DNADNA等现代实验原理来寻帮忙与肝肝癌方面的DNA开放性状,这些原理各有各的特点,但都实际上工作运用于量大、效率偏高、分辨率偏高等一系列的限制。新锐颇高通运用于量DNA新技术的单单现,为基因开放性状肝肝癌的研究缺少了同类型新的渐进。

2009年,DNA定向猎取用以的单单现使亚基小组DNA成为可能。2009年9月,第一篇关于亚基小组DNA的基本概念的测试文章于Nature新闻周刊上发表。来自明尼苏达大学的JayShendure通过对四名Freeman-Sheldon病症病变的亚基小组DNA,帮忙单单了已知的病原DNAMYH3。随后,该团队将这种新技术研究于米勒病症的研究,通过对病变序列区之中的仅列的猎取及深达DNA,检验单单单个候选DNADHODH,并经SangerDNA的测试其他病变之中实际上该DNA的开放性状。

亚基小组的仅列非常少分之一同类型DNA仅列的1%左右,但大多仅与肝肝癌方面的开放性状毗邻亚基区之中的。通过亚基小组DNA可检验共约8万个开放性状,同类型DNADNA可检验300万个开放性状,因此,与同类型DNADNA相比较,亚基小组DNA不非常少费用较偏高,统计仅据阐释也非常非常简单。亚基小组DNA新技术以其社都会发展、有效的竞争者广泛不应用研究于遗传学基因开放性状病、有名病症及适合于肝肝癌的研究,并于2010年被Science新闻周刊评为十大取得成功之一。近两年亚基小组研究方面的SCI文章已发表千余篇,已对仅百种肝肝癌展开了深入研究,研究结果促进了人类自然科学的研究。

二、新技术竞争者

• 从外部对受体序列仅列开展仅列测量,帮忙单单直接影响受体结构上的开放性状。• 颇高深达DNA,可断定常见开放性状及频率最偏高1%的有名开放性状。• 针对亚基小组地区之中的DNA,共约分之一DNA的1%,有效提颇高费用、周期、工作运用于量。

三、研究比如说

肝肝癌

基因开放性状来进行

病原DNA

Freeman-Sheldon病症

AD

MYH3

Kabuki 病症

AD

MLL2

Schinzel-Giedion 病症

AR

SETBP1

Sensenbrenner 病症

AR

WDR35

Fowler 病症

AR

FLVCR2

Perrault 病症

AR

HSD17B4

Hajdu-Cheney 病症

AD

NOTCH2

成骨相异类型

AR

SERPINF1

米勒病症

AR

DHODH

Brown-Vialetto-van Laere 病症

AR

C20orf54

尸羧酸脂酶太少人格迟钝病症

AR

PIGV

后代开放性β-脂受体过少尸症

AD

ANGPTL3

色素开放性视网膜炎

AR

DHDDS

非病症开放性口吃

AR

GPSM2

原发开放性肺脏管开放性水肿

AD

GJC2

肌萎缩开放性侧索硬化

AD

VCP

非病症的人格迟钝

AR

TECR

Van Den Ende-Gupta 病症

AR

SCARF2

自身免疫开放性肺脏小许多组织增生症(ALPS)

AR

FADD

轴突共济失调

AD

TGM6

逆向开放性痤疮

AD

NCSTN

四、方案设计

相比较现代DNA,亚基DNA能够迅速的得到所有亚基地区之中的的DNA表达,在逐年提升效率的同时显著提颇高了研究运输成本;相比较同类型DNADNA,亚基DNA能够在缩短实验之中周期、减少科研人员运用于量及实验之中投入的基础上有针对开放性的赢取仅有同类型DNADNA所能赢取的反馈。基于亚基小组DNA更佳开放性价比,该原理以外在国际上早已被广泛不应用的研究于基因开放性状病和肝肝癌研究之中。

1. 单DNA肝肝癌研究方案

首先无必须按照肝肝癌表型对家系成员开展严格筛查,明确其得病上述情况并开展该肝肝癌研究的故事情节调查。在帮忙单单该肝肝癌早已有一些研究故事情节和方面的病原DNA路透社,可通过现代PCRDNA原理对已知的肝肝癌方面开放性状开展的测试和初筛;证实所研究的结果显示之中未断定方面的DNA开放性状,那么可以选定一个或仅个有所不同肝肝癌家系的核心成员成员开展亚基小组DNA。每个家系之中的得病生物体给定3-5个结果显示,上述情况下生物体给定1-2名作为对照开展研究。按照肝肝癌模型(AD,AR等)及材料的家系反馈对DNA赢取的结果开展研究,缩小候选开放性状的范围,经太少种注释、筛选后过滤器丢弃对功能无直接影响的开放性状及公共统计仅据库之中的常见开放性状,先运用于现代PCRDNA开展结果显示定开放性的测试及方面的功能研究,最终相符肝肝癌方面开放性状。

单DNA基因开放性状病研究比如说:

a. 家系图:

b. 研究渐进:1). 隐开放性纯合开放性状病原:两个病变共享有所不同的纯合开放性状,父母为杂合携带者。2). 复合杂合开放性状病原:两个病变不具备有所不同的开放性状,即在一个DNA建有两个相异的杂合开放性状,而父母分别为这两个杂合开放性状的携带者。3). 显开放性来进行(新生开放性状):帮忙两个病变共有的杂合开放性状,而父母不带有该开放性状。

c. 研究结果示意:

若结果显示为散发结果显示,由于结果显示近没有人尸缘关系,基因开放性状故事情节相差较大,DNA赢取的结果也很难研究。为了非常准确的赢取有价值的结果,运用于散发结果显示开展亚基小组DNA要求的结果显示仅目比家系结果显示要多一些。一般决定至少做30个得病生物体结果显示以上的平行DNA研究。对大运用于量得病生物体的DNA统计仅据开展多结果显示研究,从而相符候选肝肝癌方面开放性状,先用现代PCRDNA在其他的有所不同肝肝癌得病生物体和上述情况下一些人之中做进一步的测试。

2. 适合于肝肝癌及肝肝癌的研究方案

对于适合于肝肝癌,首先不应该选择不具备基因开放性状开放性较颇高的病例作为研究单纯,一般无必须满足都有几个特点:a.与肝肝癌方面;b. 倾斜度基因开放性状;c. 在病变之中表现较早,表型相反,颇高其本质率;d.肝肝癌的患病前提相似。适度的研究渐进一般是通过适运用于量结果显示的亚基DNA(得病和健康生物体各50例)帮忙单单与肝肝癌倾斜度相似开放性的偏高频开放性状,然后根据这一结果选用有用的芯片,在大结果显示之中的开展大规模的测试。从而得到精确度更颇高的肝肝癌方面开放性状亚基。接着可以针对这些亚基开展生态学功能研究,从而赢取有意义的结果,开发单单肝肝癌诊断及治疗的方面产品等。

在各种环境因素的作用下,机体某些体细胞线粒体上引发的开放性状破坏或改变了某些重要的生态学步骤,体细胞可能都会因此异常增生而转变为细胞。由于细胞不具备异质开放性,同一块小许多组织之中的可能含有相异时期的细胞以及上述情况下体细胞,因此它的DNA开放性状上述情况相对于其基因开放性状肝肝癌来说非常适合于。对于小许多组织的亚基小组DNA研究,其最关键的步骤在于结果显示的给定。以外最常见的上述情况是分别取同一肝肝癌病变的肝癌小许多组织和肝癌旁小许多组织开展比较,结果显示仅目决定至少20对以上。DNA后成对的结果显示开展研究后先开展相异病人近的多结果显示研究,借此来发掘方面的DNA开放性状。由于产生的或许除此以外DNA开放性状,DNA表达程度开放性状,表观基因开放性状开放性状等多个方面,在透过NGS研究的时候,一般而言都会运用于多种实验原理相结合的原理,例如转录小组DNA、同类型DNADNA、甲基化DNA等,相互开展印证,多统计仅据导入研究可以进一步的大大提颇高统计仅据的实用开放性,提升科研文章档次。

{nextpage}

五、猎取模拟器

以外取向的猎取模拟器,各模拟器的特点如下。

猎取模拟器

Illumina TruSeq Exome Enrichment Kit

Roche SeqCap EZ Human Exome Library

Agilent SureSelect Human All Exon

猎取运用于量

62M

64M

51M

猎取地区之中的

亚基及旁翼区之中的,

部分UTR及miRNA

亚基区之中的及miRNA

亚基区之中的

探头

95 mer DNA

90-105 mer DNA

120 mer RNA

探头仅运用于量

340,427

2,100,000

655,872

对常用统计仅据库的%

97.2% CCDS

96.4% RefSeq

93.2% Gencode

77.6% miRBase

99.8% CCDS

98.4% RefSeq

96.7% Gencode

98.67% miRBase

1.22% of human genomic regions,

> 700 human miRNAs,

> 300 additional human non-coding RNAs

六、建设项目流程

1、 结果显示检测

用于建库的DNA材料规格为材料浓度成比例60ng/μl,尺寸成比例20μl,OD260/OD280为1.7-2.0。通过都有三种方式开展结果显示检测:

• 采行发射光谱定运用于量的原理对DNA材料开展定运用于量;• NanoDrop检测OD260/OD280;• 凝胶电泳检测DNA的状态,是涵盖受体质、RNA污染及是否实际上DNA分解。 2、 建库

研究TruSeq DNA Sample Prep Kits开展文库制备,起始DNA运用于量为1.2 μg。

3、 猎取

以Illumina的猎取模拟器为例,研究TruSeq Exome Enrichment Kit猎取亚基小组及旁翼区之中的,部分UTR及miRNA,总猎取范围为62M。

4、 DNA

猎取赢取的DNA仅列可于Illumina的任一DNA仪之中开展DNA,以HiSeq2000为例,每run可运行两张flowcell,每个flowcell除此以外8个lane,100PE来进行下每run运行共约11天,统计仅据产单单为600G。猎取材料经桥式PCR后,置于flowcell之中开展DNA,亚基小组结果显示一般决定DNA125X,立刻足够开展基因开放性状肝肝癌研究,如结果显示可根据上述情况适度增加DNA深达。

{nextpage}

5、 质控

严格运用于Illumina新车催化剂,遵循Illumina GenomeNetwork管理,是Illumina同类型球最颇高DNA准确开放性的代表者。平原则上成比例99% 核酸稳定度达Q20,保证成比例85%核酸稳定度达Q30,平原则上clean data分之一raw data 90% 以上。对于亚基小组建设项目,共约90%的亚基地区之中的覆盖度超越10×以上,保证最颇高的DNA原则上一开放性。

a. 模拟接收机

HiSeq 2000模拟器产单单的模拟接收机为Fastq文档,都有是对该文档的详细说明:

@HWI-ST1203:231:C1NDLACXX:7:1101:1837:2139 1:N:0:AGTCAATTCCACTTAAAAATACAAGAGCACAAATCCACATTTATTTATTGATTTTTCGTTAGTTTAAATCCTTGAGGGGTACAGCATCACTCGGATTCTGTGTCCAA+CCCFDFFFHHHHHJJJJIJJJJJJJJIJIJIJFHJJGJEIEIGIIJIJIIGIDGGIIHI@HHEHIIIIIJ=CHABBDFFFFEEDEEDBBDDCDDCCDDCDC

对于以上Fastq仅列,第一行以@开头,左边是read的ID以及其他反馈;第二行代表者read的仅列;第三行一般以“+”对此;第四行代表者read的准确开放性反馈,与第二行的核酸仅列相对于不应。其之中,为了立刻于推算机开展存储,准确开放性值以字符来对此,每个字符所代表者的ASCII码等于33即为该核酸对不应的准确开放性值。根据相不应的公式(Q=-10lgP),即可推算每个核酸被测错的标准差,其之中Q20代表者核酸被测错的标准差为1%,Q30代表者核酸被测错的标准差为1‰。

将以上Fastq仅列的准确开放性反馈转化成相不应的准确开放性值,结果如下。在该read之中,只有一个核酸的准确开放性值为28,其余核酸的准确开放性值原则上成比例30。34,34,34,37,35,37,37,37,39,39,39,39,39,41,41,41,41,40,41,41,41,41,41,41,41,41,40,41,40,41,40,41,37,39,41,41,38,41,36,40,36,40,38,40,40,41,40,41,40,40,38,40,35,38,38,40,40,39,40,31,39,39,36,39,40,40,40,40,40,41,28,34,39,32,33,33,35,37,37,37,37,36,36,35,36,36,35,33,33,35,35,34,35,35,34,34,35,35,34,35,34.

b. 准确开放性评估

核酸准确开放性评级

上图是DNADNA赢取read的准确开放性值结果,其之中近乎所有核酸的准确开放性值在20以上,90%以上核酸的准确开放性值在30以上。

DNA深达分布

虽然亚基小组DNA的适度深达一般都成比例100X,但由于DNA步骤之中实际上一定的仅列偏向开放性,部分亚基地区之中的的DNA覆盖度较偏高。在开展反馈研究时,一般而言只考虑DNA深达很偏高10X的亚基地区之中的,以立刻大大提颇高研究结果的实用开放性。DNA结果之中,85%-95%的亚基地区之中的DNA深达成比例10X,保证较颇高的DNA原则上一开放性。

c. 结果演示

中文参仅

统计研究结果

之中文说明

Sample Name

Example

结果显示名

Total reads

100,256,834

Reads仅目

Total yield (bp)

10,125,940,234

花销

Read length (bp)

101.0

读长

Target regions (bp)

62,085,286

能够地区之中的尺寸

Average throughput depth of target regions

163.1

平原则上DNA深达

Initial mappable reads (mapped to human genome)

100,097,762

阿达马对仅列仅

% Initial mappable reads (out of total reads)

99.8%

阿达马对仅列%-

Non-redundant reads (de-duplicated by Picard tools)

82,401,028

非冗余仅列仅

% Non-redundant reads (out of initial mappable reads)

82.3%

非冗余仅列%-

Non-redundant unique reads (uniquely mapped to human genome)

73,028,083

非冗余单一比对仅列仅

% Non-redundant unique reads (out of non-redundant reads)

88.6%

非冗余单一比对仅列%-

On-target reads (mapped to target regions)

50,349,303

能够地区之中的仅列仅

% On-target reads (out of non-redundant unique reads)

68.9%

能够地区之中的仅列%-

% Coverage of target regions (more than 1X)

95.1%

DNA深达成比例1×的覆盖度

Number of on-target genotypes (more than 1X)

59,032,909

DNA深达成比例1×的地区之中的

% Coverage of target regions (more than 10X)

91.6%

DNA深达成比例10×的覆盖度

Number of on-target genotypes (more than 10X)

56,865,579

DNA深达成比例10×的地区之中的

Mean read depth of target regions

65.4

能够地区之中的平原则上DNA深达

Number of SNPs

78,241

SNP仅目

Number of coding SNPs

20,593

序列区之中的SNP仅目

Number of synonymous SNPs

10,654

单指SNP仅目

Number of nonsynonymous SNPs

9,391

非单指SNP仅目

Number of Indels

8,447

InDel仅目

Number of coding Indels

411

序列区之中的InDel仅目

6、 反馈研究

a. 相符仅列,模拟接收机过滤器及统计研究:通过FastQC, FastX-toolkit等操作系统对DNA准确开放性开展评估,移除偏高准确开放性reads(成比例5个核酸准确开放性最偏高Q20),剩余的统计仅据作为clean data开展研究,平原则上成比例99%的核酸准确开放性很偏高Q20,成比例85%的核酸准确开放性很偏高Q30。b. Mapping:通过bwa操作系统将reads map到规格参考DNA上(UCSC hg19),移除无法map到参考DNA和多重map的reads后开展后续研究,大共约有99.5%的reads能开展下一轮研究。c. 移除完同类型相反reads(duplicate reads):亚基猎取步骤之中含有PCR增为步骤,都会人为引入完同类型相反的DNA片段,由于这些DNA仅列都会对后期的研究造成直接影响,故要运用于PICARD操作系统移除统计仅据之中的duplicate reads,相异的猎取模拟器之中这类仅列所分之一的%-不一样,illumina猎取模拟器之中的duplicatereads仅目共约分之一总统计仅据的15-20%,Agilent模拟器之中的这一仅值共约为1-3%。d. 对能够地区之中的内的仅列开展开放性状检单单:运用于Samtools对DNA结果与参考DNA开展比对,帮忙单单材料之中实际上的开放性状,除此以外SNV,InDel等,并对其开展注释及功能预测,除此以外dbSNP、1000G统计仅据库,SIFT,Polyphen-2,GERP等操作系统。e. 多结果显示研究:根据研究内容的相异,将多个结果显示分为相异的小组别,对其之中的开放性状反馈开展核心内容,统计研究开放性状在群体内单单现的频率,位置等方面反馈,通过KEGG等接收机通路注释研究其与肝肝癌之近的相似开放性。f. 报告提交:除此以外材料检测与建库报告(pdf文档)、DNA结果报告(pdf文档)、单结果显示开放性状检单单报告(excel文档)、多结果显示核心内容研究报告(excel文档)、模拟接收机(fastq、BAM等文档)和刊登所无需的各类图片。

七、亚基小组DNA方面名词

亚基小组DNA:是常指透过仅列猎取新技术将同类型DNA亚基地区之中的DNA捕捉并富集后开展颇高通运用于量DNA的DNA研究。亚基DNA相对于于DNA重DNA运输成本较偏高,对研究已知DNA的SNP、 InDel 等不具备较大的竞争者。

DNA深达:DNA赢取的总核酸仅与待测地区之中的尺寸的比值。如运用于Illumina TruSeq Exome Enrichment Kit,该催化剂盒的猎取范围为62M,DNA赢取620M花销时,DNA深达为620/62=10×。

覆盖度:常指DNA得到的仅列分之一整个待测地区之中的的%-。如果亚基小组DNA的覆盖度是98%,则对此仍有2%的仅列地区之中的是没有人通过DNA得到的。

Read:就是读长,就是颇高通运用于量DNA时一个反不应所能测单单的核酸仅。

SNP(single nucleotide polymorphism):单多肽多态开放性,生物体近DNADNA仅列同一位置单个多肽开放性状(替代、填充或缺失)所引起的多态开放性;相异物种生物体DNA DNA 仅列同一位置上的单个多肽实际上相差的现象。 InDel(Insertion/Deletion):填充/缺失,是常指两种亲本在同类型DNA之中的差异,相对于另一个亲本而言,其之中一个亲本的DNA之中有一定仅运用于量的多肽填充或缺失。 CNV(copy number variation):DNA拷贝仅开放性状,是DNA开放性状的一种形式,一般而言使DNA之中大块段的DNA形成非上述情况下的拷贝仅运用于量。 SV(structurevariation):DNA结构上开放性状,线粒体结构上开放性状是常指在线粒体上引发了大块段的开放性状。主要除此以外线粒体大块段的填充和缺失(引起 CNV的变化),线粒体内部的某块地区之中的引发段落镜像、滑动颠换、易位、两条线粒体之近引发重小组(inter-chromosometrans-location)等。

TAG: