本文来自作者[lejiaoyi]投稿,不代表言希号立场,如若转载,请注明出处:https://www.lejiaoyi.cn/zlan/202506-1252.html
没有使用统计方法来预先确定样本量。田间实验是随机的,但是测序和组装的小麦线未随机选择。在实验和结果评估中,研究人员并未对分配视而不见。
我们使用两种方法组装了15种不同小麦系的基因组(补充表1)。RQA方法使用了Denovomagic v.3.0组装管道,以前用于野生Emmer Wheat11,Durum Wheat12和中国弹簧Refseqv1.0组件。简而言之,如前所述51,从小麦幼苗中提取高分子量的DNA。生成了三种不同尺寸(3 kb,6 kb和9 kb)的Illumina 450 bp配对端(PE),800 bp PE和伴侣(MP)库。测序是在伊利诺伊大学Roy J. Carver生物技术中心进行的。使用制造商的建议在Canada Canada Genome Innovation Center上制备10倍基因组学铬库,并在基因组基因组创新中心进行测序,以达到至少30倍的覆盖范围。使用先前描述的方法40制备HI-C库。如前所述,使用Illumina PE,MP,10倍基因组铬和HI-C,制备了染色体尺度的组件18。对于组装到脚手架水平的品种,我们使用k = 200(补充注释1)使用了W2RAP-CONTIGGER。除Weebill 1外,每行生产了两个MP库(10 kb和13 kb),其中使用了两个MP库。按照W2RAP管道中所述(https://github.com/bioinfologics/w2rap)中所述进行处理,过滤并用于脚手架重叠群的伴侣对。从最终组件中除去了小于500 bp的脚手架。此外,我们使用R9流动池和网格测序技术对CDC的牛津纳米孔测序进行了(补充注释2)。
从两个研究中检索,组合和过滤的两个小麦外显捕术研究中的变体呼叫格式数据文件4,5。使用Longranger v.2.1.6软件,将每种RQA系的10倍基因组学铬测序数据与中国弹簧RefSeqv1.0对齐。从此处组装的配件和16个Bioplatforms Australia Lines19和16个带有从Dawn Project52获得的对齐的对准文件随后在Exome Acture序列确定的相同基因组位置处使用。然后使用R v.3.6.1中的PRCOMP函数合并了外显捕术研究,黎明项目和10+小麦基因组线的变体文件。
我们使用了先前发表的中国弹簧的高信任基因模型来评估每个组装中的基因含量。使用Blat53 v.3.5分别将每个线人基因座的代表性编码序列与每条线的伪分子对齐,并带有“细”参数,最大内含子大小为70 kb。布拉特在基因组邻域中搭配Exonate54的额外对齐,其中包含20 kb的上游和匹配位置的下游。除外比对分别需要最小和最大内含子大小为30 bp和20 kb。计算了10,000对的共定位匹配的线性回归,该匹配的共定位匹配是10,000对的,以得出归一化函数,并为这两种方法提供了可比的评分方案。随后,我们选择了每个映射对的最高得分匹配作为基因投影的轨迹。然后通过对齐覆盖范围(补充注释3),开放阅读框(ORF)连续性,观察到的线人的映射频率,开始和终止密码子的覆盖范围以及相对于其线人染色体的匹配支架的矫正率或潜在位错。直系同源组的识别类似于以前使用的方法55。相互最佳爆炸(RBH)图是从成对的All-against-All Blastn v2.8转录本搜索(最小电子值≤1×10-30)得出的。根据先前描述的同伴分类9。使用具有默认参数的肌肉v.3.8进行了种群遗传学分析的多个序列比对(补充注释3)。使用基因投影,我们量化了平均成对遗传多样性(π),多态性(Watterson的θW), tajima在LIBSequence v.1.0.3-1包装中使用Compute和polydnds的tajima d。我们保留了所有基因组中且≤100分离位点的基因的多样性估计值。PAV是从直系同源群中确定的,仅限于一对一关系,其中至少一个基因组没有匹配。
对于RF基因,将基因组序列用于六帧翻译中的ORF,并使用“ Gotorf v.6.6.0”软件包的Getorf程序进行扫描。使用HMMER v.3.2.1软件包(http://hmmer.org)和前面定义的隐藏的Markov模型搜索了超过89个密码子的ORF,以搜索使用HMMSEarch的PPR图案的存在。来自PFAM V32.0数据库(http://pfam.xfam.org)的PF02536配置文件用于筛选携带MTERF主题的ORF。HMMSearch结果的下游处理遵循了前面描述的管道57。从分析中删除了低HMMSEarch分数的ORF,因为它们不太可能代表功能性PPR蛋白。分析中只有编码MTERF蛋白超过100个氨基酸的基因。RFL-PPR序列被鉴定为所述23。如前所述进行系统发育分析23。在中国春季refseqv1.0参考基因组中鉴定出了保守的非PPR基因,这些基因划定了分析的RFL簇的边界,并用于搜索具有BLAST v.2.8的其余小麦加入中的同步区域。有关更多详细信息,请参见补充注释4。
使用NLR-Annotator 58,59(https://github.com/steuernb/nlr-antotator)使用NLR签名进行注释。我们估计了不同身份阈值的基因组之间NLR签名的冗余:95%,98%和100%。对于所有NB-ARC基序的共识中的165个氨基酸,这转化为串联基序序列的8、3和0不匹配。为了计算所有基因组中的总冗余,我们计算了通过迭代添加基因组来添加到非冗余设置中的LR签名的数量。这是对100万个随机排列进行的。
使用VMATCH(http://wwwww.vmatch.de)的PGSB Transposon Library60的Redat_9.7_poAceae部分检测并通过同源搜索进行了转座子,并使用以下参数(http://wwww.vmatch.de)进行分类:身份≥70%,最小值75 bp,代约75 bp,属性75 bp(确切的属于75 bp)(确切的属于75 bp)。-seedlength 12-删除5)。为了删除重叠的注释,通过基于优先级的方法过滤输出以进行冗余命中,在这种方法中,如果优先级重叠≥90%的重叠,则在重叠位置分配的首先和较低分数命中的较高分数匹配被缩短或删除,或者如果<50 bp的删除<50 bp。串联重复在默认参数下用TandemrepeatFinder v.4.09识别的串联重复,并如上所述进行重叠去除。使用LTRHARVEST(http://genometools.org/documents/ltrharvest.pdf)鉴定全长LTR逆转座子。随后使用HMMER V.3.0对PFAMA域进行了注释,并进行过滤以去除误报,非典型杂种和含基因的元素。内部域顺序用作LTR逆转录座超家族分类的标准,即吉普赛人(RLG:RT-RH-INT),COPIA(RLC:INT-RT-RH)或不确定(RLX)。FL-LTR的插入年龄是根据5'和3'长末端重复序列之间的差异计算得出的,这些重复序列在插入时相同。用浮雕V.6.6.0散发器(Kimura2-参数校正)计算遗传距离,使用1.3×10-8的随机突变速率计算。
对于使用RQA的每一行,使用先前的方法62进行芯片,并使用小麦特异性CENH3抗体36进行略微修饰。具有肽序列RTKHPAVRKTKALPKK的抗原,对应于小麦CENH3的N末端,使用Thermo Fisher Scientific提供的定制抗体生产设施来生产抗体。定制抗体被纯化并作为颗粒获得。将抗体沉淀(0.396 mg)溶解在2 mL PBS缓冲液中,pH 7.4,导致工作浓度为198ngμl -1。从2周大的幼苗中分离核,用微局局核酸酶消化,并在4°C下与3μg抗体或兔血清(对照)一起孵育过夜。使用Dynabeads蛋白G捕获抗体,并使用100μl的1%十二烷基硫酸钠洗脱的染色质,预热为65°C,为0.1 M NAHCO3捕获。然后使用芯片DNA清洁和浓缩器试剂盒进行DNA隔离,并使用Truseq芯片库制备套件构建芯片– Seq库,并使用Novoseq S4进行测序,该novoseq S4产生了150 bp配对的末端读数。
对于中国春季,我们使用了两个数据集,即SRR168679963(数据集1)和本研究中生成的数据集(数据集2)。使用HISAT2 v.2.1.064将序列读取段读取,修剪和对齐每个相应的RQA。对对齐方式进行排序,过滤,最小比对质量为30,使用Samtools v.1.10和Bedtools v.2.29在100 kb bin中计数,并在R v.3.6.1中可视化。为了定义每个中心仪的中点,我们使用平滑的v.3.6.1中的平滑样条识别了CENH3芯片– Seq的最高密度读取具有光滑的函数(打结= 1,000)的最高密度,并确定了平滑样条的峰值,并确定了给定染色体的相应中心的峰值。为了比较不同基因组的中心位置,绘制了CENH3芯片 - seq密度与木乃伊V.4.0染色体比对一起绘制。为了确定小麦丝粒的整体尺寸,我们认为每个100-kb bin的CENH3芯片 - seq读取密度大于背景(基因组平均值)读取密度的三倍,为有源的centromeric bin。计数每个基因组的富集垃圾箱数量,并将总计为21个染色体。该计算包括对未锚式垃圾箱的计数。
使用RLC-Angela family65和从TREP数据库获得的共识序列(www.botinst.uzh.ch/en/research/research/genetics/genetics/thomaswicker/thomaswicker/trep-db.html)为每个基因组创建了逆转录型剖面。首先,使用BLASTN将〜1,700 bp LTR的RLC-Angela与每个基因组进行比较。对匹配的元素和500 bp的侧翼序列进行对齐,以识别精确的LTR边界以及不同的亚元素和/或序列变体。然后,我们使用BLASTN将18个共识LTR序列与每个基因组进行比较,然后筛选成对成对的全长LTR,这些LTR在7.5–9.5 kb的窗口中相同的方向(RLC-ANGELA元素为〜8.7 kb长)。筛选了这些初始候选全长元素,以通过BLASTX以及典型的5 bp目标位点重复存在RLC-Angela聚蛋白序列。我们在两个目标站点重复之间最多允许两个不匹配。然后将所有已鉴定的全长RLC-Angela副本与来自“浮雕v.6.6.0 package”(www.ebi.ac.ac.uk/tools/emboss/)的程序水对齐与RLC-Angela共识序列对齐。这些比对被用来将所有核苷酸多态性汇编为单个文件。然后,使用R软件包SNPRELATE v.3.11中的SNPGDSPCA函数将变体调用文件用于PCA。
根据标准的CTAB-氯仿萃取方法,从T. timopheevii,A。centricosa和T. ponticum(补充表12)中收集的年轻叶组织中提取基因组DNA(GDNA)。通过荧光测定法(Qubit 2.0)和琼脂糖凝胶电泳评估产量和完整性。遵循NextEra DNA Flex方案制备了配对的库文库。简而言之,每个登录中的500 ng gDNA被碎裂,并用有限的周期PCR放大。每个库都用不同的10 bp索引代码(Illumina nextera dna ud的IDT)唯一双重索引,用于多路复用,并通过qPCR(KAPA Biosystems)量化。估计在挂接2200上估计最终平均库大小。将库进行标准化并汇总以在Illumina Novaseq 6000 S4上进行测序,以生成每个基因型的〜5倍覆盖范围。使用BBMAP v.38简短阅读对齐软件(https://sourceforge.net/projects/projects/bbmap/),将测序数据脱离了混合型数据,并在半完美模式下以半完美模式对齐合适的RQA(补充表12)。
我们使用传统的乙酰臂平方方法制备的有丝分裂中期染色体对线进行了核分型。如所述66,67(补充注释6)进行了三个重复序列探针的原位荧光原位杂交(ND-FISH)(ND-FISH),分别是重复序列探针,Oligo-PSC119.2-1,Oligo-PTA535和Oligo-PTA713(补充注6)。DAPI对染色体染色。用Olympus BX61落叶显微镜和CCD摄像头DP80捕获染色体图像。在斐济包装中使用ImageJ v.1.51n处理图像并为伪化学。对于核分型,检查了每个登录至少四个染色体,并将其与中国弹簧的核型进行了比较,如前所述68。使用R v.3.0.2中的病房方法进行核型多态性的层次聚类,该方法用于估计距离。接下来,我们将HI-C分析应用于以前所述的反转调用40。简而言之,删除了适配器,并使用minimap2 v.2.1069映射到中国弹簧,就像我们之前完成的21一样。原始的HI-C链接计数是在1 MB的非重叠滑动窗口中计算的,然后如我们以前的Work40中所述进行标准化。最后,将标准化的HI-C链路矩阵对使用R进行反转调用。
如前所述,我们进行了小麦品种Arina和Forno的流式细胞仪,除了我们使用了facsaria sorp流式细胞仪和细胞分配器(Becton Dickinson)。通过比较Arinalrfor和Julius的5b和7b的染色体5B和7B,鉴定了5b/7b的易位断点。通过沿染色体每100 kb的1000 bp序列窗口搜索Arinalrfor和Julius之间的序列共线性。一旦检测到同步的中断,就提取了同步损失位置的序列段,并用于局部比对以确定精确的断点位置。使用标准PCR循环条件进行了5B/7B和7BL/5BL易位位点的PCR扩增。
为了识别单倍型,使用Mummer v.4.0在RQA之间进行成对的染色体对齐,这些v.4.0与r v.3.6.1中的自定义脚本(https://github.com.com/uauy-lab/pangenome-hapandenome-hapenememememememememememememememememememememememememememement v.4.0)与基因的成对核苷酸BLASTN分析结合。将结果的单倍型上传到交互式查看器(http://www.crop-haplotypes.com/)。基因的成对BLASTN比较还用于识别结构变异,并将上载至Accusyn(https://accusyn.usask.ca/)和Synvisio(https://synvisio.github.io/#/(https://kiranbandi.github.io/10wheatgenomes/)。椒盐脆饼(https://github.com/plantinformatics/pretzel)也用于可视化和比较RQA和投影基因注释(http://10wheatgenomes.plantinomes.plantinformatics.io/)。
使用BLAST v.2.8.0位于RQA中,SM1链接标记6位于RQA中。开发了两个高分辨率映射群体,分别是99b60-ej2d/撒切尔和99b60-ej2g/infinity。在F2一代中鉴定出SM1附近的跨界事件的后代杂合子,并将跨界固定在F3代中。将最终的F2衍生的F3家族用SM1区域内的KASP标记进行了分析,并测试了野外苗圃中OWBM的抵抗,以识别与SM1相关的标记。甲基磺酸乙酯用于在SM1基因中发展基因敲除突变体。将大约3200种加拿大春季小麦品种(SM1载体)的种子浸泡在0.2%(v/v)在22°C的0.2%(v/v)水溶液中22小时。然后将种子冲洗在蒸馏水中,然后在野外托儿所播种。M1种子生长到成熟并散装收获。大约6,000平方米种子在加拿大曼尼托巴省的布兰登和格伦利亚的两个野外托儿所中种植了大约6,000个种子。在成熟度以每个植物为基础收集峰值,并被归类为耐药性,易感性或未损坏,如先前完成的6,72。在M3和M4代的室内笼测试中,对推定的SM1敲除突变体进行了OWBM耐药性。M4来源的家庭在现场托儿所中对OWBM的抵抗力进行了测试(随机完整的块设计,六个环境和每个环境的八个重复)。
使用预测的基因注释和Fgenesh v.2.6(http://www.softberry.com/),在CDC地标组装上的SM1侧翼标记之间鉴定了候选基因,这些基因与投影基因的非接球手的基因进行了比较。5'和3'的cDNA末端(5'和3'种族)的5'和3'快速扩增均被用于验证基因候选者的转录起始和终止位点,该基因候选者的结构由Fgenesh V.2.6预测。简而言之,从Unity(SM1载体)幼苗(使用Qiagen rneasy试剂盒),进行Race PCR(Invitrogen Generacer Kit)和PCR产物克隆(Invitrogen topo ta克隆套件进行测序)和序列化的PCR产物中提取RNA。使用NCBI保守的域搜索工具(https://www.ncbi.nlm.nih.gov/Structure/Structure/cdd/wrpsb.cgi)和Prosite(版本2020_01; https; https; https://prosite.expasy.org/)进行预测。LRR结构域的定义是根据20-30个氨基酸的2-42 LRR基序重复序列定义的。LRR图案被手动注释74。使用程序TMPRED NCBI保守域搜索工具(https://embnet.vital.vital-it.ch/software/software/tmpred_form.html)进行跨膜区域和方向的预测。
为了研究SM1的表达,从四个小麦基因型(Unity,CDC Landmark,Waskada和Thatcher)中提取了总RNA。根据制造商的说明,使用Nucleospin RNA植物试剂盒(Macherey-Nagel)使用Nucleospin RNA植物试剂盒(Ansisos)发育片(ANSISONE后五天)。用无RNase DNase(RDNase)(Macherey-Nagel)处理RNA,并根据制造商的说明和NB-Arc域扩增了PCR,使用Superscript IV IV逆转录酶试剂盒(Invitrogen)将转录到cDNA中。
有关研究设计的更多信息可在与本文有关的自然研究报告摘要中获得。
赞 (5)
评论列表(3条)
我是言希号的签约作者“lejiaoyi”
本文概览: 没有使用统计方法来预先确定样本量。田间实验是随机的,但是测序和组装的小麦线未随机选择。在实验和结果评估中,研究人员并未对分配视而不见。 我们使用两种方法组装了15...
文章不错《多种小麦基因组揭示了现代繁殖的全球变化》内容很有帮助