Evaluation of genomic selection against neuronecrosis in the red-spotted grouper
通讯作者: 王志勇(1963-),男,教授,博士生导师,从事水产动物遗传与育种研究.E-mail:zywang@jmu.edu.cn
收稿日期: 2022-04-22
基金资助: |
Received: 2022-04-22
作者简介 About authors
赤点石斑鱼(Epinephelus akaara)是中国东南沿海地区一种重要的海水养殖鱼类,多年来其苗种生产深受神经坏死病的困扰,严重制约了其人工养殖业的发展。本研究采集230尾赤点石斑鱼神经坏死病毒(RGNNV)易感(染病死亡)和230尾抗性(最终健康存活)赤点石斑鱼苗进行基因组重测序,分析获得5 412 683个单核苷酸多态性(SNPs)位点的基因型,并以之对抗病性状进行了遗传评估和基因组选择研究,获得的估计遗传力均值为0.566 2,预测基因组估计育种值(GEBV)均值为0.154 3。随机选择不同数量标记对基因组选择准确性影响进行评估,结果表明,采用≥5 000个(5 k)标记进行赤点石斑鱼抗神经坏死病性状遗传评估就可以获得比较理想的效果。本研究为开展赤点石斑鱼抗神经坏死病基因组选择育种实践提供了有用的理论参考。
Red-spotted grouper(Epinephelus akaara) is an important maricultured fish in the southeast coastal area of China.It is highly infected by red-spotted grouper nerve necrosis virus(RGNNV) during the artificial cultivation,which seriously restricted the development of the artificial breeding industry.In this study,230 ind RGNNV susceptible(disease-infected death) and 230 ind resistant(eventually survived fish) red-spotted grouper fry were collected for genome resequencing,and 5 412 683 single nucleotide polymorphisms(SNPs) were discovered,which were used for genetic evaluation of the RGNNV resistance of the red-spotted grouper.The estimated heritability of RGNNV was 0.566 2,and the accuracy of the genomic estimated breeding value(GEBV) with whole genome SNPs markers was 0.154 3.The evaluation of the effect of random selection of different numbers of markers on the genomic prediction accuracy showed that using≥5 000(5 k) SNPs markers could obtain more desirable results.This study provided a useful theoretical reference for application of genomic selection for breeding of red-spotted grouper against RGNNV.
王卓标, 方铭, 郑乐云, 葛辉, 陈欣欣, 罗辉玉, 王志勇.
WANG Zhuobiao, FANG Ming, ZHENG Leyun, GE Hui, CHEN Xinxin, LUO Huiyu, WANG Zhiyong.
鱼类病毒性神经坏死病是由神经坏死病毒(Nervous necrosis virus,NNV)引起的一种全球范围的鱼类流行性传染病。NNV为海水鱼中较常见、危害严重的传染病之一,至今已报告的受害鱼类有鳗鲡目(Anguilliformes)、鲈形目(Perciformes)、鲽形目(Pleuronectiformes)、鲀形目(Tetraodontiformes)、鳕形目(Gadiformes)中的40余种[5-6],其中被感染的种类集中在石斑鱼、鲈鱼,在中国受影响最大的是赤点石斑鱼和斜带石斑鱼。对石斑鱼而言,神经坏死病的高发期为鱼类的幼鱼阶段,孵化后的1~3周为发病高峰期,严重时发病率可达100%[7],幼鱼成活率低于10%。神经坏死病的病症通常表现为鱼苗在水中以螺旋状旋转为主的异常游动,伴随着食欲减退,静止时腹部向上。组织学检测发现细胞空泡化主要集中发生于中枢神经系统细胞以及视网膜[8]。受感染的幼鱼绝大多数在短期内死亡,因此常常导致人工育苗失败,或成活率极低。近年来,随着养殖密度的不断提高和受感染鱼类种类增加,其危害程度愈发严重。
选育抗病品种是解决养殖鱼类病害问题的一个有效途径[9-10]。但是传统的选育方法进展慢,效果较差。2001年Meuwissen T H E等[11]提出了基因组选择(Genomic selection,GS)的方法,该方法具有不需构建家系、育种值估计的准确性高、育种效率高,并可以有效控制近交等多方面优点。如今,随着高通量DNA测序成本不断降低,已有越来越多的水产动物育种开始使用基因组选择的方法[12⇓⇓⇓⇓⇓-18]。目前已经有一些研究者将基因组选择应用于鱼类抗病育种研究,如Tsai H Y等[19]报道了对大西洋鲑抗海虱、Liu Y等[20]报道了对牙鲆抗爱德华氏菌的基因组选择研究。Palaiokostas C等[21]对欧洲鲈鱼(Dicentrarchus labrax)的神经坏死病毒病抗性进行评估,发现使用基因组选择的方法与比系谱选育预测能力增加13%。福建省水产研究所石斑鱼研究团队已经完成了赤点石斑鱼全基因组测序组装[22],华南农业大学Yang M等[23]通过对100尾赤点石斑鱼神经坏死病毒(Red-spotted grouper nervous necrosis virus,RGNNV)易感与抗性石斑鱼进行全基因组关联分析,找到了一些抗病相关的单核酸多态性(Single nucleotide polymorphisms,SNPs)位点;但迄今还没有见到对赤点石斑鱼抗神经坏死病基因组选择研究的报道。本研究对460尾赤点石斑鱼神经坏死病易感(染病死亡,230尾)和抗性(最终健康存活,230尾)鱼苗,通过基因组重测序获得高密度的SNPs集,进行抗病遗传力评估和基因组选择预测,以期为后续的抗病育种实践提供必要的理论参考。
1 材料与方法
1.1 样本的采集与鉴定
1.2 基因分型和质量控制
使用南京诺唯赞生物科技股份有限公司的快速组织基因组DNA试剂盒提取鳍条组织基因组DNA,进行质检和建库后,在Illumina NovaSeq 6000平台(Illumina,USA)进行WGS测序。其中450尾的目标测序深度为4×,另随机挑选10尾测序深度为20×,用于提供高质量的SNPs变异参考。首先使用fastQC(https://www.bioinformatics.babraham.ac.uk/projects/fastqc)对测序数据进行质量检测,后使用fastp[24]对测序数据进行过滤。最后使用MultiQC[25]对最终的质控结果进行汇总检查。
通过BWA-MEM[26]将clean reads 比对到赤点石斑鱼基因组[22]上,将产生的文件利用Samtools 进行排序并转化为bam文件格式。之后使用sambamba[27]对bam中构建文库时的PCR重复进行标记,对标记重复后的bam文件使用GATK[28]中的“HaplotypeCaller”的模块进行单个样本变异的检测,再通过“CombineGVCFs”将单个的变异集整合为群体的VCF(Variant call format)文件。使用“SelectVariants”“VariantFiltration”模块进行硬过滤以及双等位基因的提取,并使用BCFtools[29]对缺失率大于20%的变异进行过滤,然后对缺失的基因型使用Beagle[30]进行填充。最后通过PLINK[31]对VCF进行过滤以及格式转换,过滤标准为:1)次等位基因频率MAF>0.05;2)HWE<1e-6。最终获得460个样本的高质量SNPs数据用于后续分析。
1.3 群体结构分析
利用PLINK的PCA模块进行主成分分析(Principal component analysis,PCA)。根据PCA结果所占比重前2个主成分PC1~PC2的数据,通过在线绘图工具bioinformatics(http://www.bioinformatics.com.cn)绘制PCA图。
1.4 遗传参数估计
使用GCTA[32]和R语言的EMMREML包(https://CRAN.R-project.org/package=EMMREML)对遗传参数进行估计以及后续基因组育种值(Genomic estimated breeding value,GEBV)的计算。基因组最佳线性无偏预测(Genomic best linear unbiased prediction,GBLUP)模型公式为:
1.5 交叉验证
1.6 不同标记密度对预测能力的影响
为考察不同SNPs数量GEBV的预测力,除了使用全部的SNPs(6 132 865个SNPs,6 132 k)外,还设计了13个不同个数的标记子集,分别为0.5、1、3、5、10、30、50、100、250、500、1 000、2 500 k。为了降低抽样的误差,使用GATK SelectVariants包对每个数量的标记集都进行50次的随机抽样后,对每次抽样的结果都进行100次的5折交叉验证。
1.7 不同覆盖度标准对预测的影响
2 结果
2.1 标记分型及群体结构分析
本研究对460尾赤点石斑鱼苗进行基因组重测序,共获得2.67 Tb clean data数据挖掘SNPs,通过哈代-温伯格平衡(HWE)>10-6以及次要等位基因频率(MAF)>5%经过质控后,最终用于分析的SNPs共有5 412 683个(未进行覆盖度过滤),平均标记密度约为200.1 bp/SNPs。对460个样品进行主成分分析,提取前2个主成分(Principal components,PCs)的结果(图1),可以看出群体存在明显的分层现象,分成了2个小的聚类群,但易感(Case)和抗性(Control)个体在两个亚群中均匀分布。
Principal component analysis of population genetic structure of 460 individuals
Notes:Case group was the susceptible group;Control group was the resistant group.
2.2 遗传参数估计及基因组选择预测
利用全部460尾鱼苗的表型(230尾易感、230尾抗性)和全部SNPs位点的基因型数据计算抗神经坏死病性状的遗传力,使用R包EMMREML的结果为0.566 2,GCTA的AI-REML经过1 000迭代的结果为0.566 6,两种方法估算结果相近。对460尾赤点石斑鱼进行抗神经坏死病基因组选择的预测力分析,80%个体作参考群,20%个体作验证群,分别进行了100次随机抽样的交叉验证,平均的基因组预测准确度为(0.359±0.019)。
2.3 不同SNPs数量的基因组选择预测力
Accuracy of prediction model under different marker densities for disease resistance traits of Epinephelus akaara
2.4 不同覆盖度标准对预测的影响
表1 不同过滤标准剩余的SNPs数
过滤标准 Filter standards | 填充后 After filling | 过滤MAF后 After MAF filter |
ALL_SNPs | 20 795 120 | 5 412 683 |
DP3 | 418 632 | 94 992 |
DP4 | 105 269 | 11 291 |
DP5 | 56 794 | 5 982 |
DP6 | 34 427 | 3 695 |
DP8 | 16 526 | 1 817 |
DP10 | 7 993 | 830 |
Accuracy of genome selection estimation for different coverage filter standards
3 讨论
此外,基因组选择准确性还受基因组的标记密度的影响[36]。本文通过随机抽样研究了不同标记密度对育种值预测准确性的影响,当使用5 k个标记时,即可使预测准确性接近利用全基因组SNPs的水平,其后随着标记个数增加,预测准确性变化趋于平缓;当标记个数为50 k时,预测准确性与利用全基因组所有SNPs的预测准确性几乎一致,这与Tsai H Y等[19]对大西洋鲑抗海虱性状基因组预测的研究结果非常相似,提示如果设计赤点石斑鱼育种芯片,50 k的标记密度可满足育种要求。尽管如此,利用全基因组SNPs标记有利于挖掘具有较大效应的分子标记及因果突变,将这些大效应分子标记和因果突变嵌入预测模型,建立基于主效-微效多基因效应相结合的预测模型,能进一步提高育种值预测准确性。利用同一批数据,笔者在基因组上已经发现了两个效应值极强的GWAS信号(结果未列出),计划在信号内部挖掘可靠的分子标记或因果突变,并将其作为协变量加入GBLUP模型中,通过主效标记/因果突变进一步吸收残余误差的方式进一步提高预测准确性。对测序数据进行覆盖度过滤能够提高对挖掘的标记位点基因分型的准确性,从而在一定程度上提高育种值估算的准确性(图3)。但是如表1和图3所示,在每个个体测序量不变的情况下,随着覆盖度过滤标准提高,可保留用于分析的标记数量急剧减少,当DP≥4时,尽管标记分型的准确度会明显提升,但是由于保留的标记数量减少,育种值预测准确性已低于不进行覆盖度过滤。据Zhang W等[37]对大黄鱼研究的结果,采用全基因组重测序,由于可挖掘到的标记数多,即使测序覆盖度低至0.5×,而且不进行覆盖度过滤,也能获得与8×覆盖度测序基本一致的基因组选择效果,这将大大降低候选亲本标记分型费用。因此,可以预期,随着高通量DNA测序价格进一步降低,基因组重测序将越来越多被用于基因组选择,也将成为石斑鱼全基因组选择育种的主要工具。
