首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于深度神经网络的 SSR 分子标记对茶叶产地的溯源研究
引用本文:龚 浩,张莉莉,陈富荣,林丽霞,陈意君,张 乐,孙春 莲,孙 键.基于深度神经网络的 SSR 分子标记对茶叶产地的溯源研究[J].广东农业科学,2023,50(9):108-116.
作者姓名:龚 浩  张莉莉  陈富荣  林丽霞  陈意君  张 乐  孙春 莲  孙 键
作者单位:1. 惠州学院生命科学学院,广东 惠州 516007;2. 惠州学院经济管理学院,广东 惠州 516007
基金项目:广东省科技创新战略专项基金(pdjh2023b0500);惠州学院教授、博士启动项目(2021JB017)
摘    要:【目的】对不同品种的茶叶进行区分和产地溯源,同时为其他植物分类提供参考依据。【方法】以简单重复序列标记(Simple sequence repeat,SSR)为基础,运用生物信息学的研究方法,对来自湖南、云南、福建和浙江省的 313 个茶叶样本的来源属地及 10 个外类群关系进行研究:首先,筛选出高质量的 54 个 SSR 位点,通过主成分分析(Principal compon ent analysis,PCA),构建进化树,分析各省间茶叶样本的差异度;其次,通过比较线性回归模型、随机森林模型和深度神经网络(Deep neural network,DNN)模型的分类准确度,选择准确度最高的神经网络模型进行溯源模型构建及优化。【结果】4 个省的茶叶样本个体相对聚集,其中云南省的样本个体较其他省份差异大;福建、浙江、湖南的样本分别聚集,表明福建、浙江、湖南三省间茶叶差异显著,但有少量交叉,具有一定的相似遗传结构特性,亲缘关系较近。利用 3 种不同的模型对 54 个 SSR 分子标记矩阵构建模型,初步鉴定出线性回归模型准确率为 81%,随机森林模型准确率为 77%,而 DNN 模型准确率最高、为86%,由此可得出 DNN 模型对茶叶的分类效果最好。随后利用 54 个 SSR 分子标记和 323 个样本构建预测模型,并对一次训练的样本个数(Batch size)、训练的次数(Step size)、隐藏层层数及每层节点数进行优化,发现这 4 个参数的优化结果当样本个数为 150、训练次数为 20 000、隐藏层层数为 2 层时验证集和测试集的准确率最高、约 95%,即 2 层神经网络对茶叶分析效果最佳。【结论】基于深度神经网络的 SSR 分子标记为茶叶分类、产地溯源研究和茶叶育种等方面提供支持依据,构建的分类模型也可用于其他物种重测序数据的属地来源鉴定。

关 键 词:茶叶  SSR  PCA    深度神经网络  溯源  分子标记

Research on SSR Molecular Markers for Traceability of Tea Origins Based on Deep Neural Network
GONG Hao,ZHANG Lili,CHEN Furong,LIN Lixi,CHEN Yijun,ZHANG Le,SUN Chunlian,SUN Jian.Research on SSR Molecular Markers for Traceability of Tea Origins Based on Deep Neural Network[J].Guangdong Agricultural Sciences,2023,50(9):108-116.
Authors:GONG Hao  ZHANG Lili  CHEN Furong  LIN Lixi  CHEN Yijun  ZHANG Le  SUN Chunlian  SUN Jian
Abstract:
Keywords:tea  SSR  PCA  deep neural network  traceability  molecular marker
点击此处可从《广东农业科学》浏览原始摘要信息
点击此处可从《广东农业科学》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号