首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 39 毫秒
1.
为探索大豆基因组测序不同程度缺失数据的有效填补措施,提升数据分析综合能力,本研究以大豆株高与叶面积两组性状的基因组基因型数据为研究对象,进行5%、10%和20%不同缺失比例的人为数据缺失处理,分别运用K近邻算法、SoftImpute算法和随机森林算法3种机器学习方法对缺失数据进行填补,分析填补数据的准确性和性对原始数据...  相似文献   

2.
安宇  陈桂芬  李静 《大豆科学》2020,(3):401-405
随着大豆RNA基因的生物调控作用研究的不断深入,利用数据挖掘技术对大豆前体MicroRNA(pre-microRNA)进行有效的预测已成为该领域的重要发展方向。针对常规的随机森林算法在pre-microRNA预测模型中存在识别精度较低的问题,研究提出并构建基于递归特征消除(recursive feature elimination, RFE)与随机森林(random forest, RF)融合算法的大豆pre-microRNA预测模型。首先利用递归特征消除法筛选大豆pre-microRNA序列的最优特征子集;然后结合随机森林算法构建大豆pre-microRNA的预测模型;最后利用十折交叉验证法,将递归特征消除与随机森林(RFE-RF)融合模型的预测结果与单一随机森林和支持向量机分类模型的预测结果对比。研究结果表明:融合后构建的大豆pre-microRNA预测模型精度有明显提高,达到84.62%,相比于支持向量机算法(support vector machine, SVM)构建的模型精度提高了17.02%,相比于单独使用随机森林算法构建的模型精度提高了14.58%。该研究方法为大豆的pr...  相似文献   

3.
近年来,机器学习算法逐渐被运用到作物估产中,但现有研究仅对比不同方法的估产精度,很少分析估产的最佳时间。本研究基于随机森林算法,对2001-2013年河南省八个时间段的冬小麦遥感、土壤、气候数据进行训练并预测2014、2015年产量,对比实际产量确定最适合河南省小麦产量的训练时间段,探讨影响因子对产量预测的影响程度。结果表明:(1)随机森林算法适用于河南省冬小麦产量预测,能取得较好效果;(2)12-3月为河南省随机森林算法预测产量的最佳时间段,两年的r均达到0.8,且该算法在河南省更适用于短时间序列预测;(3)在影响因子中,月降水对模型精度的影响最大,月最高温度影响最小。  相似文献   

4.
大豆蛋白质是人类生活不可或缺的物质,对大豆蛋白质二级结构预测是能够准确预测蛋白质分子三维空间结构功能的关键步骤.将聚类分析、并行处理技术和遗传算法相结合,提出基于混合并行遗传箅法(HPGA)的蛋白质二级结构预测方法,充分考虑蛋白质序列两端氢基酸对中间氨基酸结构的影响,蛋白质疏水性对二级结构的影响.在整合、改进前人算法的基础上使得计算复杂度降低1个数量级,使得预测准确率达到74%左右.  相似文献   

5.
从大豆品种天隆1号的叶片中克隆Gm Nup96基因的c DNA序列,对其编码的氨基酸序列、蛋白质理化性质、一级结构、二级结构、亚细胞定位等进行了生物信息学分析。结果表明:Gm Nup96基因编码1 022个氨基酸,为具有一定亲水能力的酸性蛋白,不具有信号肽,相对分子量为116.199 7 k Da;二级结构预测结果显示,Gm Nup96序列存在α-螺旋(46.87%)、无规则卷曲(26.32%)、延伸链(17.03%)和β-转角(9.78%),并无其它二级结构;系统进化树分析表明,大豆Gm Nup96基因与野生大豆、芸豆、绿豆、红小豆之间的亲缘关系更近。  相似文献   

6.
为利用无人机航拍图像实现水稻叶绿素含量的高通量检测,以籼型三系杂交水稻品种兆优5431为材料,设置3个密度水平和5个施氮量水平,共15个处理,在水稻不同生育期通过大疆精灵4RTK无人机获取航拍图像和人工测定水稻叶片SPAD值,并选取7种与水稻叶片SPAD值显著相关的可见光植被指数,采用线性回归和机器学习方法构建了水稻叶片SPAD值反演模型,通过精度验证确定水稻叶片SPAD值最优预测模型。结果表明,机器学习模型中,随机森林模型精度均高于其他回归模型,该算法构建的模型具有较高的预测精度,其模型各项指标分别是建模集R2为0.85、RMSE为2.73,验证集R2为0.76、RMSE为3.64。因此,机器学习模型能为水稻叶片SPAD值进行无损、快速监测提供参考。  相似文献   

7.
为探索适用于冬小麦不同生育时期的高光谱估算方法,基于4年大田试验,以江苏省主要冬小麦品种为材料,以8种对常用生物量敏感的高光谱指数为基础,分别采用偏最小二乘算法、支持向量回归算法、随机森林算法在冬小麦4个主要生育时期(抽穗期前、抽穗期、开花期和灌浆期)进行了高光谱生物量估算和预测能力比较。结果表明,在冬小麦不同生育时期,高光谱估算生物量精度差异显著;利用随机森林构建的生物量估算模型在4个生育时期均表现出很好的效果,决定系数(r^2)和均方根误差(RMSE)在抽穗期前分别为0.79和44.82 g·m-2,在抽穗期分别为0.71和62.07 g·m-2,在开花期分别为0.70和97.63 g·m-2,在灌浆期分别为0.71和106.98 g·m-2;随机森林模型在4个生育时期的预测能力都高于或接近于支持向量回归模型,高于偏最小二乘回归模型,r^2和RMSE在抽穗期前分别为0.60和72.54 g·m-2,在抽穗期分别为0.60和75.07 g·m-2,在开花期分别为0.68和109.9 g·m-2,在灌浆期分别为0.61和127.93 g·m-2。这说明随机森林算法在冬小麦不同生育时期生物量高光谱遥感估算方面具有较高的精度和稳定性。  相似文献   

8.
大豆种子含油量高低和油脂合成途径密切相关,油脂合成途径复杂,涉及诸多蛋白和酶,为此对大豆油脂储存蛋白进行生物信息学分析。大豆全基因组数据下载于JGI数据库,生物数据库查询结合Perl程序处理获取大豆油脂储存基因和蛋白,在大豆基因组中确定1 264个与油脂合成相关的基因,其中23个基因与油脂储存有密切的联系。利用Protparam、SOPMA、Prot Comp、Signal P软件对23个基因的蛋白序列、蛋白基本理化性质及二级结构、亚细胞定位、信号肽等进行生物信息学分析。结果表明:23个油脂储存基因不均匀分布在12条染色体上;23个蛋白序列氨基酸数目为165~1 012个;等电点为5.90~10.03;外显子数目为5~16个;二级结构预测显示无规则卷曲和α-螺旋为主要构成成分;蛋白亚细胞定位主要位于内质网、质膜和胞外。用MEGA6软件内置的Clustal W程序对大豆中油脂储存基因的蛋白序列进行比对分析,采用邻接法(neighbor-joining,NJ)构建系统发育树,结果显示大豆油脂储存基因的亲缘关系和进化差异。  相似文献   

9.
通过隐马尔可夫模型从甘蓝型油菜基因组中获取1079条PPR家族蛋白序列,使用拟南芥PPR家族特征模型对其进行分类,同时进行聚类、染色体分布、亚细胞定位预测、功能注释等分析。结合不育系与恢复系分子标记筛选了定位于C09染色体的PPR基因GSBRNA2T00094406001(命名为Bn PPR_C09)为新疆野生油菜潜在育性调节基因。通过分子克隆的方法从新疆野生油菜不育系1193A和恢复系1193R中分别克隆获得了长度为2514bp的c DNA序列,序列分析显示来源于1193A的Bn PPR_C09基因(Bn PPR_C09b)相对源于1193R的Bn PPR_C09a在+1725 bp位置存在单碱基缺失,造成移码突变,二者预测蛋白的生物信息学分析显示Bn PPR_C09b蛋白的N端因为移码突变导致翻译过程在+1800位置终止,后续大量功能元件缺失,该位点的突变可能决定新疆野生油菜育性。  相似文献   

10.
为探究大范围小麦秸秆覆盖度(CRC)估测方法,以冬小麦秸秆为研究对象,基于Sentinel-2遥感卫星影像光谱指数、波段和纹理特征及其不同特征组合,利用灰色关联-随机森林(GRA-RF)敏感特征提取方法,结合高斯过程(GPR)、套索(LASSO)、岭回归(RR)和偏最小二乘(PLSR)等多种机器学习算法,开展小麦CRC估算的最优模型研究。结果表明,基于GRA-RF特征优选后的机器学习模型显著改善了小麦CRC的估算精度,LASSO算法总体对小麦CRC的估测效果最佳,并且针对不同的光谱特征组合表现出差异化的结果。其中,以光谱指数、波段和纹理信息构成的组合特征集构建的CRC遥感估算模型精度最优(r2=0.65,RMSE=9.25%),以波段与纹理两者组合特征估算的CRC精度次之(r2=0.63,RMSE=9.31%),仅利用单一的光谱指数、波段或者纹理特征估算冬小麦CRC的精度均劣于组合特征的结果。这说明应用GRA-RF组合筛选方法能够有效优选秸秆覆盖度的光谱特征;相比于单一特征,光谱指数、波段、纹理信息等构成的组合特征更能有效地监测小麦秸秆覆盖度...  相似文献   

11.
为探究大豆在大豆胞囊线虫(Heterodera glycines)胁迫下病程相关蛋白基因(GmPR)的表达情况,以大豆(Glycine max)感病品种辽豆15和抗病品种灰皮支黑豆为材料,通过实时荧光定量PCR和亚细胞定位,检测了大豆接种大豆胞囊线虫后,六种GmPR基因的表达水平,分析这些基因在抗病品种和感病品种中的表达情况,并且构建了融合表达载体以探究GmPR2和GmPR10在亚细胞水平的分布情况。结果表明,在抗病品种中,胞囊线虫强烈诱导GmPR2(β-1,3-葡聚糖酶基因)的表达,在线虫的侵染初期和发育期大幅度上调表达,在感病品种中表达量差异不显著,表明葡聚糖酶基因可能在大豆抗胞囊线虫中起到抗性作用;GmPR3和GmPR10在线虫发育期表达量达到最高值,表明这些基因可能与大豆抗胞囊线虫发育的调控有关。通过亚细胞定位研究,GmPR2主要分布于细胞膜,GmPR10主要分布于细胞质和细胞核,与预测结果相符。大豆胞囊线虫的侵染能够不同程度地提高病程相关蛋白基因转录水平,GmPR基因的表达特点表明其在大豆抗胞囊线虫过程中起不同的作用。  相似文献   

12.
玉米C4型PEPC蛋白的生物信息学分析   总被引:3,自引:1,他引:2  
利用生物信息学分析软件对GeneBank上注册的玉米C4型PEPC蛋白质序列进行氨基酸组成成分、功能域、二级结构、疏水性、亚细胞定位、导肽及进化树分析和预测.结果表明:玉米PEPC蛋白是等电点5.77的亲水性不稳定蛋白,包含一个CYTH保守结构域,定位于细胞质中,具有中央中间代谢功能,属于连接酶类.α螺旋和不规则卷曲是其蛋白质二级结构的主要结构元件,β折叠和伸展链散布其中;玉米PEPC与高粱、水稻等植物的PEPC亲缘关系较远,不属于同一分支.  相似文献   

13.
基于无人机多时相遥感影像的冬小麦产量估算   总被引:1,自引:0,他引:1  
为高效准确地预测小麦产量,以浙江省冬小麦为研究对象,利用四旋翼无人机精灵4多光谱相机获取冬小麦5个关键生育时期(拔节期、孕穗期、抽穗期、灌浆期、成熟期)的冠层多光谱数据,选取多光谱相机的五个特征波段计算各生育时期的72个植被指数,分别通过逐步多元线性回归(SMLR)、偏最小二乘回归(PLSR)、BP神经网络(BPNN)、支持向量机(SVM)、随机森林(RF)构建不同生育时期的产量估算模型,最后采用决定系数(R)、均方根误差(RMSE)和相对误差(RE)对估算模型进行评价,筛选出最优估算模型。结果表明,基于随机森林建立的模型估算效果最优,SMLR、PLSR和SVM三种方法建立的模型估算效果接近。利用随机森林算法所建拔节期、孕穗期、抽穗期、灌浆期、成熟期模型的R、RMSE和RE分别为0.92、0.35、11%;0.93、0.33、10%;0.94、0.32、9%;0.92、0.36、9%;0.77、0.67、33%。模型验证时,抽穗期估算效果最好(R、RMSE和RE分别为0.91、0.35和15%),拔节期、孕穗期、灌浆期估算效果接近且有很好的估算能力,成熟期估算精度最差(R、RMSE和RE分别为0.71、0.47和13%)。由此说明,结合机器学习算法和无人机多光谱提取的植被指数可以提高小麦产量估算效果。  相似文献   

14.
大豆转录因子GmNAC8在耐旱材料和敏感材料中明显差异表达,该基因CDS序列全长1 092bp,编码363个氨基酸残基。通过软件预测,蛋白质相对分子质量为41.82k D,等电点为8.51,其N-端含有42aa组成的NAC保守结构域,C-端高度变异。进化树分析表明,该蛋白与菜豆、红豆、绿豆同源关系最近。在洋葱表皮细胞中的亚细胞定位分析表明GmNAC8蛋白定位于细胞核。转录水平表达分析表明,GmNAC8基因在转基因株系叶中的表达量要明显高于根中的表达量;GmNAC8基因受0.1mmol/L IAA和ABA诱导表达量显著上升,受GA和SA抑制。GmNAC8基因在拟南芥中超量表达可以使拟南芥叶片更绿,耐旱能力增强。抗旱生理指标检测表明,在干旱处理10d后,转基因拟南芥叶中蛋白质含量、脯氨酸含量、POD活性均高于野生型拟南芥,丙二醛含量明显低于野生型拟南芥,仅为42%。本研究结果为进一步研究GmNAC8在植物耐旱反应中的分子机理奠定基础。  相似文献   

15.
利用生物信息学分析软件对GeneBank上注册的玉米C4型PEPC蛋白质序列进行氨基酸组成成分、功能域、二级结构、疏水性、亚细胞定位、导肽及进化树分析和预测。结果表明:玉米PEPC蛋白是等电点5.77的亲水性不稳定蛋白,包含一个CYTH保守结构域,定位于细胞质中,具有中央中间代谢功能,属于连接酶类。α螺旋和不规则卷曲是其蛋白质二级结构的主要结构元件,β折叠和伸展链散布其中;玉米PEPC与高粱、水稻等植物的PEPC亲缘关系较远,不属于同一分支。  相似文献   

16.
为了给培育具有广泛生态适应性的小麦品种提供参考依据,通过比对拟南芥自主开花基因(FLD基因)与小麦D基因组序列,获得小麦FLD基因的同源序列.分析结果表明,小麦TaFLD基因全长8 392 bp,具有3 087 bp完整ORF,编码1 028个氨基酸,亚细胞定位预测显示,其编码蛋白定位于细胞质.TaFLD基因功能预测表...  相似文献   

17.
叶绿素酶(Chlorophyllase,CLH)是叶绿素降解过程中的关键酶,将叶绿素a脱去植醇,形成脱植基叶绿素a。以白化茶树白鸡冠新梢叶片为材料,克隆获得3条CsCLHs基因cDNA全长序列,并进行生物信息学分析。结果表明,3条CsCLHs基因分布于2个亚家族,其蛋白质编码区(Coding sequence,CDs)长度为894~975 bp,编码氨基酸个数为297~324,蛋白质分子量为31.99~34.91 kDa,等电点为4.89~7.61,不稳定系数为38.94~48.24,其中CsCLH1.1和CsCLH1.2为不稳定蛋白,CsCLH2为稳定蛋白。Cell-PLoc亚细胞定位预测结果表明,3个CsCLHs蛋白均定位于叶绿体;而WolfPsort亚细胞定位预测结果显示,CsCLH1.1和CsCLH1.2定位于细胞质,CsCLH2定位于叶绿体。遮阴和恢复光照处理下的qRT-PCR结果显示,遮阴抑制白鸡冠叶片CsCLHs的表达,光照诱导白鸡冠叶片CsCLHs的表达。不同品种中CsCLHs表达模式分析表明,CsCLH1s在白化叶中高表达。另外,酵母单杂交结果表明,CsCDF5可以与CsCLH1.1CsCLH2启动子结合。综上所述,CsCLHs在白化茶树叶片中可能参与叶绿素降解,在叶片白化过程中发挥重要作用,结果可为进一步探究茶树CLH基因家族的功能及茶树叶片白化机理提供参考。  相似文献   

18.
国内大豆价格受到多重因素影响,如大豆进口量、国内大豆供给量、中国居民消费价格指数等,因此呈现非线性等特点。大豆价格的剧烈波动会对农户的种植结构和国家政策产生影响,因此准确预测大豆价格具有重要意义。支持向量回归(SVR)因其优越的寻优能力和较高的预测精确度而被广泛应用于非线性时间序列回归中。本文提出一种自适应粒子群算法(APSO)优化的SVR模型来预测我国大豆价格,该模型通过将现实空间内的数据映射到高维空间内,在高维空间内构造线性回归函数,从而判别原有空间内数据之间的关系。在SVR模型参数优化时,由于粒子群算法易陷入局部最优解,因此采用惯性权重更新和适应度变异的粒子群算法(APSO)对预测模型参数进行优化。采用2009年1月-2016年12月的国内大豆价格月度数据进行预测,结果表明APSO优化的SVR模型在大豆价格预测中精度较高,且能准确反应大豆价格的未来趋势,为从事大豆种植者及经营者提供决策依据。  相似文献   

19.
以拟南芥的端粒重复序列(TR)为引物(TTTAGGG)3,在栽培大豆中扩增并克隆了1个574 bp的DNA片段.序列分析表明:该片段与大豆端粒相关序列的相似度高达92%~99%,与白玉草TR-TAS的间隔区的相似度为79%,与大麦和玉米等其它植物的TAS的相似度在16%~35%之间;这一片段含有14个拷贝的拟南芥类型端粒重复单元,并且还有30个重复单元发生了碱基突变(缺失、替换与插入).该端粒相关序列具有1个25 bp的保守重复单元,串联重复13个拷贝,且该序列的A+T含量高于60%,体现了卫星DNA的特征.该序列被定位在大豆3号染色体的近末端.  相似文献   

20.
本实验室通过疫霉菌诱导大豆绥农10号后,获得差异表达蛋白点,通过序列拼接比对和分析,获得一个新的大豆GmDRR基因,并通过酵母双杂筛选文库的方式获得其互作基因GmDIP1。为进一步明确两个基因关系,对两个基因分别进行亚细胞定位和原核表达以及重组蛋白的纯化。GmDRR蛋白为外分泌蛋白,定位于细胞膜与细胞质中,GmDIP1基因定位于线粒体膜上,二者都成功进行了原核表达,从而获得了有表达功能和生物学活性的蛋白。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号