共查询到20条相似文献,搜索用时 312 毫秒
1.
在互联网技术日益发展的今天,如何快速对海量的文本进行归类是数据挖掘的一项重要课题。提出了一种改进型的文本聚类算法,计算句子相似度时综合考虑基于词频统计的特征向量表示法和关键词之间的关系,减少了相似度对于输入次序和频数的敏感度,有效地提高了计算小文档和简单句子相似度的准确度和文本聚类结果的准确率、召回率。 相似文献
2.
模糊聚类计算方法的理论分析 总被引:21,自引:0,他引:21
分析了聚类分析4种原始数据规格化处理的数据特征,提出最大值规格化与均值规格化,由于能保持不同指标的原分辨力,是较好的方法。将常用的相似性度量方法分为绝对差数、相对差数、比例相似性3种类型。论证了基于模糊等价关系的模糊聚类法就是经典系统聚类的最短距离法,模糊系统聚类仅是一般系统聚类法的特例。 相似文献
3.
4.
本文对有人采用的模糊聚类的一种算法给出了一个反例。并说明这种方法的采用是有条件的。 相似文献
5.
周宝焜 《福建农林大学学报(自然科学版)》1990,(4)
农村能源区划是一种多因素的综合分析.本文采用模糊聚类分析并在分析中引入加权系数,使得农村能源区划更为客观、科学.区划结果经专家论证符合平潭县的实际情况,并为能源建设提供科学依据. 相似文献
6.
作物种质资源核心种质研究及其应用 总被引:4,自引:0,他引:4
核心种质是目前作物种质资源研究领域中的热点之一。综述目前国内外核心种质研究的现状及进展,并就核心种质构建中的有关问题及核心种质的应用前景作进一步的探讨。 相似文献
7.
针对信息挖掘中的文本自动聚类问题,提出了一种基于模糊向量空间模型的核聚类算法。首先对聚类文本进行模糊特征提取得到模糊特征项集,然后依据模糊特征项集对每篇文本计算特征项的文档频数,进而得出每篇文本的模糊特征向量。最后利用高斯核函数将每篇文本的特征向量映射到高维特征空间,在高维特征空间中利用核聚类算法实施文本聚类。该方法在特征提取时充分考虑了特征项在文档中的位置信息,使自动聚类原则更接近手工聚类方法。以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性。 相似文献
8.
模糊聚类计算方法的理论分析 总被引:5,自引:0,他引:5
分析了聚类分析4种原始数据规格化处理的数据特征,提出最大值规格化与均值规格化,由于能保持不同指标的原分辨力,是较好的方法。将常用的相似性度量方法分为绝对差数、相对差数、比例相似性3种类型。论证了基于模糊等价关系的模糊聚类法就是经典系统聚类的最短距离法,模糊系统聚类仅是一般系统聚类法的特例。 相似文献
9.
10.
加权空间模糊动态聚类算法在土壤肥力评价中的应用 总被引:7,自引:0,他引:7
【目的】改进和提高空间模糊聚类算法。【方法】首先利用层次分析法得到各属性的权值,然后将权值与空间模糊动态聚类法相结合,最后利用概率统计中的F分布来确定最佳分类,以提高空间模糊聚类算法的智能性。【结果】加权空间模糊动态聚类算法与基于模糊等价关系的传递闭包方法进行比较表明,当λ取0.993时,F值最大,分类效果最好。此时,加权的F值为4.898,未加权的F值为2.957,说明加权的类间的差距比未加权的明显,即该算法聚类准确率要明显高于未加权的模糊聚类算法。【结论】将其改进的算法运用到精准农业的土壤肥力评价中,试验结果与实际情况相符,证明了该算法的有效性。 相似文献
11.
12.
构建核心种质可大幅提高种质资源利用效率。以410份甜椒种质资源为材料,基于8个性状表型数据,采用混合线性模型分析方法无偏地预测基因型值,利用马氏距离计算种质间遗传距离,分别采用两种聚类方法(最短距离法和类平均法)和两种取样方法(随机取样法和偏离度取样法),按照25%抽样比率构建甜椒核心种质库。采用均值、方差、极差和变异系数4个指标评价不同取样和聚类构建核心种质库水平。结果表明,最短距离法能极显著增加性状方差和变异系数,明显优于类平均法;偏离度取样法优于随机取样法;基于马氏距离、最短距离法和偏离度取样方法获取的102份甜椒核心种质资源能代表原群体遗传多样性。该研究可为甜椒种质资源有利基因发掘和新品种选育奠定基础。 相似文献
13.
基于模糊聚类的泰宁各乡镇旅游资源评价 总被引:1,自引:0,他引:1
对泰宁县11个乡镇旅游资源进行模糊聚类.当λ=0.031时,分类效果特别显著.结果表明:新桥乡、下渠乡、开善乡及龙安乡聚为Ⅰ区;上青乡、龙湖镇、大田乡和大布乡聚为Ⅱ区;朱口乡为Ⅲ区;杉城镇为Ⅳ区;梅口乡为Ⅴ区.基于模糊聚类结果用模糊综合评价法对旅游资源进行分区评价.结果表明:(1)Ⅳ-Ⅴ区的总体评价结果具有明显优势,旅游资源质量高,区位、交通条件、经济条件和心理条件比其它乡镇更成熟,但清洁性、生物多样性和生态旅游环境承载力指标得分低于Ⅰ-Ⅲ区;(2)Ⅱ、Ⅴ区的资源影响力、保护工程和保健性指标优于Ⅰ、Ⅲ-Ⅳ区;(3)Ⅲ、Ⅴ区的和谐性和生态环境指标优于Ⅰ-Ⅱ、Ⅳ区. 相似文献
14.
陆地棉核心种质表型性状遗传多样性分析及综合评价 总被引:5,自引:3,他引:5
【目的】分析陆地棉核心种质的遗传多样性和表型性状遗传变异规律,并探讨核心种质的综合评价方法。【方法】利用17个表型性状数据分析419份陆地棉核心种质的遗传多样性。用Shannon-weaver信息多样性指数计算表型性状的遗传多样性,用Nei’s 1973法计算表型性状遗传距离,并使用NTSYS-pc 2.20q软件对核心种质进行聚类分析;用SAS9.2对表型性状数据进行最佳线性无偏估计(BLUE),然后根据最佳线性无偏估计值计算出表型性状的最佳值。同时,结合主成分、回归和相关分析,研究核心种质的综合评价指标和方法。【结果】核心种质表型性状分析发现,单株铃数、单铃重、衣分、子指等性状的变异系数均较大,变异系数超过10%。而断裂比强度、马克隆值以及上半部平均长度的变异程度较小,变异系数均在10%以下。方差分析发现,各表型性状地点间、年份间、地点和年份间、品种间均有极显著差异;不同地理来源的种质表型性状差异较大,长江流域地理来源的种质生育期、伸长率、上半部平均长度、衣分等性状均高于其他的地理来源,西北内陆地理来源的种质纤维强度,单铃重、整齐度指数、株高、纺纱均匀性指数等综合性状最好,美国种质的产量和纤维品质的性状优于其他国家的总和。表型性状的遗传多样性指数范围为0.351—3.796,平均为1.715。分析不同地理来源种质的遗传多样性,发现黄河流域的遗传多样性和遗传丰富度最高,中国南部区域最低。类群聚类结果发现陆地棉整体分散,没有比较明显的类群关系,部分具有相似特点的种质聚类13个组群。核心种质综合评价表明在累计贡献百分比高于85%时,共发现7个主成分,陆地棉核心种质的表型性状综合值(F值)平均为1.740,来自澳大利亚的N74-250F值最高(2.302),辽阳绿绒棉的F值最低(0.624)。对17个表型性状与F值的相关分析,发现除马克隆值、子指和黄度外,单铃重、衣分、断裂比强度、上半部纤维长度等14个表型性状与F值间的相关性具有极显著差异,最后构建了以吐絮期、单铃重、伸长率、花期、马克隆值、株高、果枝数、纺纱均匀性指数8个表型性状为自变量的回归方程,综合评价核心种质资源。【结论】中国保存的陆地棉核心种质具有较为丰富的遗传多样性,不同地理来源遗传变异有较大的差异,不同生态区的核心种质具有独特的性状特性。 相似文献
15.
核心种质有效地提高了种质资源的利用效率。试验从1 142份大麦选育品种(系)中筛选出118份种质构建了核心种质库,占总体资源的10.33%。利用χ2测验检测了核心种质与全部种质农艺性状分布频率的一致性,除了芒形、穗和芒色以及粒色有极显著性差异,其他性状均无显著性差异。对两者数量性状的平均值进行了t测验,方差进行了F测验,两者的株高、穗粒数和千粒重3个数量性状均无显著性差异。所构建的大麦选育品种(系)核心种质可以作为全部种质的代表样本。两者变异系数以及Shannon-weaver和Simpson遗传多样性指数的比较表明核心种质的个体间具有更大的变异程度和遗传多样性。 相似文献
16.
用光学显微镜和扫描电子显微镜对31个茶树品种(系)的花粉形态进行研究,并以14个花粉形态性状进行模糊聚类分析,结果表明:茶树花粉粒为中粒或大粒,多为长球形、三孔沟,内孔大、横长,赤道面观多为网状或拟网状纹饰,网眼和网脊大小、形状有一定差异,但品种(系)间花粉形态的变异程度较小.31个茶树品种(系)经聚类被分成六个组,基本上以原产地相近的品种(系)聚在一起,从相似性系数的大小可见茶树品种(系)间的亲缘关系之密切程度. 相似文献
17.
基于SSR标记构建西南玉米地方品种核心种质的方法 总被引:3,自引:0,他引:3
结合地方品种的地理起源和种质特性,以17%的抽样率选取玉米核心品种,用SSR分子标记技术对54个玉米地方品种进行遗传聚类,研究中国西南地区玉米地方品种核心种质的构建方法.结果表明,由9个核心品种构成的核心种质较好地保持了原玉米地方品种群体的遗传变异,42对SSR引物在原玉米地方品种群体和核心种质中分别检测到268、256个等位基因,平均多态信息量分别为0.76和0.73,其评价参数平均数百分率、方差百分率和变异系数可变率分别为10%、10%、83.5%,表明构建的核心种质能较好地代表原种质资源群体. 相似文献
18.
模块结构是复杂网络重要拓扑属性之一。多数模块聚类算法将网络分割为彼此无重叠、不关联的孤立团,同时很少有方法兼具模糊聚类与聚类后分析能力。针对复杂网络交叠团的聚类与模糊分析方法设计问题,给出一种新的模糊度量及相应的模糊聚类方法,并以新度量为基础,设计出两种挖掘网络模糊拓扑特征的新指标:团间连接紧密程度和模糊点对交叠团的连接贡献度,将其用于网络交叠模块拓扑结构宏观分析和团间关键点提取。实验结果表明,使用该聚类与分析方法不仅可以获得模糊团结构,而且能够揭示出新的网络特征,该方法为复杂网络聚类后分析提供了新的视角。 相似文献
19.
以云南稻核心种质和云南主栽籼稻品种滇屯502、粳稻品种合系35配制的杂种BC1F3(448份)和亲本为材料,在昆明地区生态条件下,对供体亲本及其杂种BC1F3世代的形态性状遗传多样性进行分析.结果表明:1) 供体亲本的11个数量性状的平均值、标准差、变异系数等与回交后代差异明显.回交使其后代的性状逐渐趋于轮回亲本,变异系数呈下降趋势,籼粳基本一致.2) 供体亲本及其杂种BC1F3的11个形态性状Shannon-weaver遗传多样性指数的t测验表明,除剑叶宽和1~2节长外,亲本与后代其他性状差异不显著,并具有丰富的形态多样性,籼粳一致.3) 主成分分析表明,株高、剑叶长、穗颈长、穗下节长、1~1节长、穗长、实粒数、秕粒数和结实率等9个性状是解释云南地方稻种和杂种后代多样性的重要依据. 相似文献
20.
比较了1 035份陕西大豆种质与从中选出的102份初选核心种质间15个农艺性状的差异,检验了初选核心种质的代表性。结果表明,初选核心种质的生育类型、种皮色、生长习性等15个农艺性状表型频率和生育期、百粒重、株高等5个数量性状的平均数、标准差、变异系数等指标与总体资源基本一致;初选核心种质15个农艺性状的Shannon-w eaver和S im pson遗传多样性指数与总体资源差异不显著。表明初选核心种质能够代表全部资源的遗传多样性。 相似文献