摘 要: | 企业财务数据在空间分布上具有一定的不规则性,导致对重复数据剔除的完整性较低,为此,提出基于Hough变换的企业财务重复数据批量剔除方法。首先,采用Hough变换对企业财务数据进行预处理,将累加器单元所有直线形成的峰值作为数据理想的期望值,根据期望变换结果区分在Hough变换下数据的位置变化幅值,沿原始数据空间分布实现对数据的划分。考虑到企业财务数据对应空间直线的边缘即为直线形成的累加器单元形状,因此对沿着正弦曲线法线方向的累加值进行增强处理,得到放大后的峰值信息。之后,采用ASCA实现对重复数据的筛选,用二分极值法将距离Hough变换后峰值最远的位置作为聚类中心,将DBI指数完全一致的数据聚类,保留聚类中的唯一数据,其余进行批量删除,完成操作后计算新的聚类中心,重复计算直至峰值累加器单元的财务数据处于均匀分布状态。测试结果表明,设计方法空间缩减率可达到91.0%,删除数据的准确性可达到96.12%,实现了对重复数据的较完整剔除。
|