计算机工程
季铎, 常利伟, 蔡东风
潜在语义标引是一项无监督的特征抽取技术, 并且其有效性在信息检索等多个研究领域得到证明。由于该技术的特征抽取效果完全依赖于数据的特征分布, 因此对数据的优化能够较好改善技术的有效性。提出了一种潜在语义标引的优化技术-增广空间模型, 同时提出了基于文档长度和特征DF分布状态的数据分割策略, 该策略的提出能够使子空间尽可能继承原始空间的良好结构。实验证明合理的子空间分割策略, 不但保证了正确率, 同时极大地缩短了算法的运行时间。最后, 采用增广空间模型, 将不同子空间进行融合, 并获得较好的性能。在分类实验中分类正确率已达85.92%。