一种基于潜在语义结构的文本分类模型 摘要:潜在语义索引(LSI)模型,是一种已经成功地应用于文本分类等很多领域的算法。LSI模型能在一定程度上解决一词多义和多词一义问题,并能过滤一部分文档噪音。然而在LSI模型中,对稀有类别很重要的分类特征,可能因为在整个文档集中不重要而被滤掉。针对这一问题,本文提出了一种新颖的扩展LSI模型的文本分类模型。新模型在尽量保留文档信息的同时,增加考虑了文档的类别信息。这样,新模型将能比LSI模型更好地表示原始文档空间中的潜在语义结构。在实验中,本分类模型也表现出了非常好的分类性能。 关键词:文本分类 潜在语义索引 偏最小二乘分析。 |
查看评论
已有0位网友发表了看法