文本特征选择
转载:http://www.cnblogs.com/fengfenggirl/p/text_feature_selection.html 在做文本挖掘,特别是有监督的学习时,常常需要从文本中提取特征,提取出对学习有价值的分类,而不是把所有的词都用上,因此一些词对分类的作用不大,比如“的、是、在、了”等停用词。这里介绍两种常用的特征选择方法: 互信息 一个常用的方法是计算文档中的词项t与文档类别c的互信息MI,MI度量的是词的存在与否给类别c带来的信息量,互信息的基本定义如下: 应用到文本特征选择:
U、C都是二值随机变量,当文档包含词项t时,U的取值为
其中
举例:路透社的语料库Retuters-RCV1的一个类别poultry及词项export。类别和词项的四种组合的文档数如下:
计算类别poultry和词export之间的类别的互信息为:
我们可以对每一个类计算各个词项与其的互信息,并选取值最大的k个词项,当然有可能两个类会选取相同的特征词,去重一下即可。 互信息度量的是词项是否被类别包含所带来的信息量,如果某个词项均匀的分布在各个类别,那么
在统计学中,
依然是前面的类别poultry及词项export的例子,我们有
其他的类似计算,得到:
查卡方的分布表,置信度为0.999的卡方临界值是10.83,也就是当卡方值
卡方是基于显著统计性来选择特征的,因此他会比MI选出更多的罕见词项,而这些词项对分类并不靠谱。 虽然卡方和互信息的出发点不同,但它们的准确性却相差不多,因为大部分文本分类问题中,只有很少的强特征,大部分都是弱特征。只要所有的强特征和很多弱特征被选出,那么分类的准确率就不会低。 另外上面介绍的两种特征选择主要用于文本的分类等用监督学习,而不适宜聚类等无监督学习,因为聚类我们不知道每篇文档属于的类别,也就无从计算互信息和卡方值,这时一般使用TF-IDF作为特征词的选取方法,关于TF-IDF可以参看阮一峰的日志,这里不做总结。 ? 本文内容主要来自:《Introduction to Information Retrieval》 ? ? ?转载请注明出处:http://www.cnblogs.com/fengfenggirl/ (编辑:威海站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |