tfidf 文本相似度,TF-IDF模型
TF_IDF模型和文本相似度的计算-icelovely的专栏-博客频道-CSDN。网
TF_IDF模型与文本相似度计算
分类:
文本检索
2012-04-08 15:47
90人阅读
评论(0)
收集
TF-IDF(词频-逆文档频率)是信息检索和文本挖掘中常用的加权技术。TF-IDF是一种统计方法,用于评估一个单词对文档集合或语料库中的一个文档的重要性。单词的重要性与它在文档中出现的次数成正比,但同时与它在语料库中出现的频率成反比。搜索引擎经常使用各种形式的TF-IDF权重作为文件和用户查询之间相关性的度量或评级。除了TF-IDF,互联网上的搜索引擎也使用基于链接分析的评级方法来确定文档在搜索结果中出现的顺序。
在给定文档中,词频(TF)是指给定单词在文档中出现的次数。这个数字通常是规范化的,以防止它偏向长文件。(同一个词在长文档中的词频可能比在短文档中的词频高,无论其重要性如何。)对于特定文档中的单词ti,其重要性可以表示为:
在上面的公式中,ni,j是单词在文件dj中出现的次数,偏母是所有单词在文件dj中出现的次数之和。
逆文档频率(IDF)是对单词的普遍重要性的度量。特定单词的IDF可以通过将文件总数除以包含该单词的文件数,然后取所得商的对数来获得:
在…之中
D:语料库中的文件总数:
包含单词ti的文件的数量(即
文件数量)那么
特定文件中的高频词和整个文件集中的低频词可以产生高权重的TF-IDF。所以TF-IDF倾向于过滤掉常用词,保留重要词。
============文本相似性度量===================
方法1:向量空间模型
在向量空间模型中,文本一般指各种机器可读的记录。以D(文档)为表达式,术语(t)是能够表示文档D内容的基本语言单位,主要由词或短语组成。文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk为特征项,1=k=N n例如,一个文档有四个特征项A,B,C,D,那么这个文档可以表示为D(a,B,C,D)。对于有n个特征项的文本,通常给每个特征项赋予一定的权重来表示其重要性。即d=d (t1,w1;T2,W2;…,Tn,Wn),缩写为D=D (W1,W2,…,Wn),我们称之为文本的向量表示法D .其中Wk为
Tk的重量,1=k=N.在上面的例子中,假设A、B、C和D的权重分别为30、20、20和10,则该文本的向量表示为D(30、20、20和10)。在向量空间模型中,两个文本D1和D2之间的内容相关度Sim(D1,D2)通常用向量之间角度的余弦来表示,公式为:
其中W1k和W2k分别表示文本D1和D2的第k个特征项的权重,1=k=N ^ N.
在自动分类中,我们可以使用类似的方法来计算待分类文档与某个类别的相关度。例如,如果文本D1的特征项为A,B,C,D,权重分别为30,20,20,10,类别C1的特征项为A,C,D,E,权重分别为40,30,20,10,那么D1的向量表示为D1 (30,20,20,10,0)。
方法2: levenshtein
计算图像串相似度的算法有很多,如最大公共串、编辑距离等。
距离用于计算从原始字符串(S)转换到目标字符串(T)所需的插入、删除和替换的最小数量。它在自然语言处理中有着广泛的应用,如一些评价方法(wer,mWer等。),它也常用于计算您对原文所做的修改次数。编辑距离的算法最早是由俄罗斯科学家列文斯坦提出的,所以也叫列文斯坦距离。