文档的相似性和分类
文档的相似性和分类
如何求文档相似性?
如何对文档分类?
对一个文档,去掉其中的一些停用词后,求出TF.IDF比较高的词。IDF为文档的总数与该词所出现文档数比值的对数,其反映了一个词刻画的文档的专业度。专业度越高,与专业相关的文档数目越少。
如何求文档相似性?
如何对文档分类?
对一个文档,去掉其中的一些停用词后,求出TF.IDF比较高的词。IDF为文档的总数与该词所出现文档数比值的对数,其反映了一个词刻画的文档的专业度。专业度越高,与专业相关的文档数目越少。
评论暂时关闭