服务热线:

0791-88196636

南昌网络营销推广一站式服务平台,莫非传媒官网

|  让天下没有难做的互联网+

【网站设计】网站布局之TF-IDF算法
 二维码 168192
发表时间:2013-08-22 10:39作者:南昌网站设计网址:http://www.mofeimedia.com/

【网站设计】网站布局之TF-IDF算法。

说白了在我理解来,这个算法就是通过一个的数学计算,来确定每个词在文章中的权重,从而得到一篇文章的关于词的带权重的向量,知道了这个以后就好办了,之后什么文章关键字提取、概述、不同的文章之前的相似性比较都引刃而解了。

求一个词的权重就用到TF-IDF算法,其实TF-IDF算法是分为TF(Term Frequency,缩写为TF)与IDF(Inverse Document Frequency,缩写为IDF)的计算。

说起来也简单,TF就是这个词在文章中的词频,出现的次数比上文章的总次数或者出现次数高的词的个数。而IDF则是表示TF-IDF算法分母上加一是为了防止分母为零。

这个数学的表达式也符合情理,如果关键字(除去“的”、“为了”之类的去除字)在越多的文档中出现,它在本篇文章中的权重自然就低了,举个简单的例子:给你一个关键字计算机,你一点也不知道这货表达的意思,因为(从这个算法角度讲)它在太多的文章中出现,但是如果你的关键字为0day就不一样了,包含它的文档数远远小于包含关键字“计算机”的文档数。由此,如果在同一篇文章里,如果“0day”与“计算机”的TF(词频)相同,IDF就可以保证“0day”的权重较高了。

基本的算法就是这样了,其实很简单,但是这个算法是基于这样一个前提,关键词越重要,出现的频率越高。同时忽略了词出现位置的影响,所以这个算法存在漏洞。

咨询我们领先同行一步
在这个好的时代,做快捷的生意获精准客户,时刻快人一步!
_______________________________________________________________________________________________________________________________________________________
服务热线:0791-88196636
南昌莫非传媒 - 自创立之初就本着“品牌创造价值、营销铸就
未来的服务发展理念,始终坚持诚信为本、客户至上、有效
服务的原则,致力于为每一个企业客户提供系统完整的网络营
销推广解决方案,让天下没有难做的互联网+
国内外知名品牌,上市企业/大中小型企业,初创企业,行业龙头企业
他们皆选择了我们的产品(26526家企业的信赖)
地址:江西省南昌市西湖区洪城路6号国贸广场A座巨豪峰
服务热线: 0791-88196636            
邮箱  :  2401077293@qq.com
业务QQ  :  272482065                    售后QQ : 2401077293      
业务电话 :  13576039948
机站预览
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|