许久之前就有关注到TF-IDF的相关介绍,大部分的讲解都是围绕概念来讲,很多人把TF-IDF称作“算法”,笔者通读了很多文章,甚至在自己的网站进行了运用。鉴于很多朋友说涉及到太多公式,不容易理解,本文用简单的实例说明,谈谈我对TF-IDF的一些见解,不讲复杂的公式,希望能帮助到各位!
首先,TF词频的概念与SEO建议
TF是指词频,查询的关键词在文档中出现的次数统计。相关文档是这样介绍的,假设查询关键词在同一个文档中出现的次数越多,代表这个关键词越重要,越能代表文档的主题意思,文章主题与关键词意思越接近,那么做SEO如何运用这个知识点呢?
假设有一篇文章的标题是:“SEO服务外包”,从字面上理解,文章主要是以SEO服务为核心,“外包”为拓展词。假设文章内容里SEO服务出现20次,服务出现25次,外包出现10次,按照TF词频的规则,那么SEO服务是文章主题,这个很好理解。
实际上有些时候写文章时,在意思很明确的情况下,会省略主词。比如SEO服务外包价格、SEO服务外包流程、SEO服务外包公司介绍,会缩写成:外包价格、外包流程、外包公司介绍。这样会导致外包出现的次数大于服务,TF词频则会认为外包是主题,出现错误的判断。
那既然是这样,做SEO关键词布局的时候,应该要适当考虑主关键词的出现频率大于副词。当然搜索引擎判断网页主题有很多维度,这里只是单从TF词频的角度考虑,个人认为这样做会缩短搜索引擎判断网页主题的时间,对SEO来说是有利的。
第二、如何快速理解“IDF逆文档频率”
这个概念如果看文档的话有点难理解,当初笔者看百度百科好几次才明白。涉及到复杂的公式在这里就不讲,结合TF一起来理解,TF-IDF的意思是,一篇文章中某关键词出现的次数越多,且在搜索引擎的资料库中包含该关键词文档数越少,则说明这个关键词越能代表此网页的主题。
举个例子来说明,假设有一篇文章,有两个关键词:“SEO优化”和“SEO服务”,在文章中,这两个关键词出现的资料都是20次,但是在百度的资料库中,包含SEO优化的文档总共有一千万个,包含SEO服务的文档有五百万个,那么则说明,SEO服务越能代表这文章的意思。或者搜索引擎资料库中包含关键词的文档数量一样,文章中出现次数越多的关键词越能代表网页主题。
从SEO的层面讲,IDF这个值是客观存在的,不必去深究,只要明白不同关键词之间的文档数多少就行,以百度为例,搜索任何一个关键词,在搜索框下面会有一个:“百度为您找到相关结果约XXX个”的这样句子,里面的数值可以作为文档数参考。每个搜索引擎的包含关键词的文档数可能不一样,但是整体的相对比例值应该是差不多的。而且随着时间的推移,文档数也会不断发生改变。
关于TF-IDF相似度计算规则的讲解,就分享到这里,个人愚见,不足之处欢迎拍砖。
文章评论 本文章有个评论