SEO人员在获取到大量关键词后,首先要对这些词进行处理,在实际工作中,百度关键词推广总结以下几个项目,做过或者觉得有必要做的事情:提取实体(通俗点讲就是找关键词中的重点词)、去重、受控词表、分类。
1、提取实体
提取实体的概念就是找关键词中的重点词。比如“北京温泉哪里好”,那这个词中的“北京”和“温泉”这两个词是重点,“哪里好”只是一个疑问词,对主题描述帮助相对比较小。于是我们就需要通过一些技术手段,对关键词进行处理,把中间重要的关键词(实体)取出来。
先看看下面的关键词。
(1)处理前
北京博物馆大全 北京怀北滑雪场 杭州到北京动车 北京金山岭长城 北京旅行社排名 北京冬天去哪玩 西安到北京高铁 厦门到北京机票
(2)处理后
北京|博物馆 北京|怀北|滑雪场 杭州|北京|动车 北京|金山岭|长城 北京|温泉 北京|旅行社|排名 北京|冬天|玩 西安|北京|高铁 厦门|北京|机票
可以仔细观察一下两者的不同。这里算法有很多种实现方法,从SEO的角度出发,我们对精确度和召回率的要求,一般都比较低。从0%到80%要花费的心思,可能还没有从80%-100%要花费的心思多。并几不同行业会有略微不同的做法。于是百度关键词推广采取以下两个方法:
(1)根据词性删除停词符号(多删一些不要紧)。
(2)根据TF-IDF过滤高频词(什么是TF-IDF请自行脑补)。
说说分词算法,很多学术派研究了一大堆中文分词算法,但实际运用起来差别很小。推荐几个,根据自己会的语言使用。分词也是一门大学问,有兴趣可以网上看看CRF, HMM等模型的逻辑,这里就不展开讲了。
分词关键的问题是要速度快,并且可以自定义词库。由于我用的是JIEBA,这方面都能支持。分词后根据词性,排除掉“停词”,就获取到了我们想要的结果集合。过滤高频词。JIEBA可以对整个文本提取TF-IDF值高的词。这些词是核心,肯定不可去掉。
然后根据分词结果获取到TF-IDF值高的词,进行人工审核一下,以旅游行业词库为例,地名是经常出现的词,TF-IDF值可能会非常高,但是绝对不能去掉。所以我们需要先准备一份中国地名/景点名词库,可以在网上搜索一下,“懒人”可以直接用搜狗输入法的词库。
然后高频词中还有可能会出现的词,可能为“7月”、“8月”、“大全”、“线路”等。这些词也可以考虑从实体词中踢除。经过这几轮检查,基本就差不多了,再要精度可以再自行研究。肯定有人问,你折腾了这么久,有什么用?这里只能点到为止。
(1)内容关联
(2)自动tagging
(3)提高站内检索精度
从2016年到2017年搜房和安居客的SEO可以体会一下。
2、去重
提取实体后,就可以对关键词进行去重。
例如:海南旅游多少钱 海南旅游要多少钱
处理后:海南|旅游 海南|旅游
下面就可以进行去重了。上面这两个词,还可以通过实体相同的方法来解决。但是有一些关键词,比如“马尔代夫”和“马代”,“长城”和“八达岭”,用户是指一个地方,我们应该怎么处理这些词呢?就需要下面这个“受控词表”。
3、受控词表
受控词表是一种控制词汇含义并且跟踪其相关词的方法。回到上面的例子,你搜索“八达岭”的时候,如果不能把“长城”的内容展现出来,相信用户早就跑光了。受控词表主要有如下三大关系:等价、层级、关联
(1)等价很好理解,比如马尔代夫和马代是等价关系,这类词可以说就是一个意思,权值是最高的,在内容推荐中一定要呈现出来。
(2)层级有上下级之分,比如“夫子庙”是“南京景点大全”的下级词,“大成殿”又是“夫子庙”的下级词。在实际应用的时候,当用户在寻找“大成殿”时,网站可以告诉用户位于“夫子庙”中间,并且推荐夫子庙周围还有些什么好玩的东西,用户一定会非常喜欢。层级关系也是大部分网站都有的信息架构体系,从首页到目录,再到栏目。
文章评论 本文章有个评论