Loading
0

【百度关键词推广】SEO如何快速整理维护挖掘关键词词库?

技术小学生微信公众号
腾讯云服务器大促销。
华为服务器

SEO人员在获取到大量关键词后,首先要对这些词进行处理,在实际工作中,百度关键词推广总结以下几个项目,做过或者觉得有必要做的事情:提取实体(通俗点讲就是找关键词中的重点词)、去重、受控词表、分类。

1、提取实体

提取实体的概念就是找关键词中的重点词。比如“北京温泉哪里好”,那这个词中的“北京”和“温泉”这两个词是重点,“哪里好”只是一个疑问词,对主题描述帮助相对比较小。于是我们就需要通过一些技术手段,对关键词进行处理,把中间重要的关键词(实体)取出来。

先看看下面的关键词。

(1)处理前

北京博物馆大全 北京怀北滑雪场 杭州到北京动车 北京金山岭长城 北京旅行社排名 北京冬天去哪玩 西安到北京高铁 厦门到北京机票

(2)处理后

北京|博物馆 北京|怀北|滑雪场 杭州|北京|动车 北京|金山岭|长城 北京|温泉 北京|旅行社|排名 北京|冬天|玩 西安|北京|高铁 厦门|北京|机票

可以仔细观察一下两者的不同。这里算法有很多种实现方法,从SEO的角度出发,我们对精确度和召回率的要求,一般都比较低。从0%到80%要花费的心思,可能还没有从80%-100%要花费的心思多。并几不同行业会有略微不同的做法。于是百度关键词推广采取以下两个方法:

(1)根据词性删除停词符号(多删一些不要紧)。

(2)根据TF-IDF过滤高频词(什么是TF-IDF请自行脑补)。

说说分词算法,很多学术派研究了一大堆中文分词算法,但实际运用起来差别很小。推荐几个,根据自己会的语言使用。分词也是一门大学问,有兴趣可以网上看看CRF, HMM等模型的逻辑,这里就不展开讲了。
 

关键词词库

分词关键的问题是要速度快,并且可以自定义词库。由于我用的是JIEBA,这方面都能支持。分词后根据词性,排除掉“停词”,就获取到了我们想要的结果集合。过滤高频词。JIEBA可以对整个文本提取TF-IDF值高的词。这些词是核心,肯定不可去掉。

然后根据分词结果获取到TF-IDF值高的词,进行人工审核一下,以旅游行业词库为例,地名是经常出现的词,TF-IDF值可能会非常高,但是绝对不能去掉。所以我们需要先准备一份中国地名/景点名词库,可以在网上搜索一下,“懒人”可以直接用搜狗输入法的词库。

然后高频词中还有可能会出现的词,可能为“7月”、“8月”、“大全”、“线路”等。这些词也可以考虑从实体词中踢除。经过这几轮检查,基本就差不多了,再要精度可以再自行研究。肯定有人问,你折腾了这么久,有什么用?这里只能点到为止。

(1)内容关联

(2)自动tagging

(3)提高站内检索精度

从2016年到2017年搜房和安居客的SEO可以体会一下。

2、去重

提取实体后,就可以对关键词进行去重。

例如:海南旅游多少钱 海南旅游要多少钱

处理后:海南|旅游  海南|旅游

下面就可以进行去重了。上面这两个词,还可以通过实体相同的方法来解决。但是有一些关键词,比如“马尔代夫”和“马代”,“长城”和“八达岭”,用户是指一个地方,我们应该怎么处理这些词呢?就需要下面这个“受控词表”。

3、受控词表

受控词表是一种控制词汇含义并且跟踪其相关词的方法。回到上面的例子,你搜索“八达岭”的时候,如果不能把“长城”的内容展现出来,相信用户早就跑光了。受控词表主要有如下三大关系:等价、层级、关联

(1)等价很好理解,比如马尔代夫和马代是等价关系,这类词可以说就是一个意思,权值是最高的,在内容推荐中一定要呈现出来。

(2)层级有上下级之分,比如“夫子庙”是“南京景点大全”的下级词,“大成殿”又是“夫子庙”的下级词。在实际应用的时候,当用户在寻找“大成殿”时,网站可以告诉用户位于“夫子庙”中间,并且推荐夫子庙周围还有些什么好玩的东西,用户一定会非常喜欢。层级关系也是大部分网站都有的信息架构体系,从首页到目录,再到栏目。

技术小学生微信公众号
华为服务器
腾讯云服务器大促销。

声明:站长码字很辛苦啊,转载时请保留本声明及附带文章链接:https://blog.tag.gg/showinfo-36-22523-0.html
亲爱的:若该文章解决了您的问题,可否收藏+评论+分享呢?
上一篇:南通SEO:让您快速理解什么是网站SEO?
下一篇:【徐州SEO顾问】SEO优化中常见网站域名相关的一些问题!