如何设置SEO关键词当然重要,但SEO优化技术如果只是机械式的说该做什麽不做什麽,而涉及的步骤又非常死板,例如:将焦点关键词设定放在标题一,关键词在首段重覆出现三次等等 ,会是何等枯燥乏味。
过去二十年搜索引擎优化是围绕关键词为基础,理由是计算机无法有效分析自然语言输入,从而理解搜索用户的目的,退而求其次依赖搜索用户输入简单词组作为导向,就是所谓关键词。关键词研究 Keyword Research 是指利用工具,例如 :Google Adwords Planner 分析个别关键字的搜索量和竞争度。由于传统搜索引擎优化是以关键字为对象,关键字研究得出来的一篮子关键字会根据和内容的相关性被分配到网站内不同网页用作所瞄准的关键字。
SEO关键字 – 基本概念
多了解一些关键字设定基本概念和基础理论会令SEO优化变得更有趣味。例如:SEO关键字的出现密度的基础理论是TF-IDF。搜索引擎希望从页面出现的关键字密度决定该SEO关键字和内容的相关性 Relevance 有多大。用浅白语言排除数学其实不难理解:
关键字在网页出现的频率就是 TF (Term Frequency)。如果关键字 K 在网页出现 4 次, TF 值看似应该是4。
问题是如果A页的内容长度是 B页的两倍,某关键字 K 在A页的出现次数是B页两倍时就不能断言关键字 K 与A页更相关。所以 TF 被修正为 出现次数 / 长度。例如,出现 4 次文件章度为 100 个字:
TF 值 = 4 / 100 = 0.04
问题是例如一编介绍 “网上生意” 文章的描述中,有些字像 “客户”,”网上” 的 TF 就显然要比 “网上生意” 的 TF 为高。但说该文章跟 “网上” 或 “生意” 的相关性较 “网上生意” 为高,明显违反常识。当文章是谈论 “网上生意”,”云端运算”,”网上缴费”,”网上教学”等等时 “网上” 都很可能被提及。结论是 “网上” 一词是一般文章中更普及出现。单纯利用 TF 计算相关性会出现以上的偏差。
解决的方法是对愈普及的关键字给出愈低的权重 Weight,倒如在 10,000 文章中关键字 “网上” 出现 100 次,权重变成倒数 (所以叫 IDF 或 Inverse Document Frequency) 10,000/100 = 100 , 如关键字 “网上推广” 在 10,000 文章中出现一次,权重变成 10,000/1 = 10,000. 为了令这权重值变化不要不急,所以以 log base 10 计算。
“网上” IDF 值 = log (10,000 / 100) = 2
“网上推广” IDF 值 = log (10,000 / 1) = 5
将 TF 乘以 IDF 就是相关性的评分。当然今天的搜索引擎采用的 TF-IDF 更复杂,但原理是一样。今天搜索引擎已经进化到非常复杂,除了 Google 内部从事 SEO 研究的资深工程师外,外面从事SEO优化的人只能根据一些如专利申请和Google人员不同埸合的阐述等符尝试理解其中的精萃。Google 搜索引擎计算关键字相关性的算法是以 TF-IDF 为基础,但已经进化到更为先进。
长尾关键字
长尾关键字 Long tail keyword 指基于通用关键字在前或在后或同时在前后加入更多字眼作更精准标示所要找的产品、服务或信息,长尾关键字 IDF 值高。例如:“大码衣服婚礼用”,“防敏感化妆品”等等。长尾关键字特色是搜索量小,但同时提供和该关键字相关的产品、服务或信息的网站亦小,所以该长尾关键字的搜索排名竞争亦小,更容易获得高搜索排名。
焦点关键字
焦点关键字 Focus Keyword 指网页内容是以该关键字为争取排名目标,焦点关键字 IDF 值低。所以在页内重要的元素中会加入该焦点关键字以便通知搜索引擎网页内容和焦点关键字的相关性。SEO 优化工具如 Yoast SEO, SEOpressor 的排名优化建议都需要先设定焦点关键字。一般网页内容只应瞄准一两个焦点关键字,否则可能造成文理不通,降低可读性。
单页相关还是多页相关
某些网站接受游客发帖 Guest Posting, 单独一个页面和某关键字有高相关性不及和好几页面展现高相关性来得重要。利用 ITF 可以侦测到整个网站 (或者更正确是整个网站中被搜索引擎索引的页面) 和某关键字的相关性。例如“韩国时装” 在一般网站的 ITF 是 0.0003,即是在一万页中只有 3 页提及,而某网站是 0.05,即一百页中有五页提及,就表示该网站以 “韩国时装” 为主题的可能性极高。也就是该网站对 “韩国时装” 的权威性高,亦即是 Google Rater Guideline 所阐述优质内容 E.A.T 里内的 A,代表 Authority。搜索引擎是偏好来自权威性高的内容。
直接相关还是间接相关
关键字有同义词 Synonyms。例如:教员,教师,老师代表非常接近甚至完全相同的概念或事物。当网页或网站和关键字A的相关性高,而关键字B是关键字A的同义词时,就间接引证该网页或网站和关键字B的相关性亦高。但由于是间接相关,所以网页对搜索输入关键字B的排名评分会略低于对直接相关的关键字A。
应该是直接相关还是间接相关取决于地理位置文化差异。有些同义词是由于文化地理差异引起,例如 “moggie” 是英国人对混种家猫的称呼,亦就是一般我们都叫 “cat”. 随着手机普及可以更准确判断用户的地理位置,英国用户输入 “moggie” 可以判断为猫 (搜索引擎很可能判断与 “cat” 为直接相关),但中国用户输入 “moggie” 就不一定 (搜索引擎很可能判断与 “cat” 为间接相关)。
关键字的繁简转换亦可以看成间接相关,所以你会看到输入繁体关键字时亦有时会出现简体排名结果。但亦是由于间接相关,所以排名计分稍为不利。
潜在词义的相关性
随着手机愈趋普及,语音搜索 Voice Search 使用量会大幅增加。当用户慢慢发现原来搜索引擎对自然语音输入的理解原来不差时,搜索用户行为亦会改变,放弃以词组式关键字输入而改为更自然的句子。RankBrain 的出现就是为了处理更复杂的词意含义,通过利用人工智能 AI 理解潜在含意而将用户的搜索输入和隐含的关键字搭出关系。例如用户查询:PDF 有什麽弊端,通过 RankBrain 潜在词义分析转化为 “PDF 保安”。
LSI 和 Proximity
单一词语代表的意义有时非常含糊。例如 “苹果” 代表水果亦广泛指美国一家上市公司。所以确切的相关性判断需要看上文下理,例如如果网页是关于水果苹果,很可能同时在内文中找都关于食品的关键字,例如 “健康”,“味道”。如果是关于苹果公司,就可以找到关键字如 “公司”,流行産品如 “iPhone” 等等。又例如 “心理辅导” 的资料,多数会提及 “情绪” 这个词。英文 Lincoln 可以是人名,可以代表汽车,可以代表美国总统。潜在语义索引 Latent Semantic Indexing (LSI) 是指搜索引擎根据上文下理所出现的其他相关词汇判断关键字的相关性。而这些相关的关键字应该出现在主关键字不太远的地方,相隔愈远代表两者关系愈弱。
SEO关键字密度
从以上的理论介绍中你看到为多几个的关键字出现次数对搜索引擎判断相关性没有大帮助,反而一些长尾的关键字可能更有利 IDF 权重计分。
由于关键字密度已经被滥用。今时今日,关键字出现在网页的密度已经变得不重要。代之已起的是更看重 LSI 暗视式的相关性出现频率。理解SEO关键字基本概念后下一步就是如何选关键字。
关键字位置
关键字位置 Keyword Position 指关键字在不同元素中出现位置对搜索排名的影响,特别是当元素出现在有长度限制的地方,例如标题。一般出现位置是愈前愈好,但有时将关键字放在前面可能造成文理不通,又会降低搜索用户点击意欲。
来源:海瑶SEO(www.seo8.org)欢迎分享,谢谢。
文章评论 本文章有个评论