【南京seo优化培训】分词对seo的影响
研究搜索引擎的分词技术,无论是对用户的检索还是对seo都具有非常重要的意义。分词又叫做切词,是将连续的自序列按照一定的规范重新组合成词序列的过程。
分词的原理:中文分词分类:
(1)基于字符串的匹配也就是机械分词法。机械分词法的原理是将搜索栏的字符串与一个庞大的机器字典中的词进行匹配。常见的三种匹配方式:第一种是正向最大匹配,比如走路和气质,它会切分为走路、和气质。第二种是逆向最大匹配,如果用逆向最大匹配法走路和气质它会拆分为走路、和、气质。第三种是最少切分法,它是使每一句中切出的词数量最少,还可以将上述的方法相互结合。比如说双向最大匹配,一般来说逆向匹配的切分精度越高于正向匹配,遇到的歧义现象也比较少。
(2)基于理解的分词方法。指在分词的同时进行句法、语义的分析,利用句法信息和语言信息来处理歧义现象。
(3)基于统计的分词方法。是根据汉字共同出现的频率来分词。
以百度搜索引擎为例:百度搜索引擎有一个专有词典,分词时首先查询专有词典(人名、部分地名等),将专有名称切出,剩下的部分采取双向分词策略,如果两者切分结果相同,说明没有歧义,直接输出分词结果。如果不一致,则输出最短路径的那个结果,如果长度相同,则选择单字词少的那一组切分结果。
百度同时做出多种分词方式,首先不拆分进行查找,然后先识别专有名词和新词,再对其余部分进行拆分,采用双向最大匹配的方式。
亲爱的:若该文章解决了您的问题,可否收藏+评论+分享呢?
文章评论 本文章有个评论