Loading
0

申永SEO:基于TFIDF的SEO系统底层设想

技术小学生微信公众号
腾讯云服务器大促销。
华为服务器

  最近搞的一套系统里面用到了一套基于TFIDF算法的东西,打算把流程设想一下,整理开发成一套系统化的工具。

  首先要使用TFIDF得明白它需要的几个东西

  1是要处理的文章,得分词之后,2是核心计算。

  尝试了10万个简单的文章处理之后,发觉这块并不是想像中的那么简单。

  光是计算TFIDF这块,就把8个G的内存全部占满了。

  目前想到的方案大概是:

  1、使用盘古分词,清理标点符号做为停用词进行过滤,生成切词之后的结果。

  必要时可以加一些自定义词库到词库中备用,外开二元分词功能保证结果的准确性。

  越大量的文章越要使用多线程进行处理。这块还要研究一下。

  2、使用TFIDF进行词频计算,传入分词之后的文章,计算所有词,所在词在某个文章中的TF和IDF。越大量的数据越难以处理。

技术小学生微信公众号
华为服务器
腾讯云服务器大促销。

声明:站长码字很辛苦啊,转载时请保留本声明及附带文章链接:https://blog.tag.gg/showinfo-36-24192-0.html
亲爱的:若该文章解决了您的问题,可否收藏+评论+分享呢?
上一篇:徐俊采SEO:网站SEO之受众的重要性
下一篇:叶思明SEO:理解搜索引擎和如何做页面