◆◆0

申永SEO:基于TFIDF的SEO系统底层设想

来源：武汉seo 2019-04-26 20:26:14 SEO优化 555 0

腾讯云服务器大促销。

　　最近搞的一套系统里面用到了一套基于TFIDF算法的东西，打算把流程设想一下，整理开发成一套系统化的工具。

　　首先要使用TFIDF得明白它需要的几个东西

　　1是要处理的文章，得分词之后，2是核心计算。

　　尝试了10万个简单的文章处理之后，发觉这块并不是想像中的那么简单。

　　光是计算TFIDF这块，就把8个G的内存全部占满了。

　　目前想到的方案大概是：

　　1、使用盘古分词，清理标点符号做为停用词进行过滤，生成切词之后的结果。

　　必要时可以加一些自定义词库到词库中备用，外开二元分词功能保证结果的准确性。

　　越大量的文章越要使用多线程进行处理。这块还要研究一下。

　　2、使用TFIDF进行词频计算，传入分词之后的文章，计算所有词，所在词在某个文章中的TF和IDF。越大量的数据越难以处理。

腾讯云服务器大促销。

声明：站长码字很辛苦啊,转载时请保留本声明及附带文章链接：https://blog.tag.gg/showinfo-36-24192-0.html

亲爱的：若该文章解决了您的问题,可否收藏+评论+分享呢？