最近搞的一套系统里面用到了一套基于TFIDF算法的东西,打算把流程设想一下,整理开发成一套系统化的工具。
首先要使用TFIDF得明白它需要的几个东西
1是要处理的文章,得分词之后,2是核心计算。
尝试了10万个简单的文章处理之后,发觉这块并不是想像中的那么简单。
光是计算TFIDF这块,就把8个G的内存全部占满了。
目前想到的方案大概是:
1、使用盘古分词,清理标点符号做为停用词进行过滤,生成切词之后的结果。
必要时可以加一些自定义词库到词库中备用,外开二元分词功能保证结果的准确性。
越大量的文章越要使用多线程进行处理。这块还要研究一下。
2、使用TFIDF进行词频计算,传入分词之后的文章,计算所有词,所在词在某个文章中的TF和IDF。越大量的数据越难以处理。
亲爱的:若该文章解决了您的问题,可否收藏+评论+分享呢?
文章评论 本文章有个评论