最近要做领域概念的提取,TFIDF作为一个很经典的算法可以作为其中的一步处理。
关于TFIDF算法的介绍可以参考这篇博客http://www.ruanyifeng.com/blog/2013/03/tf-idf.html。
计算公式比较简单,如下:
图1.png
预处理
由于需要处理的候选词大约后3w+,并且语料文档数有1w+,直接挨个文本遍历的话很耗时,每个词处理时间都要一分钟以上。
诚心求几个男人你懂得的网址,爱看的都回来的,
风雨飘摇,遗留的鸟巢,固守风冷月柔,曾经孵化出的小鸟,伸着娇黄的鸟喙衔着星月。鸟的父母,着翅,护着幼雏,一份责任,天地的怜爱,善与情的交织,鸟巢里孵化着春风与夏雨,春的妩媚,夏的热烈。眷恋与腾飞的相依 ,追逐远方天空的辽阔,欢歌笑语也许就是挂在枝上青青的叶子吧,肥厚而凸显着生命力。
巢依旧,鸟已去。那些明艳的鸟儿,你们是否还记得这巢呢?明年,你们还寻得到这个巢吗?也许,你们会回来的,回来重叙那段感情。也许,你永远也回不来了,你已在那乡老去,飞翔中作了古。也许,重新垒筑了新
环境搭建比FNLP的简单,具体参考:https://github.com/hankcs/HanLP
各个版本的下载:https://github.com/hankcs/HanLP/releases
完毕后有一个报错:
字符类型对应表加载失败:
D:/eclipse_workspace/HanLPTest/HanLP/data/dictionary//other/CharType.dat.yes
直接在 D:/e
提示安装成功,点击注册时出现
1.png
点击注册时出现404
2.png
求解决啊