java weka 聚类_简单开源数据挖掘工具weka进行文本聚类

目前非代码的数据挖掘工具很多，但非开源，weka是一款开源软件。只要安装jdk环境就可使用(具体安装jdk可以百度)

本文将论述如何不用代码，使用weka操作，通过与文档频数与单词权的特征选择方法进行文本聚类(数据为附件)

第一步：将weka创建NetBeans文件目录中

将weka导入NetBeans软件中，

1 在某处新建一个WEKA-Rebuild目录，在它下面建一个目录叫src。在WEKA的安装目录中找到weka-src.jar，用winrar之类的解压缩软件打开，并把其中的目录weka解压缩到刚才建立的src目录下。现在的目录结构应该是 WEKA-Rebuild -> src-> weka -> associations, attributeSelection, … 打开NetBeans，“文件”菜单 – “新建项目” – 选择“常规”中的“基于现有源代码的Java项目” – “下一步”。“项目文件夹”选择WEKA-Rebuild目录，“项目名称”写weka-rebuild， “下一步”。在“源包文件夹”那里“添加文件夹”，找到src目录“打开”，“完成”。

2现在NetBeans左上方项目那一栏应该有粗体的“weka-rebuild”，这就是我们要编译的weka项目。右键点它，“生成项目”。下方会出现很多警告，不用管，不出意外的话最后会提示你生成项目成功。仍然右键点击“weka-rebuild”，“运行项目”。会弹出一个对话框让你设置主类。WEKA的主类可设置成weka.gui.Main。选中合适的主类后“确定”，不一会儿WEKA的界面就会出现在你面前，和开始菜单里运行的WEKA效果一样。

打开NetBeans软件。点击源包-weka.gui.，找到Main.java文件。双击，结果如下图所示。