java weka 聚类_简单开源数据挖掘工具weka进行文本聚类

目前非代码的数据挖掘工具很多,但非开源,weka是一款开源软件。只要安装jdk环境就可使用(具体安装jdk可以百度)

本文将论述如何不用代码,使用weka操作,通过与文档频数与单词权的特征选择方法进行文本聚类(数据为附件)

第一步:将weka创建NetBeans文件目录中

将weka导入NetBeans软件中,

1 在某处新建一个WEKA-Rebuild目录,在它下面建一个目录叫src。在WEKA的安装目录中找到weka-src.jar,用winrar之类的解压缩软件打开,并把其中的目录weka解压缩到刚才建立的src目录下。 现在的目录结构应该是 WEKA-Rebuild -> src-> weka -> associations, attributeSelection, … 打开NetBeans,“文件”菜单 – “新建项目” – 选择“常规”中的“基于现有源代码的Java项目” – “下一步”。“项目文件夹”选择WEKA-Rebuild目录,“项目名称”写weka-rebuild, “下一步”。在“源包文件夹”那里“添加文件夹”,找到src目录“打开”,“完成”。

2现在NetBeans左上方项目那一栏应该有粗体的“weka-rebuild”,这就是我们要编译的weka项目。右键点它,“生成项目”。下方会出现很多警告,不用管,不出意外的话最后会提示你生成项目成功。仍然右键点击“weka-rebuild”,“运行项目”。会弹出一个对话框让你设置主类。WEKA的主类可设置成weka.gui.Main。选中合适的主类后“确定”,不一会儿WEKA的界面就会出现在你面前,和开始菜单里运行的WEKA效果一样。

打开NetBeans软件。点击源包-weka.gui.,找到Main.java文件。双击,结果如下图所示。

3f296b2fed50d12febf950849471bebe.png

第二步:执行weka

1.点击 源包-weka core tokenizers,右键 选择 新建java类。

修改类名为:CHWordTokenizer

选择包为:weka core tokenizers

点击完成 。结果见下图。

329e56bb721d3ba3602d4dd330cda769.png

3.点开之前已经打开过的Main.java界面

点击 运行-运行文件

出现下图所示界面。

5449b62c062a0d20db0e3c658808e7a8.png

3.在输入栏输入 【java weka.core.converters.TextDirectoryLoader-dir d:/sample > d:/sample.arff】点击回车键运行。如下图所示。

41fb3b3b36ac174fe10adf888d62bce2.png

23cf4f8d8330db2bd6b13eb4587ff804.png

ef21c4fc346abd3d11bcbb6f89af5e2a.png

4.点击apply,点击save,查看word形式(命名:sampleword1)的成果。

2c6c3e2bebb2fa4d9bc3f2e0d40aa0cc.png

再次打开Filter-choose-unsupervised-attribute-StringToWordVector

双击修改 StringToWordVector 的参数。

将 IDFTransform 改为 True (调平滑)

outputWordCounts 改为 True

minTermFreq改为 1

wordToKeep 改为 200

点击 OK 运行

0b9b9c148ac2503edc7e8cb90bd8478e.png

9.返回weka,重新加载sample.arff原始文件

10.点击 Cluster-simpleMeans,双击调整参数。

1dd54f2363abe663d9aaf9f6b5d2d050.png

9913fd757f038cf462ae00008308c405.png

文章知识点与官方知识档案匹配,可进一步学习相关知识Java技能树首页概览91545 人正在系统学习中 相关资源:橘子快速启动软件(橘子启动器)v3.0绿色免费版-其它代码类资源…

来源:weixin_39633917

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年1月21日
下一篇 2021年1月21日

相关推荐