数据聚类技术助力高效决策

作者

Alessandro Viola、Mauro Munerato（ESTECO）

分析处理海量数据是一项具有挑战性的任务，聚类技术对于此类数据分析非常有用。

假设你家里有很多书，想对它们进行分类以快速轻松地找到你需要的书。显然，把书随意放在书架上并不像你想象的那样有效。您可以按照主题、体裁、颜色或你能想到的任何其他标准来组织你的书。图书的存放方法就是一种聚类方法：根据您喜欢的相似性标准对图书进行分组，该组中的任何一本书都是该图书组的良好代表。

这同样适用于仿真驱动的产品开发，其中聚类分析允许您在复杂的数据集中识别具有相似特征的设计组。

例如，假设您是一名从事车辆开发项目的CAE工程师，该项目需要参数化仿真和优化技术来实现更好的设计性能。可能会发生这样的情况：在优化运行之后，您最终拥有数千种设计，而每种设计都代表一种可能的汽车配置。手动分析每一个设计是不切实际的。您需要一种自动的方法来检测它们之间的根本差异。聚类工具就是这样一种方法。您只需要选择变量（以识别相似性）和一些其他参数，该工具就会完成这项任务。设计将被分组到数量较少的集群中，您只需要比较每个集群的代表。一旦您为您的目标选择了最相关的集群，您就可以进一步检查其中包含的设计。

聚类：一种便于设计分类的多变量分析方法

多变量分析（MVA）是指用于分析具有大量变量的数据集并识别模式的统计技术。它允许您在进行优化研究之前更好地了解设计空间和变量之间的关系，从而提高流程效率。

在MVA技术（如分类、多重相关分析和维度约简）中，聚类是数据挖掘中一项众所周知的无监督学习任务。该技术可用于预处理和后处理。这意味着您可以在优化之前进行聚类（从输入空间参数开始），也可以对由探索产生的设计进行分组。预处理和后处理方法的目的都是通过识别代表整个数据集可变性的设计，减少必须管理的数据量，从而简化分析。

我们的流程自动化和设计优化软件modeFRONTIER包含一个多变量分析（MVA）环境，其中包括一个执行聚类分析的工具。它为用户提供了根据给定规则（分层和分区聚类）将设计组织成组并查找数据聚类的可能性。

聚类分析工具

在modeFRONTIER中的工作方式

除其他目的外，聚类可以在modeFRONTIER中用于：

根据每个设计在输入设计空间中的位置对数据进行分组。这种分组的目的可以是在设计空间的不同区域训练不同的响应面模型（RSM）。
确定目标值最佳的设计空间区域。最终目标是缩减变量空间，并使用实验设计（DOE）或探索算法探索被减小的区域。

一旦您选择了要聚类的数据集以查找在输入和输出方面具有相似属性的设计组后，您可以通过应用 modeFRONTIER 中可用的几种分层或 k-means 聚类算法来运行聚类模型。

当需要对大型数据集进行聚类时，k-means（或分区）聚类更适合。与k-means相比，分层聚类产生的结果可以使用被称为树状图的图表轻松可视化。

modeFRONTIER为您提供了一个单一直观的界面，将分层和分区聚类结合起来。这使您能够同时训练多个聚类模型，每个模型具有不同的算法、变量和缩放策略组合。训练模型后，您可以在聚类向导结束时立即为分层方法创建树状图，为分区方法创建DB索引图。

聚类在现代汽车结构权衡分析中的应用

来源：艾迪捷信息科技（上海）有限公司

声明：本站部分文章及图片转载于互联网，内容版权归原作者所有，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

数据聚类技术助力高效决策

相关推荐

发表回复