索为知识工程解决方案-语义支撑系统

索为知识工程解决方案主要以索为自有的语义支撑系统，通过知识聚合（知识采集）、知识整合（语义支撑+结构化加工）、知识应用（工程化加工）3个步骤，实现企业知识工程化管理与应用。

索为知识工程解决方案3步骤

语义支撑系统

语义支撑可应理解为语义技术支撑，是以语义处理、分析为核心，将收集到的所有文本内容通过自然语言分析技术将其碎化之后再关联的过程。常用的分析算法，如：用于分词的因马尔科夫模型、条件随机场模型、最大熵模型，用于实现自动分类的感知器模型、支持向量及模型、朴素贝叶斯模型，用于提取词向量的Word2Vec模型，以及其他相关度计算的算法、索引倒排的算法等。

语义技术支撑是实现知识结构化、知识工程化对知识的处理与智能化应用，是整个系统智能化应用的基础。

索为语义支撑系统是索为知识工程语义应用的基石，包括语料库管理、语义网管理2大基本模块。以此为基础，进行自动分类训练；关键词自动提取调优；摘要自动提取调优3个用于知识结构化处理（知识整合）的挖掘工具的训练/调优；以及对知识应用中语义搜索、智能推荐等多个语义应用工具的调优。从而实现并保证整个系统，对知识的人工智能化处理与应用。

同时，在整个语义支撑系统建设中，全部采用“系统自动+人工参与”的半自动化方式进行。从而，使得在语义支撑系统构建、调整过程里，即解决了人为操作难度大，甚至很多是不可完成的任务的问题；又通过人工参与审核校对的过程，保证了语义支撑系统的专业性、正确性与有效性。

索为语义支撑系统主要分成4大部分，如下所示：

语义支撑系统结构

语料库构建

语料库是指语料构成的集合，是语言学研究的基础资源，是计算机应用于语言领域的一种形式。通过语料库对对词汇、句法（语法）、语义进行处理分析，得出词频及词的搭配、句型的频率，为词项赋义，句子分析提供客观标准。

应用于词表构建、自动分类、关键词摘要提取、语义搜索等语义分析、处理过程当中。

索为语义支撑系统中的语料库管理主要包括：语料库分类结构管理、语料条目管理两个部分。并支持人工对语料库内容进行审核校对的“语料库协同审核平台”。

语料库构建说明

通过以上3个步骤，实现对语料库的构建与管理。根据输入标准类知识文档、企业特有知识文档两类“语料”的不同，可构建对应的语料库供企业应用。

超级词表构建

词表是某一主题检索语言语种的词典，其功用是：

⑴ 该种主题法的严格实施起管理作用；

⑵ 对周密选用检索词以便准确、全面地标引和检索文献起保证作用；

⑶ 对文献标引人员和情报检索人员查找所需检索词起方便作用。是支持语义检索、自动分类训练、关键词摘要提取调优的基础。

索为语义支撑系统支持企业根据企业实际情况，选择对应的超级词表建设方式，具体有：

超级词表构建3种方式

挖掘工具、应用工具的训练/调优

即通过机器学习方法，依靠超级词表，以语料库为训练材料，实现对知识挖掘工具、应用工具的训练/调优，从而实现对知识的结构化处理、工程化的应用。

20世纪90年代以前，占主导地位的知识处理方法一直是以人工为主，即借助专业人员的帮助，为知识进行结构化处理（如自动分类、关键词摘要的生成等）、知识工程化应用（知识搜索、推送等），定义大量的推理规则，通过判断知识是否满足这些推理规则，而对其进行处理与应用。

但是这种方法有明显的缺点：知识处理与应用的质量依赖于规则的好坏；需要大量的专业人员进行规则的制定；不具备可推广性，不同的领域需要构建完全不同的处理与应用系统，造成开发资源和资金资源的巨大浪费。

而机器学习技术能很好地解决上述问题，以统计理论为基础，利用算法让机器具有类似人类般的自动“学习”能力——对已知的训练数据做统计分析从而获得规律，再运用规律对未知数据做预测分析。机器学习方法运用在工具训练/调优上的基本过程就是：标注——利用人工对一批文档进行了准确处理，以作为训练集（进行机器学习的材料）；训练——计算机从这些文档中挖掘出一些能够有效的规则，生成对应的挖掘工具、应用工具的规则集合；应用——将生成的规则应用在有待处理的知识文档中，实现对知识的结构化处理与工程化应用。由于机器学习方法在文本分类领域有着良好的实际表现，已经成为了该领域的主流。

来源：工业技术软件化

声明：本站部分文章及图片转载于互联网，内容版权归原作者所有，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

索为知识工程解决方案-语义支撑系统

相关推荐