拓尔思:语义智能领军者,大数据+AI双轮驱动打开公司广阔空间

(报告出品方/作者:浙商证券,程兵)

1 对标 Elasticsearch,公司搜索引擎数据库有望加速国产替代

1.1 大数据时代,搜索引擎数据库迈入快速发展阶段

1.1.1 搜索引擎数据库专注信息检索,解决大数据时代信息复杂关联问题

搜索引擎数据库是一类专门用于数据内容搜索的非关系数据库。搜索引擎数据库使用 索引对数据中的相似特征进行归类,并提高搜索能力。搜索引擎数据库经过优化,以处理 可能很长、半结构化或非结构化的数据,它们通常提供专业的方法,例如全文搜索、复杂 搜索表达式和搜索结果排名。

拓尔思:语义智能领军者,大数据+AI双轮驱动打开公司广阔空间

搜索引擎的本质是根据用户的输入完成分词匹配。搜索是以 token 词为最基本的搜索 单元,一个搜索语句经过搜索引擎的分词器会产生几个 token,利用分词去构建对应的倒排 索引,在用户搜索的时候,搜索对应的分词器分出的一个 token 时和索引中所存储的一个 分词找到需要的文档。这种索引方式不需要去遍历所有的文档,而只需要遍历索引词,即 可以满足对应的效果,大大提高了搜索速度。

目前国外厂商占据搜索引擎引擎数据库行业领先地位。目前全球范围内主要全文搜索 引擎有:Lucene、Elasticsearch、Splunk、Solr。其中 Lucene 是一个开放源代码的全文检索引擎工具包,不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,ES 和 Solr 均 基于此架构。根据 DB-Engines 的排名显示,Elasticsearch 自 2016 年至今始终是最受欢迎的 企业搜索引擎,其次是 Splunk 和 Solr。

1.1.2 搜索引擎以全文检索技术为核心,未来满足多样化应用需求

全文检索技术是搜索引擎数据库的技术源头。计算机的索引程序通过扫描源文本中的 每一个词,对每个词构建索引,并指出该词在源文本中出现的次数和出现的位置,当用户 检索数据时,计算机检索程序对预先构建好的索引文件来进行查找,并把检索的结果反馈 给用户的检索方式。全文检索的核心技术通常包括索引建立和索引检索两个功能: (1)索引建立:索引是指扫描源文档后建立索引文件。首先将不同格式的文档数据进 行格式化,抽取其中的文本文件,然后把每一个不同的字符都保存为一个字表,并且记录 下相同的字在文档中出现的所有位置。 (2)检索检索:指基于预先构建的索引文件的位置匹配。 全文搜索引擎通常由五部分组成:数据采集、数据处理、数据索引、数据搜索和用户 接口。在结构方面,全文检索系统的核心应该具备文本分析引擎、索引引擎、查询引擎、 对外接口和外层应用系统。在功能方面,全文检索系统应该具备索引建立、增量索引、索 引优化、查询结果返回等功能,外层则应有各种不同的应用。

拓尔思:语义智能领军者,大数据+AI双轮驱动打开公司广阔空间

目前全文检索技术主要发展方向体现在以下几个方面: (1)智能检索:传统的全文检索是基于关键词进行匹配,常出现查全率和查准率不高 的问题。在信息量呈爆炸式增长的大数据时代,利用关键词匹配的全文检索存在很大的局 限性。智能检索技术中,除了分词词典外还包括同音词典、同义词典、相关级词典等,能 够形成一个较完整的概念网络和知识体系,提供较为智能的知识提示。 (2)数据挖掘同信息检索技术相结合:数据挖掘则主要包括分类、聚类自动摘要和 相似性查询等方面,帮助用户更好地发现、组织和表示信息,通过提取知识来满足更高层 次的检索需求。自动摘要技术可自动地从原始文献中摘取文章摘要,帮助用户快速对检索 结果进行相关度评价;相似性检索根据文档内容特征来对与之相关或者相似的文档进行检 索,可用于去重分析和用户个性化反馈。 (3)垂直领域数据库:目前通用搜索引擎很难收集全所有主题的网络信息且成本较 高,对于专业性要求更高的主题难以做到精确搜索。因此垂直主题的搜索引擎以其高度的 目标化和专业化在各类搜索引擎中占据了一席之地。 (4)分布式全文检索技术:分布式系统的本质就是网络互连的多个服务器共同处理某 些任务。传统的集中式全文检索系统已经不能满足大容量数据的存储需求,数据量和访问 量的爆发式增长对系统的高效率和扩展性提出了更高的要求,仅仅依靠单台服务器运行的 检索服务已经很难满足要求。因此,为了提高检索效率,企业为了节省成本普遍选择通过 机器组成分布式集群来满足服务器的性能要求。

搜索引擎数据库潜在市场规模约 450 亿美元,发展空间广阔。根据 IDC 测算,2022 年 全球搜索引擎数据库的市场规模约为 450 亿美元,其中搜索系统、内容分析和认知/AI 软件 平台的市场规模约 80 亿美元;IT 运营管理约 90 亿美元;大数据和分析软件(高级预测分 析、空间和位置分析、非关系分析数据存储、分析数据的集成和完整性)约 230 亿美元; 安全分析(安全信息和事件管理、政策和合规、取证和事件调查)约 50 亿美元。

1.2 美国 Elasticsearch 为搜索引擎数据库龙头,应用场景丰富

Elasticsearch (ES)是一个伴随着大数据存储以及快速检索的需求所产生的分布式、 可扩展、实时的搜索与数据分析引擎。ES 使用 Lucene 搜索库作为其核心,又同时避免了 Lucene 复杂的操作方式,能够存储结构化和非结构化的大数据,并且实现对其存储数据的 全文检索,速度达到毫秒级。它还包括了结构化搜索、数据分析、复杂语言处理、对象间 关联关系等内容,可以通过数据建模在生产环境中配置和监视大数据集群。 其特色包括:1)分布式的文件实时存储工具,并且保证每个字段都能被索引和检索; 2)分布式的实时搜索引擎,并具备数据实时分析功能;3)可拓展到上百台服务器,处理 PB 级别的结构化或非结构化数据。

拓尔思:语义智能领军者,大数据+AI双轮驱动打开公司广阔空间

非结构化数据量的爆发式成长,叠加信息检索准确度需求增加,驱动 Elasticsearch 业 务快速成长。从数据结构角度看,web2.0 时代非结构化数据量的爆发拉动了对非关系型数 据库需求,极大提高了系统对数据库高并发读写、可扩展性和高可用性的要求。此外,在 对海量数据存储和访问效率上方面,传统的关系型数据库也难以满足需求。根据浪潮信息 数据,非结构化数据自 2015 年开始呈几何倍数增长,包括 HTML、JSON、文档、图片、 音视频等形式,预计未来还将加速爆发。

Elasticsearch 在信息检索性能上相比数据库自身的搜索功能优势显著。功能上,数据 库的首要目的是存储数据,其自身的模糊搜索功能没有索引,无法实现对搜索词的逻辑及 范围搜索,因此无法对查询条件进行延伸分析。而对于搜索引擎和搜索引擎数据库来说, 全文检索才是目的,因此其更关注信息搜集和关联等能力,灵活度也更高,在检索时无需 精确的数据结构,可以对查询条件进行延伸解析,比如近义词和联想等功能。

目前,Elasticsearch 实时全文搜索引擎框架已经被广泛使用。GitHub 使用 Elasticsearch 对超过 1300 亿行的源码进行检索,并且用户量和数据量还在持续增长;维基百科使用 Elasticsearch 对 PB 级数据实现了全文检索、高亮展示关键词、针对输入的关键词进行搜索 建议等功能;英国卫报使用 Elasticsearch 来处理海量访客日志,并实时把公众对文章的看 法反馈给编辑;StackOverflow 通过使用 Elasticsearch 把全文搜索、地理位置和其他相关信 息进行结合,实现 more-like-this 功能。

1.3 搜索引擎数据库国产替代进程加速,公司行业积累深厚产品优势显著

1.3.1 数据安全要求加速数据库国产替代,公司 G 端客户比例较高有望率先受益

数据库是我国信创重点,数字安全法出台将加速国产替代。2021 年是我国数据安全的 政策元年, 2021 年 9 月我国第一部数据安全的专门立法《数据安全法》正式出台,《个人 信息保护法》于同年 11 月起正式施行。从国家层面,未来各监管部门将加大对数据安全监 管力度。从企业层面,数据安全责任也将从过去被动地接受机构风险监督,逐渐转向主动 合规建设。根据 Gartner 报告,数据库的高技术壁垒导致 Oracle、IBM、微软等海外大厂长 期霸占数据库市占率排行的前几名,我国数据库产品的市占率虽然在过去十几年间有了大 幅提升,但仍然于海外大厂产品有着较大差异,国产化率相对较低,属于重点关注领域。

公司政府客户比例高且信息敏感度高,有望率先受益于国产化需求。从 1985 年开 始,公司前身依托自身在中文检索领域的专业优势便开始为人民日报社提供新闻资料检索 系统服务;公司于 1995 年搭建了数据库服务器并开始为新华社服务。公司的检索产品很早 完成了政府客户的验证流程,具备了先发优势。公司自 04 年开始,陆续为国家知识产权 局、国宝局等优质国家机构提供企业搜索服务,并且开始覆盖金融、能源、公共安全等涉 密领域,涉及公安、军工客户。2021 年公司政府及公共安全业务收入占比达到 58.81%。 公司深耕语义智能赛道,处于行业领先者地位。根据 IDC 数据显示,2021 年我国语音 语义市场规模达 21.7 亿美元,其中科大讯飞占据 13.7%的市场规模位居第一。公司以 2.9% 的市场份额占比位居第四,考虑语义智能相比于语音智能,结合了语言理解、知识获取等 更高级别的人工智能技术,未来发展空间广阔。

拓尔思:语义智能领军者,大数据+AI双轮驱动打开公司广阔空间

自然语言处理市场预计未来几年内保持高增长速度,到 2030 年是市场规模有望突破 2000 亿。随着 NLP 技术在金融、政务、教育、医疗等诸多行业应用落地的加速,预计未来 中国 NLP 市场规模将加速成长。根据赛迪研究院预测,2022 年相关市场规模约为 174.5 亿 元,并在未来几年内保持约 36.5%的复合增长率,预计到 2030 年,我国 NLP 市场规模将 突破 2000 亿,达到 2105 亿元。

1.3.2 公司实现搜索引擎数据库核心技术自主可控,满足信创和国产化替换需求

公司信创生态完备,数据库核心技术自主可控。公司多次被大数据相关产业联盟评为 领军企业,深度参与到中国数据库标准制定。产品方面,公司海贝数据库是目前国内少有 从底层数据收集,到分词和索引算法,以及储存技术的国产数据库引擎。其核心代码自主 率达到 100%,且通过多家国家机构认证,可彻底摆脱对 Elasticsearch 和 Lucene 等国外数 据库的技术依赖。

在大数据领域,拓尔思突破异构数据对大数据搜索引擎的限制,为索引数据加密提供 全方位安全保障,实现 了文本、图像特征、二进制的统一索引和跨数据类型跨语言的检 索,并采取最新的集群技术提高了 可支持的数据规模和多用户并发检索性能,为数据安全 和信创领域应用提供全面保障。2021 年公司 基于技术突破迭代创新推出了 TRS 海贝大数 据管理系统 V9.0、TRS 数据中台等核心产品。同时公司 研发完成了面向云原生支撑的技术 中台和 AI 驱动的数据中台,推出了 TRS 数星智能风控大数据平台、 TRS 数家开放服务平 台、TRS 网察大数据分析平台等 SasS 数据智能服务平台产品。

拓尔思:语义智能领军者,大数据+AI双轮驱动打开公司广阔空间

公司海贝大数据搜索引擎产品在自主可控、数据安全、综合能力等层面均具备显著优 势。产品支持所有数据类型,功能完备,安全可靠,兼容 ES 常用接口,对接主流生态, 具备良好的产品力,未来有望在信创浪潮下实现国产化平滑替代。

1.4 公司持续延伸大数据业务新场景,知识产权业务有望贡献新增量

1.4.1 专利处理需求快速成长创造专利代理市场广阔空间,NLP 技术应用前景可期

国家政策层面支持发展知识产权行业,中国专利申请量持续成长。2021 年国家提出 “知识产权强国战略”,力图实现从“中国制造”到“中国创造”的创新驱动转型。通过 《知识产权强国建设纲要(2021-2035)》以及《“十四五”国家知识产权保护和运用规 划》等纲领性文件,未来中国知识产权发展将致力于实现知识产权“得到更好保护”、 “形成更好市场价值”、“发挥更强经济支撑”、“具备更强影响力”的发展目标,成为真 正的“知识产权强国”。 中国专利申请量于 2011 年跃居全球第一,并在近几年内保持快速增长态势,2021 年 中国专利申请量达到 495.7 万件,2008-2021 年间复合增长率达到 18%。根据世界知识产权 组织数据,中国 2020 年发明、实用新型和外观这三项专利的申请总量分别达到 149.71 万 件、292.7 万件和 77.0 万件,同比增长 6.9%、29.0% 和 8.3%,均显著高于全球增速。预计 未来几年中国专利数量仍将保持快速增长,并将成为拉动经济增长不可或缺的力量。

专利申请数量快速成长拉动知识产权代理市场需求。知识产权代理是指代理当事人处 理知识产权事务的行为,主要包括国内外专利代理和商标代理、版权登记代理。专利代理 的业务范围包括专利申请、专利诉讼、专利战略布局、专利咨询等方面的业务内容。 国家政策支持叠加制度不断完善,知识产权代理业务迅速发展。根据共研网数据统计 显示,2021 年中国支持产权代理行业市场规模约为 511.89 亿元,并预计 2022 年市场规模 将超过 600 亿元,未来将伴随着知识产权市场的成长而保持较快增长态势。

专利代理机构数量快速增长。国家知识产权局数据统计显示,截至 2021 年底,我国专 利代理机构数量达到 3934 家(不含港澳台地区),执业专利代理师达 26840 人,行业发展 势头迅猛。 专利为各科技创新赛道提供高情报价值,专利信息检索查询创造新需求。在生物、新 材料、新能源等高新科技领域,企业依赖专利情报所提供的重要价值,专利工作支撑企业 研发创新成为近年来专利工作的重要价值探索。对于专利代理机构来说,专利服务涉及专 利信息的检索、匹配等工作,NLP 技术可讲传统专利数据库中的非结构化信息转化为结构 化数据,可大幅提升知识产权服务的效率提升和质量提高。

拓尔思:语义智能领军者,大数据+AI双轮驱动打开公司广阔空间

1.4.2 公司布局专利搜索引擎赛道,基因专利检索云服务平台有望赋能行业效率提升

公司自主研发基因专利检索云服务平台,为生物技术发展创新提供有力支撑。公司联 合知识产权出版社,基于生物技术领域产业发展及用户需求,在强化搜索引擎技术与数据 资源优势基础上,研发能够提供序列检索与基因专利检索的 SaaS 云服务系统。平台涵盖全 球 40 多个国家和组织的生物序列相关专利数据及 32 个公共资源库,通过对区域创新趋势 和区域头部专利申请人的分析,帮助用户识别潜在的创新者和未来可能合作的重要伙伴。 公司可实现基因专利信息的结构化处理和检索结果呈现,大幅提升专利服务效率。公 司基因专利检索云服务平台可实现基因序列检索、专利检索、序列检索结果、序列比对等 多项功能,支持融合检索及图形展示,在帮助用户分析行业发展趋势、辅助生物医学技术 创新、领域研究新方向研判等场景均具备广阔应用前景。

公司基于 NLP 核心技术积累,未来有望向专利检索领域更多细分场景延伸。除基因 之外,高端制造、新能源、新材料等领域专利信息检索均存在信息非结构化、专业程度 高,数据挖掘和分析难度大的特征,公司在自然语言处理领域具备技术优势,未来有望基 于在基因领域的产品研发经验积累,向更多细分场景延伸。

2 知识图谱引导认知智能发展,对标 Palantir 公司成长空间广阔

2.1 坚持“语义智能+”为核心战略,公司 AI 产品应用空间广阔

AI 正处于弱人工智能向强人工智能发展阶段,核心为认知和理解能力的提升,NLP 和 CV 为两大发展方向。目前 AI 发展处于弱人工智能阶段,在设计的程序范围内决策并采 取行动,不具备独立意志且应用场景延伸性较差,代表性的有 AlphaGo(围棋领域)、Siri (语音对话)等;强人工智能则是指具有独立意志,能在设计的程序范围外自主决策并采 取行动的人工智能,能帮助人们综合多方信息进行判断决策,真正提升人类的工作效率, 代表性的有通用机器人、高级别自动驾驶等。 语言和感知是人类思维认知的基础,也是 AI 发展的两大核心内容。目前 AI 发展有五 大核心内容,即计算机视觉、机器学习、自然语言处理、机器人和语音识别,分别对标人 类的感知、思维、语言理解、运动控制和交互这五大维度。目前国内外厂商在 AI 各方向上 均取得持续进展,未来有望打开商业化空间。

拓尔思:语义智能领军者,大数据+AI双轮驱动打开公司广阔空间

公司专攻语义智能赛道,是国内最早从事自然语言处理(NLP)研发的企业之一,核 心竞争力显著。公司所专注的语义智能位于人工智能中的认知智能领域,即让计算机来理 解人类语言或其他符号表面数据内含的确切意义,提取出信息或知识,进而进行推理、分 析、决策,达到、接近或者超过人类的智慧水平。

2.2 对标美国 Palantir,从市场规模和产品边际贡献率出发看公司成长空间

2.2.1 业务从 G 端向 B 端延伸,稳步发展成为知识图谱领域独角兽

美国 Palantir(帕兰提尔)公司,专注于大数据分析,客户从 G 端政府部门延伸到 B 端企业,逐步成长为细分赛道巨头。Palantir 成立于 2003 年,专注于大数据分析并以此为 核心,通过深入分析用户业务结构,将海量数据有机结合并挖掘数据中的价值,为决策者 提供决策依据。公司分别于 2008 年和 2016 年,发布数据平台 Palantir Gotham 和 Palantir Foundry,分别面向公司的政府端客户和商业客户提供图分析服务。

公司发展路线清晰,“G 端-大 B-小 B”战略成效显著。Palantir 最初为美国情报部门开 发软件,以协助反恐调查和行动,客户主要为国土安全部、国家安全局、联邦调查局等政 府部门,而后公司逐步从 TO G 向 TO B 拓展,客户涵盖金融、医疗、传媒等众多行业,其 中不乏空中客车、可口可乐、摩根大通等全球行业巨头。

公司以 Gotham 和 Foundry 两大平台为核心,持续完善行业解决方案,构建完整业务 生态版图。公司基于 Gotham 和 Foundry 两大产品线拥有十余种解决方案,且两大平台分工 明确,Gotham 面向政府客户,而 Foundry 以商业客户为主。 Gotham 大数据分析平台建立真实世界事物特征及彼此联系,深度应用到国防、安 保、反恐等政府端事物领域。Gotham 的运行以多源数据为起点,包括结构化的数据(日 志、财务数据报表、电子表格等)和非结构化数据(视频、邮件、文件、图片等)。 Gotham 可以对这些源数据进行建模,将多个数据源整合成简洁、一致的数据。 传统数据建模通常围绕表单中静态的行和列展开,这种做法其实对于操作人员对数据 在实际场景中的理解和应用并不友好。Gotham 的厉害之处在于它在建模时已经运用了真实世界的现实事物的特征和彼此间的联系,如“人群”、“组织”等,这便大大提高了建模的灵 活性,使模型有了实际意义。Gotham 可以将用户数据更新实时同步,将用户行为自动记 录、归因分析并存储,形成“动态本体”。

拓尔思:语义智能领军者,大数据+AI双轮驱动打开公司广阔空间

Palantir Foundry 起步于金融欺诈识别服务,功能模块不断扩展,应用场景日渐丰 富。Palantir Foundry 前身为 Palantir Metropolis,最初面向企业客户尤其是金融行业的欺诈 行为识别需求,后续业务逐渐拓展至 36 个行业,可以连接到企业数据、专业数据和公共数 据集,实现数据集成、信息管理和定量分析,并发现趋势、关系和异常情况并进行预测。 在后端平台, Foundry 将多个来源的结构化数据整合到连贯的模型中,并对模型执行 复杂计算,同时共享和迭代分析产品;在前端应用程序,它提供了一套集成的应用程序, 让用户可以建立交互。

从 Palantir 的产品可以归纳出,公司的核心优势在于对实际业务场景和数据(包含结构 化和非结构化数据)逻辑的理解更深入,公司用过底层的数据关联推理和知识图谱构建, 突破了人工智能在垂直领域间的壁垒,真正意义上打通了数据“上下游”之间的关系。

2.2.2 营收规模持续成长,边际贡献率升高彰显产品化能力

Palantir 年营收能力持续成长,毛利率稳中有升,支撑百亿美元市值。Palantir 在 2022 年 H1 实现营业收入 9.19 亿美元,2018~2021 年营业收入实现约 37.23%的复合增长率,公 司在业务成长的过程中毛利率稳中有升,2022 年上半年毛利率达到 78.61%,截至 2022 年 11 月 18 日,公司总市值达 185 亿美元。

边际贡献率持续提升,Palantir 公司产品化能力不断提升。Palantir 在历次公司财报中 将“边际贡献率”(Contribution Margin)作为公司的重要经营指标。边际贡献率定义为 “收入减去收入成本(Cost of Revenue)、营销费用(剔除股权激励后)之后与收入的比 值”。边际贡献率的提升反映出公司软件产品的前期部署流程的优化,客户的使用门槛也 将降低,这将极大地有利于公司软件产品规模化扩张的能力。 Palantir 业务边际贡献率接近 60%,公司产品化能力优势显著。Palantir 产品边际贡献 率在 2019Q3 至 2020Q4 实现快速增长,从 15%提升至 61%。公司产品化能力不断提升,有 助于降低产品部署的可变成本,利于新客户拓展及公司业务向新垂直行业场景渗透。

拓尔思:语义智能领军者,大数据+AI双轮驱动打开公司广阔空间

对比 Palantir,拓尔思产品化仍有成长空间。由于 Palantir 与拓尔思财务准则上存在不 一致,我们选择营业收入减去营业成本及销售费用后的余值再除以营业收入作为参考指 标。经计算,公司 2018-2021 年这一指标从 41.00%上升至 50.62%,考虑往年第四季度属于 公司业绩集中确认期,预计 2022 该指标较去年仍有提升。我们认为随着公司产品 SaaS 化 的持续推进,公司产品的规模化盈利能力将不断增强。

2.2.3 业务潜在规模广阔,政府+商业端客户双轮驱动打开成长空间

产品潜在市场规模超千亿,政府与商业客户发展并驾齐驱。据 Palantir 估计,2020 年 公司软件在全球商业领域和政府部门的总潜在市场规模(TAM)约为 1190 亿美元,其中 商业领域的 TAM 约为 560 亿美元,政府部门领域的 TAM 约为 630 亿美元,而在政府部门 领域,公司预计美国政府部门和国际政府部门的 TAM 分别约为 260 亿美元和 370 亿美 元。 在商业领域 Palantir 产品涵盖数据管理、集成和编制、应用程序开发、安 全、系统和 服务管理、分析和人工智能、供应链管理、企业资源管理以及内容和工作流管理 领域。政 府部门方面,公司客户包括美国陆军、海军和空军、美国特种作战司令部疾病控制中心等 众多政府部门。

标准化产品+定制化服务有望成为行业未来理想解决方案,多源数据将成为赛道玩家 核心竞争力。在发展早期,Palantir 也采用项目制针对每个客户提供定制化产品,后续逐渐 转向构建通用软件平台,并将可复用的功能构建成为应用程序,Gotham 和 Foundry 两大产 品便是这一思想的体现。在数据处理层面,Palantir 产品融合了各种不同类型的数据源,其 中 Gotham Video 产品融合了视频数据、时间序列数据与其他标记数据, Gotham Graph 产 品则融合调查报告、统计信息、视频、操作数据等,并最终构建成为知识图谱。

2.3 知识图谱应用领域广泛,有助于公司提高核心竞争力

2.3.1 知识图谱应用前景广阔,市场有望迎来加速发展

知识图谱是新一代的知识工程技术,以 NLP 为底层技术,捕捉数据、信息等内容并 梳理,组合成图谱形式,为 AI 提供知识储备。除了前文提到的专业搜索引擎外,知识图 谱的主流产品形态可按通用型与垂直行业型划分,通用知识图谱强调知识广度,逐渐演变 为通用互联网知识图谱,包含搜索引擎、智能推荐、智能问答等。垂直行业知识图谱强调 知识深度,用于问答、辅助决策与业务分析,是支持 Al 大脑深度思考的知识库基础。

知识图谱技术应用受行业信息化成熟度及需求影响较大,整体规模处于起步阶段,未 来产品专业化和场景化趋势明确。目前知识图谱的应用逐渐从搜索引擎向各细分行业渗 透,但应用受行业信息化与数字化基础、数据质量、场景明确程度、客户方需求等多因素 影响,在各细分行业的渗透进程不一。 互联网与金融为主要应用场景,在信创浪潮下政务、公安等有望提供市场推力,国内 知识图谱市场规模有望加速成长。据艾瑞咨询数据统计,在 2021 年知识图谱核心市场中, 金融和互联网行业占总市场的 35.6%。我们认为,随着政务数字化建设的完善叠加信创浪 潮,政务、公安等行业对知识图谱的业务需求会进一步扩大。根据艾瑞咨询数据,2021 年 中国知识图谱核心市场规模为 107 亿元,预计到 2026 年达到 296 亿元,2021-2026 年 CAGR 约为 22.5%。

拓尔思:语义智能领军者,大数据+AI双轮驱动打开公司广阔空间

公安、金融成为知识图谱商业化应用先头阵地,公司长期布局具备先发优势。艾瑞咨 询数据统计显示,公安、金融、互联网等细分行业未来几年均有望迎来知识图谱商业化应 用的加速发展期,其中,由于公安、金融领域数字化和信息化程度较高,且数据挖掘需求 较大,短期内有望成为知识图谱应用的先头阵地。

2.3.2 公司人工智能产品持续迭代提升,成为政府、金融等多行业决策大脑

AI 进入大数据时代,行业数据作为知识图谱的核心壁垒,公司竞争优势明显。公司从 2010 年开始便自主投资建设大数据中心,目前已具备数千亿数据量的数据索引、标记、查 询、 挖掘分析能力,万亿级数据总量的秒级检索能力,日均亿级数据获取能力。业内领先 的数据分析能力支撑公司多个专业化的数据智能服务,支撑政府、媒体、金融、公安、商 业等多行业用户的智能分析需求。 公司安拓知识图谱平台融合大数据等核心技术,构建大规模领域知识图谱。安拓知识 图谱平台融合了大数据、可视化和知识图谱相关技术,能够构建形成大规模领域知识图 谱,实现知识构建管理、知识语义检索、智能文本提取、智能问答与推荐、图谱关系分 析、地理空间分析等,在知识构建、知识图谱应用、领域知识图谱覆盖等方面均具有优 势。目前产品已应用于政府、国家安全、公安、军事和企业等多个领域。

水晶球分析师平台面向各业务领域专业分析师,支撑专项研究工作。通过 TRS 水晶球 分析师平台,分析师可以通过平台釆集多源异构数据,形成业务领域对象结构化知识。平 台提供知识浏览和编辑、对象检索、关系图分析、地图分析、统计分析等功能,可以结合 时间轴、对象浏览、直方图、数据流等方式多角度探查数据。

拓尔思:语义智能领军者,大数据+AI双轮驱动打开公司广阔空间

3 公司业务场景持续延伸,产品 SaaS 化进程推动业务成长

3.1 虚拟人作为元宇宙核心角色,公司深度布局虚拟人“灵魂”

2022 年全国出台各项元宇宙政策,虚拟现实产业发展进入快车道。战新元宇宙统计数 据显示,今年全国各地相继出台市级、区级元宇宙发展专项政策,对元宇宙产业发展提出 针对性的指导和鼓励政策,旨在未来 3~5 年内构建完善的元宇宙产业生态,推动数字经济 发展,加快虚拟现实技术在各行业和场景下的商业化应用。

数字虚拟人的广义定义为数字化外形的虚拟人物,其核心价值在于打破物理界限提供 拟人服务与体验。随着人工智能技术不断迭代,数字虚拟人将成为虚拟世界中人机互动、 人际互动的重要桥梁,解决用户虚拟环境下工作、娱乐等需求。 虚拟人应用场景不断拓展,可赋能多行业领域。随着虚拟人技术结合实际应用场并形 成行业应用解决方案,目前已经出现了娱乐型虚拟人、教育型虚拟人、助手型虚拟人、影 视虚拟人等,虚拟人已覆盖影视、传媒、游戏、金融、文旅等领域,且可以根据用户实际 需求提供定制化服务。

数字虚拟人应用向多元化发展,潜在市场规模超千亿。目前虚拟人应用逐渐从娱乐 化,向工具化、基建化的形式渗透,应用场景的丰富度和深度均不断提升。根据速途元宇 宙研究院预测,2022 年我国虚拟人整体市场规模将达到约 242.3 亿元,到 2030 年这一市场 规模有望超 3000 亿元。我们预计未来几年内,随着 NLP 等人工智能技术的不断迭代,数 字虚拟人经济将从目前的 IP 经济向人机交互发展,行业有望迎来爆发。

拓尔思:语义智能领军者,大数据+AI双轮驱动打开公司广阔空间

公司依托自然语言处理与行业知识图谱技术积累,积极布局虚拟人赛道,为数字虚拟 人提供“大脑”。 公司与腾讯等国内顶级数字人形象团队签订战略合作协议,实现虚拟人 形象与大脑的有机结合。公司虚拟数字人 SaaS 平台已成为客户订购虚拟数字人的全链服务 平台。公司已成功注册“拓宇宙”商标,未来持续深入元宇宙领域的实践与探索。

公司服务型虚拟人产品已在部分行业成功实践,未来有望渗透更多垂直应用场景。目 前公司已落地了一批服务型虚拟人项目,覆盖了直播带货、智能播报、智能问答等领域, 其中与广东省共建“南方乡村振兴新农人 AI 数智赋能平台”,定位在农产品 直播内容智 能创作的 AIGC 在线服务平台,面向农产品电商主播提供直播脚本智能创作、带货虚拟人 全链租用等知识赋能服务。2022 年北京冬奥会期间,公司发布虚拟人“小思”,实现自动 采编、智能写稿、虚拟播报等全自动功能,通过自然语言处理、知识图谱、机器学习和音 视频分析等技术,在“虚拟人代替人”进程中迈出了重要一步。

签约蓝色光标,服务虚拟人率先落地。2022 年 2 月,公司与蓝色光标达成战略合作, 依托在虚拟主播、智能问答机器人、智能创作、专业领域虚拟人等方面的成功经验,结合 蓝色光标在虚拟及混合现实空间营销、智能虚拟人领域的业务基础,双方将大力推动元宇 宙相关业务开拓。公司将以“虚拟人+”场景为突破口,首先落地服务虚拟人,应用布局将 优先面向金融、传媒、 政府、营销等行业的专业服务场景。

3.2 人形机器人风起,公司联手赛道头部玩家入局有望受益行业发展

全球“机器换人”进程加速,服务机器人市场规模稳定增长,未来人形机器人有望深 入各细分消费端场景。人口老龄化趋势下全球医疗和公共卫生需求持续旺盛,叠加疫情期 间大量面对面场景被无接触服务替代,接待机器人、递送机器人、测温机器人和新零售机 器人等需求增加,服务机器人市场潜力巨大。 全球服务型机器人潜在市场规模超 200 亿美元,国内市场有望迎来加速发展阶段。根 据中国电子学会统计数据,预计到 2023 年全球服务型机器人市场规模将达到 201.8 亿美 元,2016~2023 年 CAGR 约为 24.72%;预计到 2023 年我国服务型机器人市场规模将突破 600 亿,达 613.5 亿元人民币,2016~2023 年 CAGR 约为 37.87%。

拓尔思:语义智能领军者,大数据+AI双轮驱动打开公司广阔空间

语音语义分析作为人机交互核心途径,帮助机器人具备听、说、理解和思考的能力。 语音语义模块包含了语音识别和语义分析两部分,涉及声学信号(声源定位、语音增强 等)、 模式识别(声纹识别、语音识别等)、自然语言处理(自然语言理解、自然语言生成 等)和 语音合成等技术。

小米、特斯拉相继发布商用人形机器人产品,国内外科技大厂加速布局,行业有望加 速发展。2022 年 8 月小米发布人形机器人 CyberOne,搭载自研 MiAI 环境语义识别引擎和 MiAI 语音情绪识别引擎,能够实现 85 种环境音识别和 6 大类 45 种人类情绪识别。特斯拉 发布的人形机器人擎天柱 Optimus,承接自动驾驶技术,AI 智能的核心 Transformer 架构同 样是 NLP 领域的标志性研究成果。

公司深耕 NLP 赛道,语义智能技术优势显著。公司在 NLP、知识图谱、OCR、图像 视频结构化领域均具备自主可控的底层技术并处于行业领先地位,公司未来有望依托语音 语义智能交互,尤其是中文交互领域的技术优势,赋能人形机器人在知识储备、智能交 互、自主决策等方面的能力提升。 公司自研面向中文的智能问答云服务系统“TRS 小思智能问答机器人”。公司该产品 综合运用 NLP、知识表示与推理等技术,通过语法语义分析、问题分类与解析等一系列处 理流程,实现问题解答与人机交互,目前广泛应用于政务智能问答、企业智能客服以及金 融、医疗、教育等领域的知识百科问答。

公司加强与 AI 及机器人厂商深度合作,未来有望成为人形机器人语义智能赛道领军 者。在与 AI 厂商合作方面,公司和北京一流科技等 AI 厂商共同合作研究人形机器人软件 技术以及推广应用。一流科技立足于通用性深度学习标准框架的研发和推广使用,独创了自动数据模型混合并行、静态调度、去中心化和全链路异步流式执行四大核心技术,力争 打造人工智能深度学习框架产品的引领者和事实工业标准。 公司通过与 AI 厂商的深度合作,可将在自身在自然语言处理、知识图谱领域深厚的积 淀与 AI 厂商在深度学习引擎领域的技术优势结合起来,构建机器人软件大脑,研发云端协 同的 AI 算法框架以及面向特定领域的知识图谱技术,培育 AI 算法集市,设计算法模块共 享、交易、分成机制,为机器人厂商提供中立、开放的软件生态并延伸应用场景。 公司持续加强与国内头部机器人厂商合作。公司数字经济研究院成立机器人研究中 心,和优必选、小鹏等企业进行研究和探索。优必选作为国内外领先的机器人厂商,产品 在儿童陪伴、教育等领域均具备显著优势,拓尔思基于多年 NLP 的深厚积淀,能够进一步 机器人的思考和交互能力,为用户提供更拟人化的陪伴和交互体验。

3.3 云和数据服务转型加速,SaaS 化进程加速有望助力公司提升盈利能力

公司多款产品实现全面 SaaS 化,云和数据业务加速发展为公司提供充足动力。2022 年上半年,公司的“数家-资讯大数据平台”、“数星-智能风控平台”、“金融风险监测平 台”、“网察-舆情大数据分析平台”以及“开源情报分析平台”等均已经实现了产品的全 面 SaaS 化,未来随着公司大数据、人工智能业务在应用场景上的延伸,预计将推出更多 SaaS 产品,进一步提升 SaaS 产品收入比例。

拓尔思:语义智能领军者,大数据+AI双轮驱动打开公司广阔空间

公司坚持优先发展云和数据智能服务战略,云和数据服务收入持续增长。公司 2018~2021 年云和数据业务收入高速增长,2021 年相关收入达 3.78 亿元,占营业收入比例 达到 36.84%。在 2022 年经营计划中,公司明确提出支持优先发展云和数据智能服务战 略,预计未来将持续保持较快增长态势。

SaaS 商业模式优势突出,国内市场空间广阔,公司业务转型有望打开成长空间。根据 艾媒咨询统计数据,2021 年中国 SaaS 行业市场规模达 322.6 亿元,预计到 2023 年将达到 约 555 亿元,近几年保持约 30%的复合增长率。与美国对比,头豹研究院数据显示,2020 年中国 SaaS 行业占 IT 整体支出比例为 1.3%,相比于 2011 年的 0.1%大幅增长,但相对于 美国 2020 年的 5.4%仍有很大提升空间。考虑美国 SaaS 产业起步较早,企业数字化程度更 高,未来中国企业 SaaS 有望加速渗透,市场规模前景可期。

SaaS 商业模式具备多重优势,公司加速转型有望进一步提升核心竞争力。公司加速业 务云转型,整个商业模式正由销售解决方案、软件产品全面转向 SaaS 服务模式。传统的数 字政府、融媒体等行业解决方案的生产由重建设转向重运营、重增值服务,通过叠加专业 领域的数据服务,进一步深化服务能力。我们预计未来公司在专利、虚拟人、机器人等新 领域业务开拓中也将采用 SaaS 服务模式,提升公司 SaaS 营收占比的同时,进一步完善业 务生态,提升行业竞争力。

4 拓尔思,三十年耕耘成就语义智能领军者

4.1 深耕语义智能赛道,打造完整业务版图

深耕 NLP 领域 30 年,公司发展成为国内政务领域 NLP 龙头厂商。公司以“语义智能 +”为发展战略深耕多年,主要业务覆盖内容安全和互联网空间治理、数字政府和数据智能 三大板块,向以党政机关及企事业单位为主的下游客户提供大数据检索、智能风控营销、 舆情监控等服务。在数据安全领域,子公司天行网安提供数据安全传输和交换产品及服 务。公司以深耕多年的大数据积累与行业领先的 NLP 技术成为国内政府政务领域 NLP 龙 头,多年以来一直保持行业领先的市场地位。 公司人工智能和大数据核心技术具有跨行业/领域的通用普适性,因此公司技术产品和 服务所支持的业务应用落 地场景众多,涵盖多个行业/领域,大型或头部企业级客户超过 8000 家。在具体客户应用中,公司技术产品的交付部署 模式包括私有云、混合云和公有云 等模式或多模式的融合,满足客户从通用到个性的完整需求。

拓尔思:语义智能领军者,大数据+AI双轮驱动打开公司广阔空间

公司深耕 NLP 赛道三十余年,持续迭代构建牢固护城河。公司于 1993 年成立,坚持 围绕自然语言处理技术,积极自主研发大数据和人工智能技术,具备自然语言处理领域自 主可控的全产业链能力。目前公司及全资/控股子公司拥有 600 余项软件著作权。

4.2 公司股权结构稳定,核心团队经验优势丰富,研发实力雄厚

公司股权结构稳定,通过收购方式进一步完善业务矩阵。公司实控人为董事长李渝 勤,公司前五大股东持股比例达 47.79%,其中第一大股东为信科互动科技发展有限公司, 持股比例为 33%,整体股权结构保持稳定。

公司通过并购业务完善公司业务版图。公司于 2014 年收购天行网安 100%股权,后者 是国内最早从事网络信息安全的企业,产品应用场景覆盖公安、政府和教育等行业,此举 使公司拥有行业级产品应用,为公司产品近公安领域打下了坚实基础;公司自 2013 年持续 参股并至 2018 年持有广州科韵 86.4%股权,后者的大数据一体化平台聚焦于公共安全和政 府领域的应用。 公司目前有天行网安、广拓公司、金新网银等子公司,各子公司业务布局各有侧重, 支撑公司构建了完善的业务生态,未来有望持续赋能公司主营业务向更多垂直行业的细分 场景延伸。

公司技术人员储备丰富,研发能力突出。截至 2021 年末,公司在职员工合计 1631 人,其中技术人员达 1458 人,占比达 89.39%。学历为大学本科及以上的员工数量达到 1348 人,占比达 82.65%,预计公司未来通过储备高学历技术人才,进一步提升产品研发实 力,推动业务向更多应用场景延伸。

拓尔思:语义智能领军者,大数据+AI双轮驱动打开公司广阔空间

4.3 公司营收稳健成长,费用结构合理,发展步伐坚定

公司主营业务收入持续增长,未来业务扩张有望持续提升盈利能力。公司 2021 年实 现营业收入 10.29 亿元,同比均有所下降,系 2021 年公司营业收入不再包含程度子公司 2020 年配套商业房产项目收入和原控股子公司奈特康赛的互联网营销收入所致,剔除上述 影响后 2021 年主营业务收入实现同比增长 31.83%,保持稳健成长。 公司 2022H1 实现营业总收入 4.25 亿元,归母净利润 0.74 亿元,同比分别增长 8.53% 和 36.19%。公司产品 SaaS 化转型有望驱动业务盈利能力进一步增强,基于公司在专利、 虚拟人、机器人等领域的持续探索和布局,看好公司未来打开成长空间。

公司各项费用结构稳定,毛利率与净利率有望进一步提升。2021 年公司销售、研发和 管理费用率分别为 11.50%、9.53%和 14.83%,2018 至 2021 年各项费率保持稳定。公司 2021 年毛利率和净利率分别为 62.13%和 24.12%,近年来稳中有升,公司未来通过云及 SaaS 产品收入比重的持续加大,毛利率及净利率有望继续提升。

4.4 公司覆盖多行业优质客户,现金流保持健康

公司客户优质且粘性高,行业覆盖度持续提升。公司目技术产品和服务所支持的业务 应用落 地场景众多,涵盖多个行业/领域,目前服务大型或头部企业级客户超过 8000 家。 在具体客户应用中,公司技术产品的交付部署模式包括私有云、混合云和公有云等模式或 多模式的融合,满足客户从通用到个性的完整需求,并且企业复购率高,客户粘性好。

货币资金储备充足,公司已为新业务布局做好准备。2022Q3,公司现金储备达 3.85 亿元,现金储备维持健康状态。考虑公司收入集中在第四季度,且未来将持续投入开拓新 业务场景,看好公司基于现金储备优势,加速新业务方面的拓展并保持良好运营状态。

拓尔思:语义智能领军者,大数据+AI双轮驱动打开公司广阔空间

5 盈利预测

营业收入:公司是国内最早从事自然语言处理(NLP)技术研发的企业之一,主营业 务包括人工智能产品及服务、大数据产品及服务和数据安全产品及服务等。公司近年 来稳步发展,产品服务在政府、公安、金融、传媒等领域均具备竞争优势,2021 年营 业收入达 10.29 亿元。公司持续开辟新业务场景,未来有望将产品服务应用到知识产 权、虚拟人、机器人等新赛道,我们预测公司 2022-2024 年营收持续提升,增长率分 别为 27.41%、25.48%和 24.02%,对应营收为 13.11 亿元、16.45 亿元和 20.40 亿元。

大数据服务:根据中国信息通信研究院数据显示,2021 年中国数字经济规模达到 7.1 万亿美元,同比增加约 15.42%,且在未来几年将保持增长态势。数字化转型正由效率 变革向 价值变革、由企业内向产业链价值链拓展,面向实体经济的工业/产业互联网 平台快速发展。公司基于自主建设的大数据中心及语义智能技术,积累了海量数据资 产,同时公司是最早从事中文全文检索技术研发的企业,具有全球领先的智能检索技 术,对标国外龙头厂商 Elasticsearch,其搜索引擎业务在 2019-2021 财年实现营业收入 4.28/6.08/8.62 亿美元,同比增长 57.41%/42.30%/41.72%,公司作为国内少数的搜索引 擎数据库供应商,在国产搜索引擎数据库 0 到 1 的过程中有望驱动相关业务在未来实 现高增长,同时知识产权等领域有望提供业务新动能,公司预计 2022-2024 年大数据 服务业务收入增速为 30.18%、26.84%和 24.69%。

人工智能产品:公司在自然语言处理(NLP)领域有多年的技术及业务积累,在 NLP、知识图谱、OCR、图像视频结构化领域均实现核心技术的自主可控,处于行业 领先地位。根据赛迪研究院预测,我国 NLP 市场规模将在未来几年内保持约 36.5%的 复合增长率,并处于快速产业化应用阶段,公司 2021 年人工智能软件产品及服务业 务实现营收 1.81 亿元,同比增长 51.95%,公司基于 NLP、知识图谱核心技术开发的 人工智能产品及服务,在金融反欺诈、情报分析、人机交互等领域有望打开市场应用 空间,对标海外龙头公司 Palantir,其在 2019-2021 年实现营业收入 7.43/10.93/15.41 亿 美元,同比增长 24.71%/47.15%/41.11%。我们认为随着垂直行业人工智能商业化进程 的加速,以及公司相关产品服务不断延伸应用场景,未来有望保持持续增长态势。我 们预计 2022-2024 年公司相关业务营收增速分别为 41.27%、38.72%和 36.38%。

网络安全产品:公司全资子公司天行网安是国内最早从事网络安全和数据交换的企 业,在数据视频交换、单向导入等方面具有雄厚技术实力,目前形成了边界安全、物 联网安全、大数据安全三大阵营完整产品线和解决方案,并在政府、公安、军队和金 融等行业领域得到广泛应用与认证。公司 2021 年网络安全产品业务实现收入 1.43 亿 元,同比增长 7.63%,根据 IDC 预测,2026 年中国网络安全 IT 支出规模将达到 318.6 亿美元,2022-2026 五年 CAGR 约 21.6%,市场空间广阔。我们认为公司有望受益信 创浪潮,以及网络安全领域需求持续提升,实现相关业务稳定增长态势。我们预计 2022-2024 年公司相关业务营收增速分别为 21.66%、19.53%和 16.96%。

系统集成及其它:该项业务主要为配合公司前述几项业务,2021 年实现营业收入 1.90 亿元,同比增长 210.72%。未来营收有望随着公司前述三大业务规模的成长而增加, 但随着公司加速产品 SaaS 化转型进程,系统集成业务增速可能逐步放缓。预计 2022- 2024 年相关业务营收增速分别为 11%、10%和 9%。

毛利率:2019-2021 年公司的毛利率分别为 61.75%、58.07%和 62.13%,2021 年公司 大数据、人工智能、安全产品和系统集成及其它各项业务毛利率分别为 70.81%、 73.75%、73.72%和 18.76%,其中大数据软件产品及服务的毛利率同比提升了 7.8%, 未来随着公司产品 SaaS 化转型的持续推进,产品服务趋向标准化,毛利率有望持续 持续提升。我们预计公司 2022-2024 年毛利率分别为 63.65%、64.92%和 65.97%。

费用率:销售费用率方面,2019-2021 年公司销售费用率分别为 17.05%、11.05%和 11.50%,考虑公司业务规模成长叠加产品服务标准化程度的提升,公司有望保持销售 费用率在稳定水平,预计 2022-2024 年公司销售费用率分别为 11.27%、11.39%和 11.33%;管理费用率方面,2019-2021 年公司管理费用率分别为 15.58%、8.10%和 14.83%,其中 2020 年由于包含地产业,费用率有出现一定波动,务考虑公司未来整 体管理结构稳定,预计 2022-2024 年管理费用率分别为 15.00%、14.10%和 14.00%; 研发费用率方面,公司 2019-2021 年研发费用率分别为 9.45%、6.26%和 9.53%,考虑 公司未来计划持续投入新产品服务的技术研发,预计将持续储备核心技术人才,预计 2022-2024 年研发费用率为 12.13%、12.01%、11.88%。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

精选报告来源:【未来智库】。「链接」

来源:产业爆告

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年11月2日
下一篇 2022年11月2日

相关推荐