网易数帆数据生产力技术体系

导读:

在数据生产力三大核心方法论的指引下,网易数帆数据生产力技术体系包括四层架构,分别是基础设施层、数据研发层、数据中台层和数据产品层。

在技术架构设计原则上,遵循了正交模块化产品设计、插件化模块设计、分层的软件设计、云原生系统设计、基于OpenAPI的开放技术体系、避免对开源系统的过度侵入等原则。

任何一个方法论的落地,都必须有其配套的成熟工具软件作为支撑,正如埃德加·弗兰克·科德提出关系模型理论,Oracle 是其方法论下最为成熟的关系数据库软件,数据生产力的方法论也不例外。

经过网易数帆多年的实践和持续的打磨,在数据生产力DataOps、DataFusion和DataProduct三大方法论的指引下,构建了面向数据生产力的产品技术体系,这套成熟的技术体系不仅服务于网易内部的各个业务,例如网易云音乐、严选、有道和新闻等。同时在2017年,网易也开始将其通过商业化品牌“网易数帆”进行对外输出,在金融、零售、能源、制造、物流、教育、医药、农业等多个行业进行了应用,并沉淀了最佳案例。

1

网易数帆数据生产力四层技术架构

网易数帆数据生产力的技术体系包括四层架构:基础设施层、数据研发层、数据中台层和数据产品层。数据研发层的核心方法论就是DataOps,数据中台层的核心方法论对应的就是DataFusion,数据产品层则对应的是DataProduct。

网易数帆数据生产力技术体系

1.1 数据基础设施

网易数帆大数据基础设施的核心是以Hadoop为主体构建的物理数据湖,以及基于湖之上的分布式计算引擎。在传统Hadoop部署架构中,HDFS 作为分布式文件系统,提供了数据湖的统一存储底座,Yarn 提供了统一计算资源调度及管理的能力,Hive MetaStore提供了统一的元数据管理,LDAP、Kerberos、Ranger分别管理了用户、认证和权限,Spark,Flink以及Hive,提供了可以弹性扩展的分布式计算框架,这套体系满足了海量数据计算以及存储的需求。

在云原生的时代,计算和存储分离,以支持S3协议的对象存储替换HDFS更满足廉价存储的需求,通过kubernetes实现大数据计算资源的统一管理,能够实现在线业务和离线业务的资源统一调度,甚至可以做到在线和离线的混部,对于提高资源利用率,降低成本有很大的帮助。网易数帆认为存算分离,混合调度,是云原生时代大数据的标准形态,所以已经率先在网易内部开始了实践。

例如,网易云音乐的海外业务,部署在AWS上,我们使用S3替换了HDFS,作为物理湖的统一存储,但是又面临着对象存储的读写性能实际无法满足分布式计算的性能要求,我们必须引入alluxio分布式缓存加速数据的读写性能,目前网易云音乐在海外AWS上部署了超过700Core集群。在网易新闻业务上,已经实现了在线和离线业务的混合调度,利用在线业务凌晨计算资源相对空闲的时间点,将离线业务调度到在线业务的服务器上进行计算,有效提高了资源的利用率,每年为新闻节省了超过百万的服务器成本。网易数帆已经为即将到来的云原生时代做足了充分的技术储备。

在基础设施层,另外一个显著特色,就是我们不仅只有Hadoop体系管理的大数据,还把RDBMS、MPP等系统管理的相对体量较小的数据也纳入了基础设施管理的范畴。我们认为,数据到底是用Hadoop去加工计算,还是用Oracle、MySQL等RDBMS,或者介于其中的MPP,只取决于数据的规模,与是否是企业的数据资产无关。也就是说不论数据是否物理入湖,都可能是企业数据资产的一部分,所以需要统一管理。

为此,网易数帆提出了逻辑数据湖的概念,希望面向用户的数据研发体系和数据中台体系,不仅仅是围绕Hadoop,还要实现其他计算存储引擎的统一管理,构建一个基于元数据的逻辑数据湖,进行统一的数据开发和数据治理,如果数据量不大,可以直接基于RDBMS或者MPP完成数据分析,只有当数据规模或者数据类型无法满足计算要求时,才进行物理入湖。

1.2 数据研发

在数据基础设施之上,是数据研发层。数据研发的核心是构建数据生产的流水线,根据流水线的不同阶段,我们拆分成4个工具产品。

(1)数据集成:数据集成主要完成数据从各种异构数据源的物理入湖的过程,将数据统一抽取到以HDFS构建的物理湖中。按照抽取的方式,又可以进一步细分为批量抽取和实时抽取。批量抽取的数据采集任务按照周期性调度的方式,将数据以全量或者增量的方式,抽取到HDFS中。实时抽取是基于CDC技术,实时摄取数据源的日志,解析数据库变更,实时抽取到HDFS或者Kudu中。

(2)数据开发:数据开发按照开发的作业类型,可以又进一步细分为离线开发和实时开发。离线开发主要完成周期性调度的批量作业的开发,实时开发主要是完成实时流处理作业的开发。数据开发中心,首先必须拥有一个对开发者友好的IDE,具有立即执行、语法检查、日志查看、代码格式化等能力,对于离线开发,还能够支持类型丰富的周期性调度,例如按时间调度是比较常见的调度类型,同时对于证券行业或者其他泛金融行业,调度日历的能力也是不可缺少的能力。与此同时越来越多的企业,不再设置调度时间,而是直接按照任务依赖进行调度。UDF在数据开发过程中经常用到,需要有UDF的统一开发和管理。此外,参数配置管理,资源管理,需要通过参数组和资源组的方式,实现不同任务之间的共享。

(3)数据测试:开发完的代码必须经过数据测试才能发布上线,数据测试中心承担了数据测试的功能,其中包括数据比对、数据形态探查等能力。数据比对,应用的主要场景就是对模型进行增改字段之后,需要进行比对,确保未修改的部分,数据是一致的。同时还用于模型重构和迁移的场景,需要校验重构前和重构后数据是否一致。数据形态探查,主要用于三个场景,其一是对抽取到ODS层的原始数据进行探查,了解数据的分布,形成数据标准,为后面的建模和配置质量稽核规则提供准备。其二是读取一个已经存在的模型数据,进行下游的任务开发,需要了解模型中数据分布,为后续开发做准备。其三,是开发完成以后,需要对数据进行探查,查看数据的分布是否满足预期。

(4)任务运维中心:数据发布上线后,数据开发需要通过任务运维中心,完成对生产任务的监控及故障处理。任务运维中心,首先提供的是任务的监控报警能力,对于海量任务的监控,还必须用到“基线预警”。基线代表的是一组任务的最迟产出时间,一方面,我们对于数仓,可以按照分层的方式,设置多条基线,例如在严选,我们设置了2点半作为DWD(明细层)的基线,4点半作为DWS(轻度汇总层)的基线,6点半作为ADS(应用层)和DM(集市层)的基线,任务运维中心可以根据任务之间的依赖关系,对基线的产出时间进行预测,提前发现因为上游任务延迟,导致基线任务产出延迟的问题。任务运维中心,同时还需要提供任务重跑,冻结池等能力,可以快速完成故障的处理和恢复。

1.3 数据中台

在数据研发之上,就是数据中台层。数据中台又可以细分为数据治理和数据服务两个部分。网易数帆数据治理的所有工具构建在一个统一的元数据中心的基础之上。元数据中心可以完成各种异构数据源的元数据采集和管理的功能,元数据的范围包括数据字典、数据血缘以及数据特征等。基于统一的元数据中心之上,我们有7个面向不同方向的数据治理的工具产品。

(1)指标系统,是实现DataFusion 统一指标管理的工具产品,它能够实现指标的规范化定义和发布审批流程,消除指标口径的二义性。对于数据开发而言,指标系统规范了数据开发的需求,对于数据产品来说,指标系统提供了统一的指标管理能力,对于业务人员来说,指标系统提供了统一的指标字典,可以查看企业所有指标及其口径定义。

(2)模型设计中心,实现DataFusion 规范、高复用模型设计的工具产品,基于维度建模的基础方法论,实现数据建模,提高模型设计的规范化和复用性。模型设计中心,提供了模型设计统计指标,从跨层引用率,模型复用度等多个维度,统计展现当前数仓模型设计的质量,是否达到面向数据中台的模型设计要求。

(3)数据地图,提供了企业统一的数据资产门户,不论是业务人员,还是开发人员,都可以基于数据地图,发现数据,找到自己需要的指标、标签、模型等。数据地图不仅涵盖了Hive Meta注册的Hadoop体系内的元数据,还包括了Oracle,MySQL,Greenplume,HBase,Vertica等非Hadoop体系的元数据。同时,数据地图还提供了元数据管理的能力,数据源owner可以配置元数据的采集范围、采集频率以及监控采集的任务。

(4)数据资产中心,实现了DataFusion 基于ROI的数据资产管理的工具产品。数据资产中心承担了数据治理的入口的功能,它立足于数据健康分,从质量、安全、成本、价值、架构等多维度评估数仓建设水平,基于问题驱动数据治理落地。特别需要指出的是,数据资产中心基于应用粒度的ROI分析,以数据应用的访问频率和访问用户数作为价值体现,以数据应用上游链路的所有数据模型加工和计算存储的资源消耗作为成本,分析数据应用的ROI,推动剥洋葱式的从数据应用开始,逐层下线低价值的数据,沉淀真正的数据资产。

(5)数据质量中心,主要负责全链路的数据质量稽核监控。数据质量中心,立足于数据一致性、完整性、准确性、及时性、有效性、唯一性六大原则,提供了丰富的数据稽核规则模版,对全链路数据生产进行卡点稽查,如果不符合设定的校验规则,则认为数据质量出现风险,可以选择中断任务进行处理,也可以作为报警事件进行后续跟踪。

(6)数据安全中心,主要负责安全管控的相关工具产品,安全涉及权限的管理,权限授权,数据脱敏,数据加密,数据安全等级,敏感数据识别,权限治理,安全审计以及异常行为识别等能力。

(7)数据标准中心,主要负责数据标准的制订、审核和发布管理。数据标准,与模型设计中心能够进行配合使用,模型设计中心可以直接选取数据标准中的数据元作为建模的字段,同时标准还和数据质量中心能够进行联动,每个数据标准的数据元都有其对应的稽核规则,如果模型中引用了该数据标准,则可以直接将该标准对应的稽核规则添加到数据模型上。

1.4 数据产品

数据产品,可以分为两个大类,一类是一些通用数据产品,例如满足不同人群取数需求的自助取数,以及满足人群画像分析的标签工厂,这类数据产品不区分业务场景,对每个企业几乎都可以直接用。另外一类是场景化的数据产品,网易数帆数据生产力技术体系能够提供的是以无代码的方式开发这些数据产品的工具链。

(1)数据门户:提供了业务人员看数据和用数据的一站式站点。数据门户提供了统一导航的功能,用户可以设置多级导航,将不同报表看板组织成数据门户。数据门户又可以分为移动端和PC端。数据门户同时也可以集成到一些业务系统中,作为子模块存在。

(2)可视化报表:主要基于数据模型的基础上,生成不同类型的可视化图表,包括指标卡、透视表、桑基图等,可视化报表是数据产品的核心组成部分,这些生成的图表最终被嵌入到数据门户中,展现到业务人员面前。

(3)智能决策:智能决策包括智能预警、异动分析和决策引擎三个功能。智能预警可以基于图表,也可以基于模型实现异常数据的监控。对于发现的异常数据,可以通过异动分析,实现类似杜邦分析的能力,找到指标异动的根因。根据问题的原因,可以在决策引擎中,产生对应的事件,作为决策建议。决策引擎实现了数据到决策的转换。

(4)连接中心:智能决策产生的建议,最终要通过业务系统完成决策的执行,所以连接中心,可以通过webhook的方式,将决策推送给业务系统,在业务系统中实现决策执行。

(5)算法平台:在网易数帆数据生产力的技术体系内,我们将算法平台放到了数据产品层,主要原因是算法平台在该体系内发挥的主要作用是通过算法学习能力,发现异常原因,提供更精准的决策建议。算法平台又可以细分为传统机器学习算法和深度学习算法。例如,在网易严选的供应链决策协同系统河洛中,我们使用了随机森林等算法,进行销量预测,提高补货的精准性。

(6)数据文化分享中心:网易数帆为了鼓励一线业务人员在自己的日常工作中更多使用数据,指导业务决策,构建企业人人用数据、时时用数据的企业数据文化,每年会举办数据分析大赛,让各个岗位的基层员工来分享他在工作中是怎么做分析的,这些故事性很强的案例最终会沉淀到数据文化分享中心中,作为案例,提供给更多的人学习。

2

网易数帆数据生产力技术架构原则

网易数帆在构建数据生产力技术体系之初,就设计了一系列的技术架构原则,这些原则指导了后续网易数帆数据生产力软件的系统架构设计。

2.1 模块化产品设计

一个复杂庞大的软件,对于使用者来说,不仅操作入口极深,学习和使用成本都非常高。互联网产品的一个核心设计思维就是以用户为中心,一切产品的设计,都为了让用户用的更爽,操作更简单,使用更流畅。所以我们摒弃了传统软件堆砌功能的设计模式,采用了模块化产品矩阵的方式,通过设计很多灵活的子产品,每个产品聚焦一个功能场景,简化用户的操作入口,提高产品的易用性。例如在网易数帆数据生产力技术体系中,数据安全中心、指标系统、模型设计中心、数据标准等每一个模块都是一个独立的产品,我们在一个产品中就可以完成一个相对聚焦的功能闭环。

通过模块化的方式构建产品矩阵,对于商业化也非常重要。每个企业所处的阶段各不相同,面临的问题也有很大的差异,业务模式的不同,导致企业对数据分析的敏捷度和规范性有不同的要求,所以并不是每个企业的都需要相同的产品,我们必须要针对企业面临的问题,根据企业的需求,制订不同的解决方案,这就需要我们的产品能够以套餐的方式,进行灵活的组合售卖。

例如,对于业务模式创新速度非常快的互联网企业,数据标准显然并不是首要考虑的因素,敏捷开发是他们迫切需要解决的问题。但是如果换做是一个证券公司,它的业务模式非常的稳定,以数据标准为核心的数据治理投入产出比就非常高。所以产品矩阵的模式增加了产品售卖的灵活性。

模块化产品矩阵的设计模式,也推动了网易数帆工具技术软件研发效率的提升。原先单个产品,只能按照固定的迭代周期进行发布上线,一个月更新一次,而现在有20多个子产品,每个产品都可以并行进行开发发布上线,每周就有好几次软件发布。

模块化产品矩阵的构建,离不开以下系统设计:

(1)可扩展的控制台架构,虽然产品功能被模块化为多个子产品,但是租户、工作空间、人、角色、数据源等必须是统一的,为了保证用户的交互体验,我们必须拥有一个可扩展的控制台,子产品可以按需加入到控制台中,在同一个控制台用户可以进行随意切换到不同的子产品中。

网易数帆数据生产力技术体系

(2)可扩展的IAM 架构,IAM(Identity and Access Management)最早出现在AWS中,提供统一的用户识别和细粒度的访问控制管理的能力,所有接入控制台的子产品,需要通过IAM 实现安全访问控制。管理者在同一个IAM中可以完成不同子产品的权限控制。

(3)可扩展的监控和报警架构,为接入控制台的不同的子产品,提供统一的监控和报警能力,用户只需要在同一个地方就可以完成所有产品的监控报警的设置,同时也避免每个子产品重复开发相关的能力。

2.2 插件化系统设计

在数据生产力技术体系内会存在很多集成型(Hub)系统,例如元数据中心,它需要采集不同类型的数据源的元数据,需要对接不同的数据源系统;数据传输,需要完成不同的数据源之间的数据交换。对于集成型系统,我们可以将不同数据源的对接部分设计为不同的插件,将公共逻辑抽象出来,对于不同的数据源,我们只需要研发对应的插件即可,大幅度提高了数据源的对接效率。

例如,在数据传输工具中,我们可以把公共处理逻辑,比如字段映射,数据分片,并发控制等抽象为Server,然后针对不同的数据源,设计不同的Reader和Writer插件。

网易数帆数据生产力技术体系

同时,插件化的设计也赋予研发模式更强的灵活性,不同的企业可以根据自己用到的数据源设计不同的插件,然后贡献给工具产品。在网易,虽然工具技术平台统一都是由网易杭州研究院提供的,但是很多数据源的插件都是各个业务自己开发,然后贡献给杭研院的。我们非常提倡这种集体贡献的开发模式。

插件化设计另外一个优势还体现在系统升级过程中,当我们新增一个数据源时,不需要进行系统发版升级,只需要部署一个新的插件即可,这点对于商业化尤为关键,因为每个企业技术栈都有差异,涉及到的数据源各不相同,如果每部署一个客户,都需要重新发版升级,必然无法满足商业化交付效率的要求。

2.3 分层的软件设计

网易数帆认为,在大数据软件产品设计过程中,应该充分采用分层的软件设计。从网易数帆数据生产力技术架构中,我们可以看到它被划分成4层架构,基础设施层、数据研发层、数据中台层和数据产品层,每一层之间都可以解耦。例如网易数帆的数据研发和数据中台相关系统不绑定Hadoop发行版,既可以对接网易数帆自己的Hadoop版本,同时也可以对接像HDP、CDHCDP、Fusion Insight等其他Hadoop发行版。

分层的软件设计有助于构建开放的技术体系。分层赋予了软件更强的灵活性,在每一层之上,可以构建开放的生态,生长出更多的优秀软件。例如在大数据基础设施层软件中,HDFS和S3是存储层,在其之上,可以有ORC、Parquet、JSON不同的数据格式,再往上,又可以有不同的计算引擎,例如Flink、Spark,编程接口可以支持Flink SQL、Spark SQL等。

分层的软件设计增加了商业化灵活性。在网易数帆对外商业化过程中,很多用户都已经构建了大数据的基础计算存储平台,他们需要的可能是网易数帆敏捷数据研发的能力或者构建数据中台的能力,这个时候,就需要数据研发和数据中台相关系统能够对接不同的基础设施。

分层的软件设计还有助于提高软件的研发效率,降低运维升级故障。例如,通过将产品需求比较集中的数据研发和数据中台软件,与需求相对较少,对稳定性要求更高的基础设施层软件进行解耦,我们可以保证数据研发和数据中台层软件以更高的频率进行迭代更新,而基础设施也可以避免频繁升级导致的各种运维故障。

2.4 云原生系统设计

网易数帆认为,未来的软件设计,必须满足云原生的软件设计原则。云原生的软件,应该是分布式、无状态、能够基于kubernetes部署,对于流量型服务同时还要能够根据流量的变化进行动态伸缩,这也是对数据生产力软件的设计要求。例如在数据服务的系统设计中,系统有管控服务、API服务和网关服务。每一个发布的API都可以被运行在kubernetes管理的容器中,且可以根据API的调用量实现多副本伸缩。

2.5 基于OpenAPI 构建开放的技术架构

一套标准的数据生产力软件产品,有可能无法满足企业的所有需求,必然会面临一些定制化场景,例如企业需要构建自己的数据资产门户,在门户中甚至要融入一些业务流程,那标准工具产品必然无法满足需求,此时就需要数据生产力软件开放出来更多的OpenAPI,允许企业基于API的能力,构建出满足企业定制化需求的产品。

OpenAPI构建的开放的技术架构,促进了网易数帆数据生产力软件的持续创新。我们鼓励更多的企业基于网易数帆数据生产力软件提供的API能力进行持续创新,解决在实际数据建设过程中遇到的问题,网易数帆可以将这些成熟,具备复用价值的工具再吸收回网易数帆数据生产力的软件体系内。

开放 OpenAPI 降低了产品需求的交付压力。因为网易数帆数据生产力软件也在持续的创新过程中,面临很多新的产品需求,如果开放了丰富的OpenAPI,用户就可以自己去解决问题,不至于一直阻塞在产品的研发进度上。

最后OpenAPI 也增强了软件的粘性。因为一旦用户基于软件提供的OpenAPI构建了更多的系统,那这些API 也增加了用户替换软件的成本,对于软件来说,地位就会更加牢固。

2.6 避免对开源系统的过度侵入

网易数帆一直坚持开源的技术路线,这也同样体现在数据生产力的技术体系中。我们基于开源的Hadoop体系之上,构建了数据研发平台和数据中台系统。开源的优势在于可以持续的享受社区的红利,但是如果因为产品需求,我们侵入到开源系统中,对开源系统进行了深度定制,最终就会导致与开源社区版本脱离,无法享受升级新版本带来的能力提升,也失去了开源技术路线的价值。

网易数帆在过往的技术迭代中吃过类似的亏,例如,为了实现表授权,同时自动对HDFS 目录授权的功能,直接修改了Ranger的代码,导致Ranger 后续无法升级。为了汲取类似的教训,网易数帆制订了避免对开源系统过度侵入的系统设计原则。但是为了实现业务的需求,我们可以在开源系统外围设计一个独立的服务,将产品需求集中在该服务内,同时该服务通过开源系统提供的标准接口,与开源系统进行交互。这样既可以实现产品的需求,同时也避免了对开源系统的过度侵入。

3

网易数帆数据生产力技术优势

网易数帆数据生产力的技术架构具备以下优势:

3.1 领先方法论驱动的产品技术创新

网易数帆始终重视且坚持,以领先方法论驱动产品技术创新的模式。方法论是对产品技术体系化思考后沉淀的经验和原则,方法论能够帮助我们发现过往产品技术的不足,同时还能够指导后续我们的发展方向。

例如,我们在做数据研发层软件设计时,发现业界几乎所有的数据研发类软件提供的都是数据开发和任务调度的能力,缺少对数据测试的支持。但是如果我们是站在DataOps的角度,从构建数据生产流水线出发,以CI/CD的方式去思考,那就应该要有数据测试的能力。

通过跟实际业务的调研,发现数据开发确实在数据测试方面存在痛点,所以我们设计了数据测试中心这款工具,用于数据开发阶段的数据测试,获得了良好的应用,这就是典型的以方法论驱动的产品创新案例。

这种模式也使得网易数帆对产品技术的思考更加全面,更加系统化,从网易数帆数据生产力的产品技术架构中,也可以看到网易数帆的全栈产品能力,虽然产品模块很多,但是每一个产品都是紧密围绕DataOps、DataFusion和DataProduct这三个核心方法论设计的。

3.2 网易内部业务的持续实践

网易数帆数据生产力产品技术是经过网易内部多元化业务长年实践积累下来的,经历过网易严选复杂业务形态的考验,也经历过网易云音乐海量数据规模的验证,与其他纯做数据中台或者数据产品的软件公司不同,我们不是以项目交付制的方式研发产品,而是真正从使用者的角度去思考,如何去构建一个对业务有价值的产品,所以内部业务是网易数帆数据生产力软件最大的试金石,内部业务面临的问题也是网易数帆数据生产力软件持续创新的需求来源。

3.3 基于开源的技术架构

网易数帆积极拥抱开源社区,并且也在持续回馈开源社区。网易数帆数据生产力基础设施软件完全是基于开源的技术体系构建的,针对开源软件的bug缺陷,进行了修复,同时针对功能的不足,进行了增强。我们也积极将我们针对开源社区软件的修改,回馈给社区。

在Spark 3.0的全球个人贡献排名中,网易排名高达全球第二。在2021年6月21日,由网易数帆贡献的Spark 数据湖探索服务Kyuubi被全球顶级开源组织Apache 基金会以全票通过的表现,正式进入Apach 基金会孵化器。

基于开源技术体系的优势,在于企业可以招到更多的人去维护软件,在使用过程中的问题,也可以在社区找到问题的解决方案,降低软件使用的门槛。同时,开源技术体系,也可以让企业不被特定的软件厂商绑定,企业的自主可控权增加。

3.4 支持跨云的软件定位

网易数帆数据生产力软件对自己的商业化定位非常的清晰,我们不是一个云厂商,我们是一个专注于基础软件的服务商,这就是说,我们跟云厂商不是竞争的关系,而是可以合作共赢的关系。从软件定位上,我们可以支持跨云的软件部署,让用户不被某个云厂商绑定。我们和云厂商的边界,在于我们只使用云厂商提供的基础计算和存储资源,例如我们提供的Spark 运行在云厂商提供的Kubernetes集群上,我们提供的Alluxio构建在云厂商提供的对象存储服务之上。

同时,我们还可以支持混合云部署,在云上和云下,用户都可以通过一套软件统一的开发和管理。例如,在德邦物流,它有云上和云下两个集群,网易数帆数据生产力软件在云上构建在华为云提供的OBS对象存储服务之上,同时云下还管理了数百台物理集群。

网易数帆认为,一个成熟的大数据商业生态,它一定是分层的,这点在较为成熟的国外市场已经得到过验证,AWS 提供了基础的计算、存储资源,解决了资源弹性伸缩的问题,Informatica提供了大数据的开发和数据治理套件,解决了数据研发和管理的问题,Tableau提供了可视化分析的能力,解决了敏捷数据分析的问题。

但是在国内,云厂商为了增强自己在竞争过程中的优势,加强用户的粘性,不仅提供了基础资源,还提供了上层的工具产品,但是这些软件,从商业化定位来看,它的目标是服务于用户更好的使用资源,本质还是在资源上,所以它必然不会提供跨云支持的能力。

4

作者简介

孙仲谋,网易数帆大数据专家,大数据平台负责人,曾任网易云数据库产品负责人,十多年互联网数据研发和管理经验,网易数据中台建设的亲历者和实践者。

来源:一个数据人的自留地

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年3月9日
下一篇 2022年3月9日

相关推荐