云数据人工智能管理平台
(CMP Runtime 7.3)
哪些用户需要迁移
原社区版用户

社区版不再更新

Cloudera(Cloudera和Hortonworks

合并后)所有产品不再提供社区版, 用户无法获取新的功能。
Cloudera(Cloudera和Hortonworks合并后)所有产品不再提供社区版,用户无法获取新的功能。

社区版不再免费

2021年1月31日开始,所有Cloudera软件都需要有效的订阅,且订阅费昂贵(50个节点,一年订阅费50万美元)。
原企业版用户

企业版不再更新

Cloudera 和Hortonworks合并后推出了新一代大数据平台CDP,CDH6和HDP3将是CDH和HDP的后企业版本,用户无法继续获取新的功能和性能提升。

企业版不再服务

至2022年3月份,CDH/HDP
全部EoS,用户没办法获取 售后支持。
至2022年3月份,CDH/HDP全部EoS,用户没办法获取售后支持。
Release GA Date Eos Date
Cloudera Enterprise 6.3 July 2019 March 2022
Cloudera Enterprise 6.2 March 2019 March 2022
Cloudera Enterprise 6.1 December2018 December 2021
Cloudera Enterprise 6.0 August 2018 August 2021
Cloudera Enterprise 5.16 November 2018 December 2020
Cloudera Enterprise 5.15 June 2018 December 2020
Cloudera Enterprise 5.14 January 2018 December 2020
Cloudera Enterprise 5.13 October 2017 October 2020
Cloudera Enterprise 5.12 July 2017 July 2020
Cloudera Enterprise 5.11 April 2017 April 2020
Cloudera Enterprise 5.10 January 2017 January 2020
Cloudera Enterprise 5.09 October 2016 October 2019
迁移方向
方向一
方向二
方向三

CDP

CDP是 Cloudera 和Hortonworks 合并后发布的新产品,融合原来CDH和HDP能力并增加了一些新功能和BugFix,支持云部署等能力。
虽然CDP提供了一些新能力,也将继续更新并提供支持,但外国的软件无法适配国产软硬件生态(国产芯片、操作系统、服务器、中间件),技术方向不能自主可控,许可证
也受外国法律限制,近期俄罗斯事件将这方面风险彻底暴露:
CDP是 Cloudera 和Hortonworks 合并后发布的新产品,融合原来CDH和HDP能力并增加了一些新功能和BugFix,支持云部署等能力。虽然CDP提供了一些新能力,也将继续更新并提供支持,但外国的软件无法适配国产软硬件生态(国产芯片、操作系统、服务器、中间件),技术方向不能自主可控,许可证也受外国法律限制,近期俄罗斯事件将这方面风险彻底暴露:

Oracle宣布暂停在俄业务

2024年3月3日,Oracle发推文称:“为了Oracle在全球各地的150000名员工的利益,
为了支持乌克兰民选政府和乌克兰人民,Oracle公司已经暂停了在俄罗斯联邦的所有业务。
2024年3月3日,Oracle发推文称:“为了Oracle在全球各地的150000名员工的利益,为了支持乌克兰民选政府和乌克兰人民,Oracle公司已经暂停了在俄罗斯联邦的所有业务。

众多科技公司断供俄罗斯

下一个或是GitHub?

外媒消息称,全球第一代代码托管平台GitHub 正在考虑限制俄罗斯开发人员使用开源软件。尽管此类软件的使用是免费的,但它的许可协议仍然存在诸多限制,包括禁止受
制裁的国家使用原本对公众免费开放的代码。
外媒消息称,全球第一代代码托管平台GitHub 正在考虑限制俄罗斯开发人员使用开源软件。尽管此类软件的使用是免费的,但它的许可协议仍然存在诸多限制,包括禁止受制裁的国家使用原本对公众免费开放的代码。

国内封装的Hadoop商业版

对开源组件进行封装,安装部署运维方面有一些增强。
但是不可避免的,封装开源组件始终是受制于国外法律与国际形势,风险与方向一“迁移到CDP”相当。
对开源组件进行封装,安装部署运维方面有一些增强。但是不可避免的,封装开源组件始终是受制于国外法律与国际形势,风险与方向一“迁移到CDP”相当。
同时,对开源组件进行封装的厂商无法获取 新的源代码。另外,很多人认为有源代码就
可以自主可控,实际代码只是一个技术的载体,仅仅拥有源代码并不代表拥有核心技术,
数千万行代码里扫清有意无意的漏洞根本不现实,拥抱开源的同时也一定拥抱了风险。
随着美国公司Cloudera不再更新社区版,这一类产品将无法获得能力更新,除非也升级
到CDP,完全走向方向一。
同时,对开源组件进行封装的厂商无法获取 新的源代码。另外,很多人认为有源代码就可以自主可控,实际代码只是一个技术的载体,仅仅拥有源代码并不代表拥有核心技术,数千万行代码里扫清有意无意的漏洞根本不现实,拥抱开源的同时也一定拥抱了风险。 随着美国公司Cloudera不再更新社区版,这一类产品将无法获得能力更新,除非也升级 到CDP,完全走向方向一。

国内自主研发大数据产品CMP

Cloud Data AI Management Platform(CMP V7)是北京建研凯信自主研发的企业级
一站式多模型大数据基础平台,采用领先的多模型技术架构,8种存储引擎支持10种
数据模型,成套的工具组件让系统的安装部署、扩容升级、安全防卫、风险告警、
权限管理等工作变得更便捷。在技术领先性、性能、易用性、安全性、售后服务等
诸多方面具有优势。同时,国产自主研发的CMP对国产化生态具有高度兼容性,满
足信创验收要求。
Cloud Data AI Management Platform(CMP V7)是北京建研凯信自主研发的企业级一站式多模型大数据基础平台,采用领先的多模型技术架构,8种存储引擎支持10种数据模型,成套的工具组件让系统的安装部署、扩容升级、安全防卫、风险告警、权限管理等工作变得更便捷。在技术领先性、性能、易用性、安全性、售后服务等 诸多方面具有优势。同时,国产自主研发的CMP对国产化生态具有高度兼容性,满足信创验收要求。
迁移到不同平台后获得的能力
迁移到国产自主研发大数据产品CMP

如果你关注功能

CMP多模架构、支持关系表、文本、时空地理、图数据、文档、时序等在内的10种数据模型;离线数据批处理、高并发的在线数据服务、数据集市、数据仓库、数据湖、图存储分析、空间数据存储、实时数据处理、数据中台、数据治理等各类大数据业务场景一站解决。

如果你关注性能

CMP自研高性能分布式计算和存储引擎,整体性能是CDP的5~25倍。

如果你关注开发

CMP完整支持SQL2003标准,支持PLSQL存储过程,兼容Oracle、DB2、Teradata等方言,无需每个场景一套接口。

如果你关注运维

CMP提供开箱即用的可视化运维监控、安全管控工具,容器技术带来好的的安装、升级、补丁体验。

如果你关注售后

CMP研发与支持团队认证的大数据工程师,专业性更强, 售后无忧。

如果你关注架构

CMP提供统一SQL引擎、统一计算引擎、统一分布式存储管理、统一资源调度,统一内联架构,高效搞定湖仓集一体、HTAP等复杂场景,无需平凑组件散装架构。

如果你关注安全

CMP提供的容器隔离、灾备、访问控制、联邦学习、隐私保护、可信计算等技术保障网络层、加固层、治理层、流通层全方位数据安全。

如果你关注国产化

CMP完全自研,通过工信部代码自主研发率扫描测试。同时CMP完成了与主流信创生态厂商的适配互认工作,满足信创验收要求。
CDH/HDP迁移到CMP将获得的能力
数据库能力
支持SQL2003标准,兼容Oracle、DB2、Teradata等方言,支持PLSQL存储过程;分布式事务支持,且锁粒度细,性能优于Hive 3事务;Inceptor on 自研内存引擎,比Hive on Tez ETL性能更高;
改进的物理计划,支持物化视图,提供向量化执行和CodeGen能力;提供一体多模的SQL编译层和执行层,支持多模态数据的联邦计算和存储。

{{item.name}}

CDH迁移到CMP将获得的新能力对比
CDP新能力
CMP相关能力对比
动态行过滤和动态列掩码基于属性的访问控制SparkSQL细粒度的访问控制Sentry到Ranger的迁移工具
策略和授权
CMP支持完整的行、列、基于属性的访问控制,并为sql提供了多种调度策略和访问权限控制,效果更好,同时task级别的调度和重试机制更加精细。
元数据、血缘和监管链,高级数据发现和业务词汇表Navigator到Atlas的迁移,提高了性能和可伸缩性
数据治理
CMP产品具备完整的数据开发和数据治理功能,包括数据库在线开发与协同,任务调度,数据整合,数据安全防护,元数据管理,数据资产目录,数据服务开发管理,标签管理,数据商城功能,更早更全。
支持与HDFS、AWS S3和Kafka流的Kafka Connect对Kafka集群的集群管理和复制支持使用Cruise Control在集群之间存储和访问架构以及重新平衡集群
流处理
CMP支持StreamSQL技术,支持kafka Connect以及流表的Adhoc查询,流入库和流计算吞吐更高、延时更低。
支持具有完成ACID事务功能的标准SQL、二级索引、星型Schema支持基于表的视图
运营数据库
CMP产品具备完整的数据开发和数据治理功能,包括数据库在线开发与协同,任务调度,数据整合,数据安全防护,元数据管理,数据资产目录,数据服务开发管理,标签管理,数据商城功能,更早更全。
Hive-on-Tez提供更好的ETL性能ACID事务,ANSI 2016 SQL支持,主要性能改进
数据仓库
CMP含了分布式分析性数据库ArgoDB,实现了结果缓存、物化视图、CBO改进,向量化计算引擎等,TPCDS1TB测试相比于hive on Tez平均有5性能提升。
Apache Ozone提供HDFS 30倍的可扩展性,支持100亿个对象S3原生支持
存储
CMP提供HDFS 50倍的可拓展性,支持对象存储,支持500亿个对象。
使用Knox的基于网关的SSO支持Ranger KMS-KeyTrutee集成支持新的Key HSM版本
安全
CMP已经支持SSO和KMS的能力。
迁移方向的对比分析
以下分别从兼容性、技术领先性、性能、易用性、稳定性、灾备与可靠性、安全性、自主可控、国产生态、解决方案、售后服务等多方面对比各迁移方向,供用户参考。兼
容性兼容性,直接决定迁移成本。很多客户认为CDP是CDH/HDP的高版本,应可以平滑升级,基于开源整合的产品,也可以平滑升级,而CMP是国内自主研发的大数据产
品,兼容性不好,升级成本高,其实不然。

以下分别从兼容性、技术领先性、性能、易用性、稳定性、灾备与可靠性、安全性、自主可控、国产生态、解决方案、售后服务等多方面对比各迁移方向,供用户参考。兼容性,直接决定迁移成本。

很多客户认为CDP是CDH/HDP的高版本,应可以平滑升级,基于开源整合的产品,也可以平滑升级,而CMP是国内自主研发的大数据产品,兼容性不好,升级成本高,其实不然。
CDP
1.CDH 5升级CDP有严重组件版本兼容性问题, 包括 sentry 换成ranger,Hive2 升级到 Hive3,升级对组件的兼容性影响大;
2.例如:某客户CDH5升级到CDP的升级时间长达数月之久。
开源封装产品
1.基础存储和计算组件同样有兼容性问题;
2.CDH安全、运维管理等不开源组件和功能无法升级,且目前没有很好解决方案。
CMP
1.CMP基础存储和计算组件兼容CDH/HDP,迁移成本低;
2.CMP提供迁移工具,数据一键迁移;
3.大量迁移成功案例,不存在迁移风险。
在国产生态方面,CMP已经有非常多落地案例,并且性能提升明显。在不同指令集的CPU架构均表现出优异的性能,如ARM(鲲鹏)和X86(海光)在CPU密集型计算和
IO密集型计算上性能提升显著。
在国产生态方面,CMP已经有非常多落地案例,并且性能提升明显。在不同指令集的CPU架构均表现出优异的性能,如ARM(鲲鹏)和X86(海光)在CPU密集型计算和IO密集型计算上性能提升显著。
解决方案
CDP/开源封装产品,每个场景需要一个组件独立交付,开发语言和接口基本完全不同,客户新业务开发、业务需求变更成本很高。
CDP大数据底座
数据底座
{{item.name}}
流转链路与数据一致性

CDP/开源封装产品

•链路冗长,使用散装架构,开发运维成本高,数据需要导入导出,数据一致性难以保证。

CMP封装产品

•链路简单,统一架构,一体化建设,开发运维成本低。统一的计算引擎,避免数据导入导出。统一的分布式存储管理系统:有效保障数据一致性
跨库关联分析

CDP/开源封装产品

•链路简单,统一架构,一体化建设,开发运维成本低。统一的计算引擎,避免数据导入导出。统一的分布式存储管理系统:有效保障数据一致性

CMP封装产品

•通过统一SQL编译器、统一计算引擎,统一元数据的湖仓一体能力即可支持Inceptor, ArgoDB,Scope等跨库关联复杂分析场景,简单易用,时效性高。
兼容性

CDP/开源封装产品

•CDH/HDP/CDP以及开源相关组件没有对国产生态做过适配,兼容性差

CMP封装产品

•适配华为&飞腾ARM架构、龙芯MIPS架构、神威Alpha架构
•适配中标麒麟、银河麒麟、UOS等
•支持X86与ARM架构混合部署
•与符合信创的国产软硬件兼容性好,且拿到相关互认证书
•满足信创验收要求
一体多模数据支持

CDP/开源封装产品

•Hive、Impala等CDP组件在构建数据湖应用的时候没有统一入口,对于不同类型的数据需要开发不同的作业,开发复杂。

CMP封装产品

•在SQL编译器层支持多模数据的存储,对外提供统一SQL编程模型,构建数据湖应用方便快速。
存储能力

CDP/开源封装产品

HDFS分布式文件系统数据湖应用中存在技术上的局限性,写入性能差,且因为小文件和Block Report等问题不能管理数据湖海量文件

CMP封装产品

•自研的TDFS分布式文件系统使用更先进的元数据管理架构,支持的文件数能够达到百亿级别。
使用分布式一致性协议算法,提高写入数据可靠性的同时写入性能也得到了提升
SQL编译技术

CDP/开源封装产品

Hive、SparkSQL、ImpalaSQL等使SQL无统一规范,对ANSI SQL标准和传统关系型数据库
方言支持度较低。企业业务迁移成本高
支持的存储过程编译技术主要是HPL兼容的语法比较有限

CMP封装产品

•支持SQL 2003标准与存储过程,降低开发难度;兼容Teradata,Oracle,DB2等方言,方
便业务平滑迁移,降低迁移成本
•提供存储过程支持,降低开发大型复杂数据业务系统的技术门槛
SQL优化技术

CDP/开源封装产品

Hive、Impala等基于规则和代价的优化器不够丰富,不能满足不同场景的使用

CMP封装产品

改进了代价CBO优化器,丰富了RBO的优化规则,适用场景更广泛
•实现多模优化器,针对不同数据模型和使用场景能够自动适配优化算法
分布式一致性

CDP/开源封装产品

HDFS、ElasticSearch等开源产品使用多机器间数据复制方式,可靠性差,且写入性能较差

CMP封装产品

TDFS、ArgoDB、Scope等产品广泛使用分布式一致性协议保障数据的一致性,提高了数据 可靠性、系统可用性以及扩展性
分布式事务

CDP/开源封装产品

Hive、Spark等在2018年之后才开始陆续支持事务能力,但是隔离级别支持一般,且事务并发不高

CMP封装产品

Inceptor在2015年就已经支持分布式事务,且隔离级别支持丰富,支持乐观和悲观的并发
控制策略,支持全局一致性快照,能够快速回滚数据,具备技术领先性
性能指标

CDP/开源封装产品

Hive性能弱,难以满足企业高性能要求

CMP封装产品

Inceptor 全球首个通过TPCDS测试,TPC-DS查询性能是Hive的7X~25X
数据治理

CDP/开源封装产品

•Atlas等开源的数据血缘、数据治理 工具在治理功能和粒度上支持有限,且不支持数据标准、数据质量、数据发布等维度的治理能力

CMP封装产品

•自研的TDS产品在数据治理上的功能得到了增强,支持实时更新血缘、字段级别的血缘分析
•提供数据质量、数据标准、数据商城、数据发布等模块,加强对数据湖中数据的治理能力
功能/性能差异

CDP/开源封装产品

•Solr和ES只支持实时写入,不支持批量加载,入库过程中需要生成索引文件,资源开销大,入库性能不高

CDP/开源封装产品

•Scope支持大批量离线数据加载,并且多副本下,只会生成一份索引文件,性能更好
单机容量

CDP/开源封装产品

•ES硬件资源利用率低,单节点单实例存储约10TB

CDP/开源封装产品

•Scope为企业节省IT硬件成本投入,单节点单实例存储约50TB
故障恢复时间

CDP/开源封装产品

•ES故障恢复时间久,恢复时间为小时/天级别

CMP封装产品

•Scope恢复时间短,保证业务的连续性分钟级别(小于10min)
跨库分析

CDP/开源封装产品

•Phoenix on Hbase的方案在异构数据分析上存在缺陷,包括流表与Hbase关联分析等支持不够

CMP封装产品

•Inceptor中独创的HyperDrive表和GLKJoin技术,支持OLAP和实时数仓场景下,跨库的关联分析
数据联邦能力

CDP/开源封装产品

Neo4j不支持跨数据库查询,不支持异构模型数据关联查询

CMP封装产品

•支持多个图之间的跨数据库查询能力,并且与Inceptor中结构化数据可以关联查询
扩展性和可靠性

CDP/开源封装产品

Neo4j 还是集中式系统,不支持分布式图算法,扩展能力差

CMP封装产品

•可扩展性强,数据多副本分布式存储,支持分布式图算法
轨迹分析能力

CDP/开源封装产品

PostGIS等开源组件暂未提供相关轨迹数据的分析文档

CMP封装产品

Spacture支持原生轨迹数据类型,融合空间、时间、属性等多维数据,提供特定的存储格式
•支持常见的轨迹处理算法,兼容OGC Moving Features标准分析函数
时空索引

CDP/开源封装产品

PostGIS 等开源组件暂未提供相关时空索引的分析文

CMP封装产品

Spacture提供多种时空索引,能够加速空间查询和时空查询
标准SQL支持程度

CDP/开源封装产品

•使用Hbase和Phoenix组件结合做时序数据的分析,只支持一种数据类型,且不支持自定义函数

CMP封装产品

•TimeLyre支持标准的SQL查询语言,且支持多达15种数据类型
数据处理分析能力

CDP/开源封装产品

•Phoenix和InfluxDB对分析函数的支持不够,且对数据关联分析能力弱

CMP封装产品

•TimeLyre支持四种数据关联方式,且支持自定义函数
实时数据入库分析能力

CDP/开源封装产品

•延迟高,难以满足企业复杂场景的落地即分析场景

CMP封装产品

•ArgoDB与Slipstream无缝衔接,落地即分析,秒级响应
实时流SQL开发便捷性

CDP/开源封装产品

•Flink 以API开发为主,SQL支持有限,对企业的实时流开发门槛要求高,运维复杂

CMP封装产品

•基于SQL开发流任务,支持通过SQL方式实现复杂事件处理,实现复杂业务逻辑。SQL代码可移植性高,降低企业开发运维门槛
售后服务
CMP的产品提供方是国内厂商,具有非常强大的研发与技术支持与服务能力,可以快速响应客户定制化需求,提
供强大的原厂售后服务保障能力。
CDP的产品提供方Cloudera依靠国内代理商提供销售并提供实施、运维服务;Cloudera在国内主要是运维人员,
没有原厂技术研发人员,很难保障SLA。由于支持不到位,很多国内CDH企业版客户已经购买了我方技术人员
提供技术保障。

CDP的产品提供方Cloudera依靠国内代理商提供销售并提供实施、运维服务;Cloudera在国内主要是运维人员,没有原厂技术研发人员,很难保障SLA。由于支持不到位,很多国内CDH企业版客户已经购买了我方技术人员,提供技术保障。

CMP的产品提供方是国内厂商,具有非常强大的研发与技术支持与服务能力,可以快速响应客户定制化需求,提供强大的原厂售后服务保障能力。
版权所有 @ 2021 CDH/CDP国产替换之路 保留所有权利。
京ICP备2024098062号