Near-Data Processing in Database Systems on Native Computational Storage under HTAP Workloads
前置知识补充
OLAP
OLAP是一种数据处理技术,专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持。OLAP的主要用途是分析聚合数据,生成报告,执行复杂的数据分析,确定趋势,以及支持商业智能应用。OLAP系统通常是数据仓库解决方案的中间分析层。
OLTP
OLTP则是一种事务处理,主要用于处理数据库事务。OLTP系统的主要用途是处理订单,更新库存,管理客户账户等面向事务的应用。OLTP系统旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。
HTAP
HTAP(Hybrid Transaction / Analytical Processing,混合事务分析处理)是一种新兴的应用体系结构,它打破了事务处理和分析之间的“墙”。它在一份数据上同时支持OLTP(联机事务处理)和OLAP(联机分析处理)场景,需要创新的计算存储框架,从而实现事务的同时支持实时分析,省去费时的ETL过程。
HTAP的主要优势是能够在同一份数据上进行事务处理和分析处理,这样可以避免数据同步和转换的延迟,提高数据处理的实时性和准确性。例如,电商、金融行业的订单、付款信息需要实时同步到结算库的库存数据进行结算对账,各渠道交易数据统计,精准资损防控,这些信息实际上就需要实现快速的数据同步,传统的ETL它无法做到这么快速。
HTAP应用列子:
假设你是一家全球电商公司的业务分析师,你需要处理大量的在线事务(例如订单处理、库存更新、客户服务等),同时还需要进行实时的业务分析(例如销售趋势、库存状态、客户行为等)。 在传统的架构中,你可能需要维护两个独立的系统:一个OLTP系统用于处理在线事务,另一个OLAP系统用于进行业务分析。这两个系统通常需要通过ETL(Extract, Transform, Load)过程进行数据同步,这不仅增加了系统的复杂性,也可能导致数据延迟和不一致12。 然而,如果你使用HTAP系统,你可以在同一份数据上同时进行在线事务处理和实时业务分析。例如,当一个新订单被创建时,它会立即被HTAP系统处理,并且这个新订单的信息会立即可用于业务分析。这样,你可以实时地看到新订单对销售趋势、库存状态等的影响。 此外,HTAP系统还可以帮助你简化技术栈,因为你不再需要维护两个独立的系统和进行ETL过程。这可以降低运维的复杂性和成本。
名词解释 – ETL,全称为Extract-Transform-Load,是一种数据处理过程,主要用于从多个数据源抽取数据,然后对这些数据进行转换和清洗,以满足特定的业务需求,最后将清洗后的数据加载到目标系统(如数据仓库)中。 以下是ETL的三个主要步骤:
- 提取(Extract):从多个源系统中抽取所需的数据。这些源系统可以包括各种类型的数据库、文件系统、应用程序等。
- 转换(Transform):将提取出的数据进行清洗和转换,以满足目标系统的数据要求。这可能包括数据清洗、去重、格式转换、计算新的数据项等操作。
- 加载(Load):将转换后的数据加载到目标系统中。这通常涉及将数据插入到数据库表中,或者将数据写入到文件系统中。
COSMOS+
COSMOS+是一个开源硬件和软件平台,它是OpenSSD项目的一部分1。COSMOS+ OpenSSD平台包括以下组件:
HYU Tiger4 SSD控制器,由XC7Z045-FFG900-3 Zynq-7000 FPGA实现 双核1GHz ARM Cortex-A9核心 每个核心的Neon DSP协处理器 350K LCs 1GByte DDR3 SDRAM内存 双QSPI闪存 1个SD卡插槽 主机接口:双PCIe Gen2 x8端点(有线PCIe接口) 支持NVMe命令集的子集 连接性:1个千兆以太网接口,1个USB 2.0(可配置为主机或设备),控制台调试接口,1个USB-UART端口,1个ARM JTAG,1个PL JTAG,1个Digilent USB-JTAG1
Alveo U280
Alveo U280是一款数据中心加速器卡,由AMD公司生产。
架构:Alveo U280基于AMD 16nm UltraScale+™架构12。 内存:Alveo U280配备了8GB的HBM2和32GB的DDR4内存12。 带宽:Alveo U280能够以460 GB/s的带宽提供8GB的HBM212。 适用领域:Alveo U280适用于数据库、分析和机器学习推断等内存有限的计算密集型应用12。... read more