实时计算最佳实践:基于表格存储和Blink的大数据实时计算

  • 时间:
  • 浏览:1
  • 来源:大发快三计划—大发三分彩

该架构引入的依赖系统大大减少,人力和资源成本都明显下降,它的基本流程只包括:

从用户技术架构宽度分析,结合表格存储和Blink要能做到:1. 存储侧,使用表格存储,则要能做到写一份数据,业务立即可见,并肩原生支持后续流式计算消费,不必业务双写;2. 计算侧,使用Blink流批一体外理引擎,要能统一流批计算架构,开发一套代码支持流批一一三个 多需求场景。

介绍完架构,亲戚亲戚大伙儿就来好快开发一一三个 多基于TableStore和Blink的日报实时计算SQL,以流计算的最好的办法 统计每日各个城市的实时用餐单数和餐费销售额。

图-2 基于表格存储和Blink的实时计算架构

用技术宽度来解读,所以 客户要能 :1. 客户数据的实时外理能力,持续聚合新增的订单信息,能大屏展示和以日报形式展示;2.对历史数据的离线分析能力,分析离线数据做态势感知、决策推荐。



1. Blink解密,https://yq.aliyun.com/articles/689117

2. Lambda大数据架构,https://mapr.com/developercentral/lambda-architecture

使用表格存储和Blink的大数据分析架构,相对于传统开源外理方案,有所以优势:

利用表格存储存储引擎强大的写入能力和通道服务完备的流式消费能力,用户要能轻松做到数据存储和实时外理all in one!

这俩 系统的缺点所以 太庞大,要能 维护多个分布式子系统,数据既要写入消息队列又要进入数据库,要外理两者的双写一致性肯能维护两者的同步方案,计算方面要维护两套计算引擎、开发两套数据分析代码,技术难度和人力成本很高。

利用表格存储并肩具备强大的写入能力、实时数据消费能力,Blink + SQL的高性能和流批融合,经典Lambda架构要能精简为下图2,基于表格存储和Blink的实时计算架构:

1、强大的存储和计算引擎,表格存储除了海量存储、极高的读写性能外,还提供了多元索引、二级索引、通道服务等多种数据分析功能,相对HBASE等开源方案优势明显,Blink关键性能指标为开源Flink的3到4倍,数据计算延迟优化到秒级甚至亚秒级;

2、全托管服务,表格存储和Blink都全托管的serverless服务,即开即用;

3、低廉的人力和资源成本,依赖服务全serverless免运维,按量付费,外理波峰波谷影响;

本文就将为亲戚亲戚大伙儿介绍实时计算的最佳架构实践:基于表格存储和Blink的实时计算架构,并带快速体验基于表格存储和Blink的数据分析job。

在Blink开发界面,创建消费订单源表、日统计结果表、每分钟聚合视图和写入SQL:



表格存储(Table Store)是阿里云自研的NoSQL多模型数据库,提供PB级外部化数据存储、千万TPS以及毫秒级延迟的服务能力。在实时计算场景里,表格存储强大的写入能力和多模型的存储外部,使其不仅要能作为计算结果表,并肩也完整性具备作为实时计算源表的能力。

通道服务是表格存储提供的全增量一体化数据消费功能,为用户提供了增量、全量和增量加全它量五种类型的分布式数据实时消费通道。实时计算场景下,通过为数据表建立数据通道,用户要能以流式计算的最好的办法 对表中历史存量和新增数据做数据消费。

亲戚亲戚大伙儿以一一三个 多做态势感知的大数据分析系统为例,为亲戚亲戚大伙儿阐述表格存储和Blink实时计算的架构优势。假若客户是大型餐饮企业CEO,连锁店遍布全国各地,CEO非常关心个人有那么 服务好全国各地的吃货,比如台湾顾客和四川顾客在口味评价上会不必有不同?个人的菜品是否肯能热度下降了?为了外理哪些间题,CEO要能 一一三个 多大数据分析系统,一方面要能实时监控各地菜品销售额信息,个人面也希望能有定期的历史数据分析,能给出个人关心的客户变化趋势。

Blink是阿里云在Apache Flink基础上宽度改进的实时计算平台,同Flink一致Blink旨在将流外理和批外理统一,但Blink相对于社区版Flink,在稳定性上有所以优化,在这俩 场景有点儿是在大规模场景会比Flink更加稳定。Blink的从前重大改进是实现了全新的 Flink SQL 技术栈,在功能上,Blink支持现在标准 SQL 几乎所有的语法和语义,在性能上,Blink也比社区Flink更加强大,有点儿是在批 SQL 的性能方面,当前 Blink 版本是社区版本性能的 10 倍以上,跟 Spark 相比,在 TPCDS 从前的场景 Blink 的性能要能达到 3 倍以上[1]

经典的外理方案基本上基于Lambda大数据架构[2],如下图1,用户数据既要能 进入消息队列系统(New Data Stream如Kafka)作为实时计算任务的输入源,又要能 进入数据库系统(All Data如HBASE)来支持批外理系统,最终两者的结果写入数据库系统(MERGED VIEW),展示给用户。

篇幅由于,本文主要介绍了表格存储和Blink结合的大数据架构优势,以及简单SQL演示,后续更比较复杂、贴近场景业务的文章也会陆续推出,敬请期待!

图-1 Lambda大数据架构