终于有人讲清楚了!亿级数据秒级响应的Smartbi跨库查询
mhr18 2024-10-13 02:56 25 浏览 0 评论
我们在做BI项目的时候,通常会面临客户的系统分散在不同的数据库中,比如ERP用的Oracle,OA用的SQLServer,还有些客户数据在MongoDB中,如何跨不同的数据源对数据进行分析?
一、Smartbi如何实现跨库查询
要实现跨库关联查询分析,传统的方式有两种:一是通过单独ETL工具把数据都抽取到统一的库中;二是对现有业务代码进行重构,在业务代码中进行join关联并查询数据。这两种方式操作起来都非常麻烦!
针对上述问题,Smartbi通过提供跨库联合数据源来支持直接的跨库关联查询。跨库联合数据源是系统内置数据源。我们可以通过将不同的关系数据源信息自动添加或是手动添加到跨库联合数据源中,来解决不同接口数据统一访问的问题。
跨库联合数据源在客户端的应用有多种方式:
- 是以SQL语句的方式进行应用
因为跨库联合数据源是统一的SQL接口,技术人员可以直接基于它创建SQL数据集,通过书写SQL语句的方式实现跨库联合查询。
- 是基于跨库联合数据源创建业务主题
业务主题是常见的数据资源,它通过虚拟语义层将复杂的数据关系转换为业务分析师可认知和使用的模型。基于跨库联合数据源创建业务主题,可以实现对不同数据库的表和字段重新自由组装、分级分层,构建便于业务人员拖拽使用的模型。
业务人员基于业务主题,通过勾选或是拖拽即可实现即席查询、透视分析等。如下图,演示使用业务主题创建透视分析:
二、如何解决跨库查询的性能问题
如果数据量不高,我们通过跨库联合数据源直接跨库查询一般没有问题,但当跨库查询join关联产生较大数据量时,就有可能出现性能问题。这时,我们应该如何解决呢?
1.扩充跨库计算引擎节点
Smartbi提供直接的跨库联合查询,并且内置了分布式的数据跨库查询引擎,在内存中进行关联;内置的跨库引擎还能通过线性扩充,实现并行处理。
因此,当跨库查询数据量大而出现性能问题时,我们首选增加跨库联合查询服务器内存和节点来解决。比如部署Smartbi跨库联合查询服务集群时,指定一台服务器为主节点,其余服务器为子节点,子节点可以根据性能要求横向扩展。
2.抽取数据到高速缓存库
但当数据量非常巨大,一旦达到某个级别,性能就会出现瓶颈,导致报表长时间刷不出来。而此时若通过增加跨库联合查询服务器内存和节点也无法解决,可以使用Smartbi的高速缓存库功能来解决。
高速缓存库是列式数据库管理系统,它使用分布式的内存计算技术,在进行数据查询分析的时候,允许将原始库数据抽取到高速缓存中再进行分析。
高速缓存的基本原理就是将频繁访问的数据保存在相对能够快速存取的高速缓冲区域中,以避免在复杂的数据文件中寻找。由于高速缓存库中保存了数据副本,可以方便用户程序更高效地访问数据,并且减轻了数据库的工作量,增强了系统的性能和可伸缩性。此外,高速缓存也支持集群部署,支持横向扩展,我们还可根据用户的实际情况,选择不同的高速缓存方案。
如下图,雇员表(300,024条记录)与薪资表(2,844,047条记录)进行跨库关联查询,同样的数据量情况下,使用高速缓存抽取数据后制作的仪表盘比未使用高速缓存性能提升了10倍!
未使用高速缓存加速前,仪表盘打开20秒:
使用高速缓存加速后,仪表盘打开2秒:
三、如何实现逻辑复杂的跨库计算
之前,我们的跨库引擎对外提供的是标准SQL接口,SQL的计算表达能力已经很强,但是如果跨库查询计算逻辑复杂,不能简单的用SQL去描述,我们该怎么办呢?
Smartbi通过自助ETL功能,用spark内存计算技术来增强计算能力。自助ETL模块支持以工作流可视化的形式,将多来源的异构数据通过spark内存计算技术加工处理成具备语义一致性与完整性的数据模型。
自助ETL自带丰富处理节点,拥有强大的数据处理功能,对各种结构化数据,可进行排序、去重、映射、行列合并等处理;它还支持SQL扩展、性能线性扩展;使用自助ETL处理完成的结果可直接写入数据库用于分析!
此外,Smartbi还有很多手段比如设置参数、分页、Web优化、滚动加载、应用集群、增强OLAP计算等等,用以提高性能和计算能力,满足企业不同的需求!
相关推荐
- C++开发必知的内存问题及常用的解决方法-经典文章
-
1.内存管理功能问题由于C++语言对内存有主动控制权,内存使用灵活和效率高,但代价是不小心使用就会导致以下内存错误:omemoryoverrun:写内存越界odoublefree:同一块内...
- 缓存用不好,系统崩得早!10条军规让你成为缓存高手
-
凌晨三点,我被电话惊醒:“苏工!首页崩了!”监控显示:缓存命中率0%,数据库QPS10万+,线程阻塞2000+。根本原因竟是同事没加缓存!不会用缓存的程序员,就像不会刹车的赛车手——...
- 彻底搞清楚内存泄漏的原因,如何避免内存泄漏,如何定位内存泄漏
-
作为C/C++开发人员,内存泄漏是最容易遇到的问题之一,这是由C/C++语言的特性引起的。C/C++语言与其他语言不同,需要开发者去申请和释放内存,即需要开发者去管理内存,如果内存使用不当,就容易造成...
- Java中间件-Memcached(Java中间件大全)
-
一、知识结构及面试题目分析缓存技术的大规模使用是互联网架构区别于传统IT技术最大的地方,是整体高并发高性能架构设计中是重中之重的关键一笔,也是互联网公司比较偏好的面试题目。按照在软件系统中所处位置...
- linux内存碎片防治技术(linux内存碎片整理)
-
推荐视频:90分钟了解Linux内存架构,numa的优势,slab的实现,vmalloc原理剖析Linux内核内存分配与回收Linuxkernel组织管理物理内存的方式是buddysystem(伙...
- Redis主从架构详解(redis主从配置详细过程)
-
Redis主从架构搭建Redis主节点配置创建主节点目录(/opt/redis-master),复制redis.conf到该目录下,redis.conf配置项修改#后台启动daemonizeyes...
- 揭开CXL内存的神秘面纱(内存c1)
-
摘要:现代数据中心对内存容量的高需求促进了内存扩展和分解方面的多条创新线,其中一项获得极大关注的工作是基于ComputeeXpressLink(CXL)的内存扩展。为了更好地利用CXL,研究人员建...
- 一文彻底弄懂 TPS RPS QPS(tps cps)
-
以下是关于RPS、QPS、TPS的核心区别与关联的总结,结合实际场景和优化建议:一、核心定义与区别RPS:RequestsPerSecond每秒请求数客户端到服务器的完整请求数量Web服务...
- 用Redis的“集合”找出你和朋友的“共同关注”
-
你是不是在刷抖音、微博、小红书的时候,常常会看到这样的提示:“你和XXX有共同关注的博主/朋友”?或者当你关注了一个新的明星,系统会推荐“你的朋友YYY也关注了这位明星”?这个看似简单的功能背后,其实...
- WOT2016彭哲夫:科班出身开发者对运维人员的期许
-
“运维与开发”是老生常谈的话题,前几天和一个运维人聊天,TA说一些公司运维岗位都不公开招聘了,这让众多运维人员情何以堪?是运维的岗位真的饱和了?是找到合适的运维人才难?还是有这样那样的因素?带着这些疑...
- Java程序员最常用的20%技术总结(java程序员要掌握什么)
-
我听说编程语言,经常使用的是其中20%的技术。在Java这门语言中,这20%包括哪些内容?找到一份Java初级程序员的工作,有哪些是必须掌握的,有哪些是可以现学现卖的?一个完整的Javaweb项目,有...
- 秒杀系统实战(四)| 缓存与数据库双写一致性实战
-
前言微笑挖坑,努力填坑。————已经拥有黑眼圈,但还没学会小猪老师时间管理学的蛮三刀同学本文是秒杀系统的第四篇,我们来讨论秒杀系统中「缓存热点数据」的问题,进一步延伸到数据库和缓存的...
- 头条评论精灵翻牌子(头条评论精灵翻牌子怎么弄)
-
关于“头条评论精灵翻牌子”功能,这通常是指平台通过算法或运营手段,将用户的优质评论随机或定向推送到更显眼的位置(如信息流顶部、独立曝光位等),以提升互动率和用户参与感。以下是详细解析和建议:一、功能理...
- 15个程序员们都应该知道的大模型高级提示词指令模板和示例
-
作为程序员你如何写大模型指令?你写的指令是不是更专业呢?下面是15个程序员使用的专业的大模型指令,如果早知道可以能节省你很多时间。这些指令可以用在chatgpt,deepseek等大模型。1.一键...
- MyBatis-Plus内置的主键生成策略有大坑,要注意!
-
昨天小伙伴使用Mybaits-Plus开发的项目线上(集群、K8S)出现了主键重复问题,其报错如下:Mybatis-Plus启动时会通过com.baomidou.mybatisplus.core.to...
你 发表评论:
欢迎- 一周热门
-
-
Redis客户端 Jedis 与 Lettuce
-
高并发架构系列:Redis并发竞争key的解决方案详解
-
redis如何防止并发(redis如何防止高并发)
-
开源推荐:如何实现的一个高性能 Redis 服务器
-
redis安装与调优部署文档(WinServer)
-
Redis 入门 - 安装最全讲解(Windows、Linux、Docker)
-
一文带你了解 Redis 的发布与订阅的底层原理
-
Redis如何应对并发访问(redis控制并发量)
-
oracle数据库查询Sql语句是否使用索引及常见的索引失效的情况
-
Java SE Development Kit 8u441下载地址【windows版本】
-
- 最近发表
- 标签列表
-
- oracle位图索引 (63)
- oracle批量插入数据 (62)
- oracle事务隔离级别 (53)
- oracle 空为0 (50)
- oracle主从同步 (55)
- oracle 乐观锁 (51)
- redis 命令 (78)
- php redis (88)
- redis 存储 (66)
- redis 锁 (69)
- 启动 redis (66)
- redis 时间 (56)
- redis 删除 (67)
- redis内存 (57)
- redis并发 (52)
- redis 主从 (69)
- redis 订阅 (51)
- redis 登录 (54)
- redis 面试 (58)
- 阿里 redis (59)
- redis 搭建 (53)
- redis的缓存 (55)
- lua redis (58)
- redis 连接池 (61)
- redis 限流 (51)