百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

大数据正当时,理解这几个术语很重要

mhr18 2025-07-17 21:53 2 浏览 0 评论

目前,大数据的流行程度远超于我们的想象,无论是在云计算、物联网还是在人工智能领域都离不开大数据的支撑。那么大数据领域里有哪些基本概念或技术术语呢? 今天我们就来聊聊那些避不开的大数据技术术语,梳理并补充我们对大数据的理解。

01 离线计算 Vs 实时计算

离线计算


离线计算,通常也称为“批处理”,表示那些离线批量、延时较高的静态数据处理过程。

离线计算适用于实时性要求不高的场景,比如离线报表、数据分析等,延时一般在分钟级或小时级,多数场景是定时周期性执行一个Job任务,任务周期可以小到分钟级,比如每五分钟做一次统计分析,大到月级别、年级别,比如每月执行一次任务。我们最熟悉的MapReduce就是一个离线计算框架,Spark SQL也通常用于离线计算任务。


实时计算


实时计算,通常也称为“实时流计算”、“流式计算”,表示那些实时或者低延时的流数据处理过程。

实时计算通常应用在实时性要求高的场景,比如实时ETL、实时监控等,延时一般都在毫秒级甚至更低。目前比较流行的实时框架有Spark Streaming与Flink。其中,Spark Streaming属于微批处理,是一种把流当作一种批的设计思想,具有非常高的吞吐量但延时也较高,这使得Streaming的场景也得到了一定的限制;Flink则是事件驱动的流处理引擎,是一种把批当作一种有限的流的设计思想,具有高吞吐,低延时,高性能的特点,

02 实时查询 Vs 即席查询

实时查询


实时查询,通常也称为在线查询,是对不断变化的数据进行实时的查询,要求数据修改后能够快速被查询到。通常我们见到的实时查询多是API的方式,少数以SQL方式。在线查询场景中最常见的生态组件大概就是HBase了,HBase能够提供强一致性的低延时数据访问,非常适合一般的在线业务。


即席查询


即席查询,英文名称为Ad hoc query,起初是在数据仓库领域中用户根据特定需求定义的一种实时查询方式。通常情况下,即席查询的表现是借助于大数据SQL查询组件进行交互式查询,比如Hive、Impala、Presto等SQL查询组件。因此严格意义上说,即席查询和上述中的实时查询还是有一定区别的。

03 OLTP Vs OLAP

OLTP


OLTP(On-Line Transaction Processing),可称为在线事务处理,一般应用于在线业务交易系统,比如银行交易、订单交易等。OLTP的主要特点是能够支持频繁的在线操作(增删改),以及快速的访问查询。因为要用于在线交易,所以一般要求支持事务特性。


OLAP


OLAP(On-Line Analytical Processing),可称为在线分析处理,较多的应用在数据仓库领域,支持复杂查询的数据分析,侧重于为业务提供决策支持。目前常见是的实时OLAP场景,比如Druid(Apache Druid,不同于阿里Druid)、ClickHouse等存储组件能够较好的满足需求。

04 行式存储 Vs 列式存储

行式存储


行式存储(Row-based),简称“行存”,我们常见的关系型数据库比如MySQL、Oracle、DB2、SQL Server等都是采用行存的方式。总的来说,行存有利于写,但不利于读,因为行存是把同一条数据存放在相同位置,这样增删改比较高效,但是查询时会增加io的消耗。从上面举例我们也能看出,行存一般应用于OLTP场景。


列式存储


列式存储(Column-based),简称“列存”,这里是相对于行式存储的一种数据存储方式,一般应用于分布式存储/数据库中。总的来说,列存有利于读,但不利于写,这就意味着写路径上的增删改有一定的性能损耗。常见的列存包括Parquet、Arrow等,其最大特点是能够减少不必要的io消耗,主要表现在列裁剪与列压缩方面。与行存相反,列存更适应于OLAP场景。


---------- END ----------

hadoop之yarn命令详解

hadoop之yarn详解(基础架构篇)

Elasticsearch 平滑下线节点实践指南

我有好几种办法让你访问 github 速度起飞,不信进来看!

Ambari 前端之 ambari-web 模块概述

最后说一句(求关注,别白嫖我)

扫一扫,我们的故事就开始了。

另外公众号改变了推送规则,大家看文章不要忘记点击最下方的在看,点赞按钮,这样微信自动识别为常看公众号,否则很可能推送的文章可能淹没在别的文章找不到,谢谢大家。

动动小手,让更多需要的人看到~

相关推荐

Java培训机构,你选对了吗?(java培训机构官网)

如今IT行业发展迅速,不仅是大学生,甚至有些在职的员工都想学习java开发,需求量的扩大,薪资必定增长,这也是更多人选择java开发的主要原因。不过对于没有基础的学员来说,java技术不是一两天就能...

产品经理MacBook软件清单-20个实用软件

三年前开始使用MacBookPro,从此再也不想用Windows电脑了,作为生产工具,MacBook可以说是非常胜任。作为产品经理,值得拥有一台MacBook。MacBook是工作平台,要发挥更大作...

RAD Studio(Delphi) 本月隆重推出新的版本12.3

#在头条记录我的2025#自2024年9月,推出Delphi12.2版本后,本月隆重推出新的版本12.3,RADStudio12.3,包含了Delphi12.3和C++builder12.3最...

图解Java垃圾回收机制,写得非常好

什么是自动垃圾回收?自动垃圾回收是一种在堆内存中找出哪些对象在被使用,还有哪些对象没被使用,并且将后者删掉的机制。所谓使用中的对象(已引用对象),指的是程序中有指针指向的对象;而未使用中的对象(未引用...

Centos7 初始化硬盘分区、挂载(针对2T以上)添加磁盘到卷

1、通过命令fdisk-l查看硬盘信息:#fdisk-l,发现硬盘为/dev/sdb大小4T。2、如果此硬盘以前有过分区,则先对磁盘格式化。命令:mkfs.文件系统格式-f/dev/sdb...

半虚拟化如何提高服务器性能(虚拟化 半虚拟化)

半虚拟化是一种重新编译客户机操作系统(OS)将其安装在虚拟机(VM)上的一种虚拟化类型,并在主机操作系统(OS)运行的管理程序上运行。与传统的完全虚拟化相比,半虚拟化可以减少开销,并提高系统性能。虚...

HashMap底层实现原理以及线程安全实现

HashMap底层实现原理数据结构:HashMap的底层实现原理主要依赖于数组+链表+红黑树的结构。1、数组:HashMap最底层是一个数组,称为table,它存放着键值对。2、链...

long和double类型操作的非原子性探究

前言“深入java虚拟机”中提到,int等不大于32位的基本类型的操作都是原子操作,但是某些jvm对long和double类型的操作并不是原子操作,这样就会造成错误数据的出现。其实这里的某些jvm是指...

数据库DELETE 语句,还保存原有的磁盘空间

MySQL和Oracle的DELETE语句与数据存储MySQL的DELETE操作当你在MySQL中执行DELETE语句时:逻辑删除:数据从表中标记为删除,不再可见于查询结果物理...

线程池—ThreadPoolExecutor详解(线程池实战)

一、ThreadPoolExecutor简介在juc-executors框架概述的章节中,我们已经简要介绍过ThreadPoolExecutor了,通过Executors工厂,用户可以创建自己需要的执...

navicat如何使用orcale(详细步骤)

前言:看过我昨天文章的同鞋都知道最近接手另一个国企项目,数据库用的是orcale。实话实说,也有快三年没用过orcale数据库了。这期间问题不断,因为orcale日渐消沉,网上资料也是真真假假,难辨虚...

你的程序是不是慢吞吞?GraalVM来帮你飞起来性能提升秘籍大公开

各位IT圈内外的朋友们,大家好!我是你们的老朋友,头条上的IT技术博主。不知道你们有没有这样的经历:打开一个软件,半天没反应;点开一个网站,图片刷不出来;或者玩个游戏,卡顿得想砸电脑?是不是特别上火?...

大数据正当时,理解这几个术语很重要

目前,大数据的流行程度远超于我们的想象,无论是在云计算、物联网还是在人工智能领域都离不开大数据的支撑。那么大数据领域里有哪些基本概念或技术术语呢?今天我们就来聊聊那些避不开的大数据技术术语,梳理并...

秒懂列式数据库和行式数据库(列式数据库的特点)

行式数据库(Row-Based)数据按行存储,常见的行式数据库有Mysql,DB2,Oracle,Sql-server等;列数据库(Column-Based)数据存储方式按列存储,常见的列数据库有Hb...

AMD发布ROCm 6.4更新:带来了多项底层改进,但仍不支持RDNA 4

AMD宣布,对ROCm软件栈进行了更新,推出了新的迭代版本ROCm6.4。这一新版本里,AMD带来了多项底层改进,包括更新改进了ROCm的用户空间库和AMDKFD内核驱动程序之间的兼容性,使其更容易...

取消回复欢迎 发表评论: