百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

「译」关系型数据库的工作原理

mhr18 2025-01-07 14:24 27 浏览 0 评论

一、前言

在进行高性能 Java 持久性培训时,我意识到有必要解释关系数据库的工作原理,否则,很难掌握许多与事务相关的概念,例如原子性、持久性和检查点。

在这篇文章中,我将对关系数据库的内部工作方式进行高层次的解释,同时还暗示一些特定于数据库的实现细节。

二、一图胜千文

二、Data pages

磁盘访问速度很慢。另一方面,内存甚至比固态硬盘还要快几个数量级。出于这个原因,数据库供应商试图尽可能延迟磁盘访问。无论我们谈论的是表还是索引,数据都被分成一定大小(例如 8 KB)的 page。

当需要读取数据(表或索引)时,关系数据库会将基于磁盘的页面映射到内存缓冲区。当需要修改数据时,关系数据库会更改内存 pages。要将内存 pages 与磁盘同步,必须进行 flush(例如 fsync)。

存储基于磁盘的 page 的缓冲池大小有限,因此通常需要存储数据工作集。只有当整个数据可以放入内存时,缓冲池才能存储整个数据集。

但是,如果需要缓存新 page 时磁盘上的总体数据大于缓冲池大小,则缓冲池将不得不逐出旧 pages 为新 pages 腾出空间。

三、Undo log

因为内存中的变化可以被多个并发事务访问,所以必须采用并发控制机制(例如 2PL 和 MVCC)来确保数据完整性。因此,一旦事务修改了表行,未提交的更改将应用于内存结构,而先前的数据会临时存储在 undo logappend-only 结构中。

虽然这种结构在 Oracle 和 MySQL 中称为 undo log,但在 SQL Server 中,事务日志起着这种作用。PostgreSQL 没有 undo log,但是通过多版本表结构达到了相同的目的,因为表可以存储同一行的多个版本。然而,所有这些数据结构都用于提供回滚能力,这是原子性的强制性要求。

如果当前运行的事务回滚,undo log 将用于重建事务开始时的内存 pages。

四、Redo log

一旦事务提交,内存中的更改必须保持不变。但是,这并不意味着每个事务提交都会触发fsync。事实上,这对应用程序性能非常不利。然而,从 ACID 事务属性,我们知道提交的事务必须提供持久性,这意味着即使我们拔掉数据库引擎,提交的更改也需要持久化。

那么,关系数据库如何提供持久性而不在每次事务提交时发出 fsync 呢?

这就是 redo log 发挥作用的地方。redo log 也是一种 append-only 基于磁盘的结构,用于存储给定事务所经历的每个更改。因此,当事务提交时,每个数据页更改也将写入redo log。与刷新固定数量的 data pages 相比,写入 redo log非常快,因为顺序磁盘访问比 Random access 快得多。因此,它还允许事务快速处理。

虽然这种结构在 Oracle 和 MySQL 中被称为 redo log,但在 SQL Server 中,事务日志也扮演着这个角色。PostgreSQL 将其称为预写日志 (WAL)。

但是,何时将内存中的更改 flush 到磁盘?

关系数据库系统使用检查点将内存中的脏 pages 与其基于磁盘的对应物同步。为避免 IO 流量拥塞,同步通常在较长的时间段内分块完成。

但是,如果关系数据库在将所有脏内存 pages 刷新到磁盘之前崩溃会发生什么?

万一发生崩溃,在启动时,数据库将使用 redo log 重建自上次成功检查点以来未同步的基于磁盘的 data pages。

五、结论

采用这些设计考虑是为了克服基于磁盘的存储的高延迟,同时仍然提供持久性存储保证。因此,需要 undo log 来提供原子性(回滚能力),而需要 redo log 来确保基于磁盘的 page(表和索引)的持久性。

六、译者说:

大家好,我是 如梦技术春哥mica 开源作者)翻译不易,请帮忙分享给更多的同学,谢谢!!!

相关推荐

订单超时自动取消业务的 N 种实现方案,从原理到落地全解析

在分布式系统架构中,订单超时自动取消机制是保障业务一致性的关键组件。某电商平台曾因超时处理机制缺陷导致日均3000+订单库存锁定异常,直接损失超50万元/天。本文将从技术原理、实现细节、...

使用Spring Boot 3开发时,如何选择合适的分布式技术?

作为互联网大厂的后端开发人员,当你满怀期待地用上SpringBoot3,准备在项目中大显身手时,却发现一个棘手的问题摆在面前:面对众多分布式技术,究竟该如何选择,才能让SpringBoot...

数据库内存爆满怎么办?99%的程序员都踩过这个坑!

你的数据库是不是又双叒叕内存爆满了?!服务器监控一片红色警告,老板在群里@所有人,运维同事的电话打爆了手机...这种场景是不是特别熟悉?别慌!作为一个在数据库优化这条路上摸爬滚打了10年的老司机,今天...

springboot利用Redisson 实现缓存与数据库双写不一致问题

使用了Redisson来操作Redis分布式锁,主要功能是从缓存和数据库中获取商品信息,以下是针对并发时更新缓存和数据库带来不一致问题的解决方案1.基于读写锁和删除缓存策略在并发更新场景下,...

外贸独立站数据库炸了?对象缓存让你起死回生

上周黑五,一个客户眼睁睁看着服务器CPU飙到100%——每次页面加载要查87次数据库。这让我想起2024年Pantheon的测试:Redis缓存能把WooCommerce查询速度提升20倍。跨境电商最...

手把手教你在 Spring Boot3 里纯编码实现自定义分布式锁

为什么要自己实现分布式锁?你是不是早就受够了引入各种第三方依赖时的繁琐?尤其是分布式锁这块,每次集成Redisson或者Zookeeper,都得额外维护一堆配置,有时候还会因为版本兼容问题头疼半...

如何设计一个支持百万级实时数据推送的WebSocket集群架构?

面试解答:要设计一个支持百万级实时数据推送的WebSocket集群架构,需从**连接管理、负载均衡、水平扩展、容灾恢复**四个维度切入:连接层设计-**长连接优化**:采用Netty或Und...

Redis数据结构总结——面试最常问到的知识点

Redis作为主流的nosql存储,面试时经常会问到。其主要场景是用作缓存,分布式锁,分布式session,消息队列,发布订阅等等。其存储结构主要有String,List,Set,Hash,Sort...

skynet服务的缺陷 lua死循环

服务端高级架构—云风的skynet这边有一个关于云风skynet的视频推荐给大家观看点击就可以观看了!skynet是一套多人在线游戏的轻量级服务端框架,使用C+Lua开发。skynet的显著优点是,...

七年Java开发的一路辛酸史:分享面试京东、阿里、美团后的心得

前言我觉得有一个能够找一份大厂的offer的想法,这是很正常的,这并不是我们的饭后谈资而是每个技术人的追求。像阿里、腾讯、美团、字节跳动、京东等等的技术氛围与技术规范度还是要明显优于一些创业型公司...

mysql mogodb es redis数据库之间的区别

1.MySQL应用场景概念:关系型数据库,基于关系模型,使用表和行存储数据。优点:支持ACID事务,数据具有很高的一致性和完整性。缺点:垂直扩展能力有限,需要分库分表等方式扩展。对于复杂的查询和大量的...

redis,memcached,nginx网络组件

1.理解阻塞io,非阻塞io,同步io,异步io的区别2.理解BIO和AIO的区别io多路复用只负责io检测,不负责io操作阻塞io中的write,能写多少是多少,只要写成功就返回,譬如准备写500字...

SpringBoot+Vue+Redis实现验证码功能

一个小时只允许发三次验证码。一次验证码有效期二分钟。SpringBoot整合Redis...

AWS MemoryDB 可观测最佳实践

AWSMemoryDB介绍AmazonMemoryDB是一种完全托管的、内存中数据存储服务,专为需要极低延迟和高吞吐量的应用程序而设计。它与Redis和Memcached相似,但具有更...

从0构建大型AI推荐系统:实时化引擎从工具到生态的演进

在AI浪潮席卷各行各业的今天,推荐系统正从幕后走向前台,成为用户体验的核心驱动力。本文将带你深入探索一个大型AI推荐系统从零起步的全过程,揭示实时化引擎如何从单一工具演进为复杂生态的关键路径。无论你是...

取消回复欢迎 发表评论: