Spark jdbc 的并发的问题

mhr18 2024-12-27 16:19 20 浏览 0 评论

大家使用spark比较熟的，都了解到spark可以通过jdbc这个API 可以访问 oracle的数据。

而且也可以在

def jdbc(
    url: String,
    table: String,
    predicates: Array[String],//这里就是传入进去的sql,可以是多个sql，这样就能并发向oracle查询数据了
    connectionProperties: Properties): DataFrame = {
  assertNoSpecifiedSchema("jdbc")
  // connectionProperties should override settings in extraOptions.
  val params = extraOptions.toMap ++ connectionProperties.asScala.toMap
  val options = new JDBCOptions(url, table, params)
  val parts: Array[Partition] = predicates.zipWithIndex.map { case (part, i) =>
    JDBCPartition(part, i) : Partition
  }
  val relation = JDBCRelation(parts, options)(sparkSession)
  sparkSession.baseRelationToDataFrame(relation)
}

只是，这样有问题：

问题一：并发的个数不能控制，如果

predicates的长度是9

exectors的个数是3

cpu的core是3，那么运行这个任务的时候，就会启动 9个task，那问题来了，这么高的并发向oracle发起查询，对oracle的压力大。

可以通过 coalesce 来避免。

其次，这9个task运行的时间差可能有的task 运行的时间点早，有的晚。

这样触发的是导数据任务，根据update_time进行导入，那么导入的数据在区间A中的一条恰好更新了，更新后应该进入区间B 中，而这个时候，区间B的任务已经跑完了，因为运行的早。

那么这条记录就会丢失，这算是严重的问题了。

一：需要设置oracle的 isolationLevel,改成 REPEATABLE_READ
二：针对 9句sql，前面8句可以并发操作，最后一条sql ，等前面8个任务执行完成后，才执行。

这样就可以了。因为虽然数据会发生变化，变化的时候 updated_time肯定是系统最新的时间，那么这个时间肯定会落入最后一句sql中，而且因为最后一个任务是最后执行，所以就没有问题了。（这里有个注意点：最后一句的sql区间必须要确定更新的时间点一定要落在区间中才行）

oracle并发处理

上一篇：ORACLE RAC基础知识之缓存融合
下一篇：详解四类数据库事务处理的艺术:事务管理与并发控制，值得收藏

Spark jdbc 的并发的问题

相关推荐

取消回复欢迎你发表评论:

生产系统数据库操作规范(2):（数据库生产库是什么意思）

Redis客户端 Jedis 与 Lettuce

高并发架构系列:Redis并发竞争key的解决方案详解

redis如何防止并发（redis如何防止高并发）

redis安装与调优部署文档(WinServer)

开源推荐:如何实现的一个高性能 Redis 服务器

Redis 入门 - 安装最全讲解(Windows、Linux、Docker)

Java SE Development Kit 8u441下载地址【windows版本】

一文带你了解 Redis 的发布与订阅的底层原理

Redis如何应对并发访问（redis控制并发量）

Spark jdbc 的并发的问题

相关推荐

取消回复欢迎 你 发表评论:

生产系统数据库操作规范(2):（数据库生产库是什么意思）

Redis客户端 Jedis 与 Lettuce

高并发架构系列:Redis并发竞争key的解决方案详解

redis如何防止并发（redis如何防止高并发）

redis安装与调优部署文档(WinServer)

开源推荐:如何实现的一个高性能 Redis 服务器

Redis 入门 - 安装最全讲解(Windows、Linux、Docker)

Java SE Development Kit 8u441下载地址【windows版本】

一文带你了解 Redis 的发布与订阅的底层原理

Redis如何应对并发访问（redis控制并发量）

取消回复欢迎你发表评论: