百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

DataHub - 为现代数据技术栈而生的元数据管理平台

mhr18 2024-12-16 11:48 15 浏览 0 评论

1.引言

当前属于大数据时代,数据爆炸式增长,当然管理数据的工具也是层出不穷,从传统的单机关系型数据库PostgreSQL、Oracle、MySQL、MS SQL到擅长分析的Greenplum、Clickhouse、Vertica等,再到前几年火的不要不要的Hadoop体系,种类繁多的数据管理软件,也得有上百种了。以下截图节选自知名VC Matt Turck分享的数据栈:

完整图片获取地址:http://mattturck.com/wp-content/uploads/2021/12/2021-MAD-Landscape-v3.pdf

2.问题的产生

当然我们今天不是要讨论这些数据管理软件的优劣。大家从第一部分也可以看到,数据管理软件层出不穷,小型企业可能并不能切身感受到多种数据技术带来的苦恼,但是稍微成规模的企业,总要有自己的业务系统数据库、分析型数据平台、海量数据存储的平台等等,那么这么多平台带来的最直观的问题就是管理。

数据平台多,数据可能存在多个不必要的副本,数据质量就无法保证,数据的空间感就会很差,数据管理的混乱,导致的直接问题就是,业务无法第一时间找到最合适的数据源,数据平台之间不能产生数据的联动。

这个问题不是刚出现的问题,在数据发展的历史长河中,已经有很多人对这个问题进行了研究,进而产生了各种开源与闭源方案。那么今天,我们就来看看近几年由Linkedin开源的元数据管理/数据治理平台:DataHub 是如何解决这个问题的。

3.DataHub简介

DataHub是由Linkedin开源的,官方喊出的口号为:The Metadata Platform for the Modern Data Stack - 为现代数据栈而生的元数据平台。官方网站传送门。目的就是为了解决多种多样数据生态系统的元数据管理问题,它提供元数据检索数据发现数据监测数据监管能力,帮助大家解决数据管理的复杂性。

DataHub基于Apache License 2开源,采用基于推送的数据收集架构(当然也支持pull拉取的方式),能够持续收集变化的元数据。当前版本已经集成了大部分流行数据生态系统接入能力,包括但不限于:Kafka, Airflow, MySQL, SQL Server, Postgres, LDAP, Snowflake, Hive, BigQuery。

  • 源码仓库地址:linkedin/datahub: 该仓库包含DataHub前端和后端服务的完整源码。(DataHub采用先进的前后端分离架构)linkedin/datahub-gma: 该仓库包含DataHub元数据搜索和发现服务GMA

4.DataHub主要功能

DataHub是端到端的元数据发现工具,可以帮助数据管理者挖掘其公司数据的价值。DataHub的主要功能特点如下。

4.1 端到端搜索和发现

4.1.1 在数据库、数据湖、BI平台、ML特征存储、工作流配置等数据资产中进行[元数据集中查询搜索]

从下面两个截图可以看到,在DataHub里面搜索health,从所有的元数据(BigQuery数据集、DataHub Tags/Users等)中,得到了所有相关结果,可以在结果中,点击查看相关的结果。

4.1.2 通过跨平台、数据集、管道的[血缘关系追踪],轻松理解数据的端到端旅程

从下面两个截图可以看到,“DataHub Health”这个查询的依赖关系表一级一级的展示出来,可以通过点击?展开下一级内容。通过使用lineage视图,可以详细地查看在数据集和管道中的依赖关系。

4.1.3 通过线性血缘图,快速获取相关实体的上下文

从下面截图可以看到,通过在图上点击相关实体,可以很容易地查看文档、使用状态、用户等信息。

4.1.4 获取数据集准确性和相关性的确切信息

DataHub针对流行的数据仓库平台提供数据集合的详细信息浏览和实用信息统计,让数据从业者更容易理解数据的形态。

4.2 构造坚实的文档和标签基础

上面4.1部分展示的是DataHub的搜索查看特性,本节介绍一下它在维护编辑方面的特性。

4.2.1 通过API或DataHub UI获取并维护公司的知识库

随着我们日常操作中定义和用例的丰富,DataHub可以轻松地更新和维护文档。除了通过GMS管理文档外,DataHub通过UI界面提供丰富的文档和外部支持链接操作界面。

4.2.2 通过API或DataHub UI创建和定义新的标签(tag)

通过下图可以看到,在DataHub中可以通过GraphQL API轻松的创建和添加任何实体标签,这样随着时间的推移,实体的属性回越来越丰富。当有一天我们想要查看某一标签的相关实体信息时,只需要在标签位置点击该标签,就会将所有相关的实体数据列出来。

4.3 触手可及的数据治理

元数据管理平台,最终的目的是实现数据的有效治理,DataHub提供一系列的数据治理功能,本部分介绍它的几个特性。

4.3.1 快速将资产所有权分配给用户或用户组

通过点击实体的详细信息,进入详细信息浏览界面,可以在【Owners】部分轻松快速的将该资产分配给某个用户或用户组。如下图所示:

4.3.2 使用策略管理细粒度访问控制

DataHub管理员可以创建相应的策略,来定义谁可以在哪些资源上执行什么样的活动。在制定策略时,同时管理员还可以进行如下指定操作:

  • 平台型策略 - 最高级别的DataHub平台权限,比如用户管理、组管理和策略管理等
  • 资源型策略 - 指定资源类型,比如数据集、看板、管道等
  • 权限策略 - 选择权限范围集合,比如编辑用户、编辑文档、编辑链接等
  • 用户或组策略 - 分配相关的用户或组;比如可以直接将策略分配给资源使用的用户,而不必太关注他属于哪个组

下面给大家放一张直观的策略分配图:

4.4 元数据质量和使用分析

通过DataHub可以对元数据进行深度挖掘。DataHub提供的分析视图可以清晰的展示元数据相关的操作信息,比如用户权限分配的频繁度、本周活动用户、常用的搜索条件及活动等。

5.当前支持的数据栈列表

DataHub仍然处于活跃开发阶段,在最后这一部分,给大家罗列一下DataHub目前支持的数据栈有哪些:

5.1 支持的数据源有哪些

数据源名称

当前支持状态

Athena

支持

BigQuery

支持

Delta Lake

计划支持

Druid

支持

Elasticsearch

支持

Hive

支持

Hudi

计划支持

Iceberg

计划支持

Kafka Metadata

支持

MongoDB

支持

Microsoft SQL Server

支持

MySQL

支持

Oracle

支持

PostreSQL

支持

Redshift

支持

s3

支持

Snowflake

支持

Spark/Databricks

部分支持

Trino FKA Presto

支持

5.2 支持的BI工具有哪些

数据源名称

当前支持状态

Business Glossary

支持

Looker

支持

Redash

支持

Superset

支持

Tableau

计划支持

Grafana

部分支持

5.3 支持的ETL/ELT工具有哪些

数据源名称

当前支持状态

dbt

支持

Glue

支持

5.4 支持的工作流编排工具有哪些

数据源名称

当前支持状态

Airflow

支持

Prefect

计划支持

最后的最后,如果您感觉我的分享有用,欢迎点赞并关注,后续会继续分享更具体的Datahub操作案例给大家。

相关推荐

AlmaLinux 9.6发布:升级工具、初步支持IBM Power虚拟化技术

IT之家5月21日消息,科技媒体linuxiac昨日(5月20日)发布博文,报道称代号为SageMargay的AlmaLinux9.6发行版已上线,距上一版本9.5发...

Java最新学习路线,系统全面,零基础适用

首先,我个人比较推崇的学习方法是:先学java前段,也就是HTML,css,js,因为学习java以后肯定是往javaee方向发展的,学习完前端,在学习后端很多东西比计较容易理解!其中J2SE是关键...

深入理解数据库事务(数据库事务处理的理解)

Transaction作为关系型数据库的核心组成,在数据安全方面有着非常重要的作用,本文会一步步解析事务的核心特性,以获得对事务更深的理解。什么是事务数据库几乎是所有系统的核心模块,它将数据有条理地保...

IvorySQL 4.4 发布(1044mysql)

IvorySQL4.4已于2025年3月10日正式发布。新版本全面支持PostgreSQL17.4,新增多项新功能,并修复了已知问题。增强功能PostgreSQL17.3增强功...

Oracle 与 Google Cloud 携手大幅扩展多云服务

据DCD4月10日报道,甲骨文(Oracle)与谷歌云(GoogleCloud)深化合作,全力扩展多云产品。双方计划为OracleDatabaseGoogleCloud解决方案新增11...

Izzi 利用 Oracle 云提高计费效率和客户体验

据thefastmode网5月2日报道,墨西哥电信运营商Izzi宣布采用Oracle云基础设施(OCI),对其业务支持系统(BSS)进行现代化改造增强客户体验,已经成功完成。通过在OCI上运行...

好莱坞群星也有明星脸?硅谷科技名人本尊分身比一比

假如有部电影齐聚了众科技名人角色,如同许多好莱坞大牌卡司所共同主演的《瞒天过海》(Ocean’sEleven)那样,演出彼此在商场上竞逐、或共同对抗外来竞争捍卫硅谷的故事,更在剧中有不少对手戏,会不...

澳大利亚Find My iPhone被黑 多人被黑客锁机

FindMyiPhone本来是一个用于协助找回被盗手机的好工具,但是现在,澳洲的苹果用户发现他们的FindMyiPhone变成了黑客的帮凶。昨天,这名自称为OlegPliss的黑客使用Fin...

服务器密码错误被锁定怎么解决(服务器密码失效)

#服务器密码错误被锁定解决方案当服务器因多次密码错误导致账户被锁定时,可以按照以下步骤进行排查和解决:##一、确认锁定状态###1.检查账户锁定状态(Linux)```bash#查看账户锁定...

凌晨突发的数据库重大故障,我排查了一整天……

春节期间过得太热闹了,上班确实没啥状态,这不刚发生的一个重大性能故障,排查了整整一天,后面的领导都站成了一排,本次把故障发生的详细分析过程分享给大家!本次故障发生在凌晨,核心应用卡顿非常严重,Orac...

Oracle锁表紧急处理!3招快速解锁方案

开篇:突发故障现场凌晨1点,某电商系统突然卡顿,数千笔支付订单无法完成——数据库出现死锁,技术团队紧急响应...(遇到类似情况的,欢迎在评论区分享经历)一、问题重现:死锁是如何产生的?典型场景:问题根...

JetBrains DataGrip Mac中文破解版V2025.1下载安装教程

DataGripforMac是由JetBrains开发的数据库集成开发环境(IDE),专为数据库管理员和开发人员设计。它支持多种数据库(如MySQL、PostgreSQL、Oracle、SQ...

电脑装安卓系统,安卓X86版5.1 RC1下载

日前,谷歌放出了Android-x865.1的第一个候选版本Android-x865.1RC1,该版本基于Android5.1.1r24Lollipop开发,更新包括大量x86(32位)代...

来来来!一文告诉你Eclipse的正确安装使用姿势,你都清楚吗?

前言本学习笔记是有关如何设置Eclipse的详细说明。即使你天天在使用它,但是,相信我,或许你并不足够了解它。安装Java运行时环境Eclipse是Java应用程序,因此设置Eclipse的第一步是安...

分享收藏的 oracle 11.2.0.4各平台的下载地址

概述oracle11.2.0.4是目前生产环境用的比较多的版本,同时也是很稳定的一个版本。目前官网上已经找不到下载链接了,有粉丝在头条里要求分享一下下载地址。一、各平台下载地址1.1Linuxx...

取消回复欢迎 发表评论: