百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

Oracle大数据发现(Big Data Discovery)技术全解

mhr18 2025-03-04 13:13 33 浏览 0 评论

Oracle Big Data Discovery(大数据发现)可能正是组织解决大数据挑战时所需要的产品,但是这些一体化产品仍然处于早期。

二月份,Oracle发布了它的最新大数据产品Oracle Big Data Discovery。Big Data Discovery一直被奉为Hadoop数据查询、转换和分析的端到端解决方案,它交付了一个一体化产品软件包,允许用户从Hadoop集群中发现相关联的数据,通过挖掘数据发现其潜在价值,以及通过转换数据达到净化和丰富数据的目标。以此为基础,用户可以通过分析数据获得新趋势和作出战略决策,也可以将结果共享给团队成员,以执行协作和更进一步的分析。

Oracle推出了Big Data Discovery产品,帮助公司解决所遇到的大数据问题,因为他们无法管理大师的信息和收集有意义的趋势,而且通常根据不清楚该如何开始着手,更不用说后面的事情了。雪上加霜的是,传统商业智能工具往往局限于定义完好的关系结构,但是缺少高效处理大数据分析的能力。

认识Big Data Discovery产品

根据Oracle的介绍,Big Data Discovery能够解决这些问题,同时给业务分析师和数据科学家提供发现游程。Big Data Discovery承诺能够加快分析过程,因此用户可以减少准备数据的时间,留出更多的时间用于分析数据。由于主要关注Hadoop,所以Big Data Discovery解决了A、B端面的技术障碍,达到了Oracle所谓的“Hadoop可视面孔”。

Oracle在Big Data Discovery的设计上支持可视化分析功能,既不需要用户学习复杂的流量,也不要求有特殊的专业知识。Big Data Discovery允许用户按数据类型可视化属性和轻松决定哪些属性与他们的分析关系最密切。然后,他们可以根据用户的特定需求对属性进行排序,实现信息的优先级划分。Big Data Discovery提供了交互式目录,可用于查找数据、查看数据集汇总和通过简单易用的搜索与导航特性去检索数据。

根据Oracle的介绍,分析师将能够直接向数据提问,然后像在线购物一样轻松地获得想要的答案。它的界面提供了一些自助向导,支持鼠标拖放操作,并且有许多其他帮助将原始数据转换为多样化、交互式可视化和仪表板的特性。此外,Big Data Discovery也完美地融入Oracle的大数据架构,能够集成其他一些工具,如Oracle R、Oracle Exadata和Oracle Big Data SQL。

数据发现的五个步骤

Oracle将Big Data Discovery分析流程划分为5个基本步骤:查找、挖掘、转换、发现和共享。

为了获得他们所需要的信息,分析师可以使用交互目录访问Hadoop的原始数据,但是完全不需要理解其底层结构。事实上,他们只需要关注于如何获得分析所需要的特定信息。交互目录会将数据组织为可视化数据集合,如博客、客户快照或品牌忠诚度调查。按照这种方式,分析师就可以确定他们所需要的信息分类,然后再深入分析这些数据的细节。

挖掘步骤就是深入分析数据的流程。每一个数据集都会被分割为一些属性,它们可以以可视化方式进行存储和组合,以便更方便地理解它们的关系。分析师可以按数据的潜在用途来组织数据;将最关注的属性移到最顶部,或者试验各种不同的属性组合。挖掘步骤可以帮助分析师快速理解数据质量和确定其整体潜在价值的关键因素。

转换步骤则允许用户通过大量用于转换与充实数据的库来修改数据。例如,用户可以通过对一些值执行规范化或分组操作来净化数据。Big Data Discovery提供了一个类似于电子表格的界面,可用于定义数据的转换方式。此外,用户可以通过应用一些特性来充实数据,如推断语言、位置、检测话题或主题等。Big Data Discovery原生支持所有的转换操作。

发现是指用户将数据加入或混合到仪表板和可视化的步骤,其范围包括表格到详细的图。这个界面包含一个可供用户查找数据模式的搜索工具,以及一个用于浏览搜索结果的导航特性。在任何时候,分析师可以增加或关联更多的数据以扩大结果,或者应用额外的过滤器以优化数据。

最后一步是将结果分享给团队的其他成员,以实现项目内协作。用户可以分配其快照书签和图库,以进一步共享分析。除此之外,他们还可以将转换后的数据发布回Hadoop,以供Oracle R或Big Data SQL等产品使用。

Big Data Discovery背后的技术构成

Big Data Discovery包含3个主要组件——Studio、Dgraph&Data Processing,再加上Hadoop集群,共同构成一个完整的数据解决方案。在Hadoop方面,Big Data Discovery使用了Cloudera的Hadoop发行版,它包含许多支持Big Data Discovery功能的组件,如Cloud Manager、ZooKeeper和Spark。

Big Data Discovery的Studio组件是一个前端Web应用,用户可以用它访问Hadoop数据。Studio包含分析师在查找、挖掘、转换、发现和共享数据时所需要的全部特性。它是一个基于Java的应用程序,可以运行在多个节点上,从而支持负载均衡和高可用性。Big Data Discovery将大部分的Studio项目及配置数据存储在一个关系数据库中。

Studio与Dgraph通信,后者将请求转发到Hadoop集群上。Dgraph组件还负责处理缓存和业务逻辑。与Studio类似,Dgraph可以运行在一个节点上,也可以运行在一个集群上,然后使用CDH ZooKeeper处理集群服务。对于Big Data Discovery发现的每一个数据集,它都会将记录和模式加载到Dgraph上。

Big Data Discovery的最后一部分是Data Processing(数据处理)组件,它是一组负责处理大部分复杂处理的过程和作业,如抽样、剖析和充实数据。这其中的许多流程都直接运行在 Hadoop节点上,然后使用Spark运行所有的Data Processing作业。其中一个重要的Data Processing组件是Hive Table Detector(Hive表检测程序),它负责监控Hive数据库中新增或删除的表。如果Detector发现数据库有变化,那么它就会启动一个 Data Processing工作流。

大数据的问题不断出现,而数据每天都在增加。但是,组织仍然还不是很清楚该如何应对,总是遇到一个又一个的问题。虽然Big Data Discovery承诺改变这种局面,但是它仍然处于发展早期,因此它还没有经过能够展现其真实功能的现场测试。毫无疑问,它在一些领域具有优势,但是在其他一些领域则需要做得更好。即便如此,它也说明了一个事实,大数据仍然属于重要业务,而且我们将在不久的未来看到其他一些一体化产品出现。

相关推荐

SQL入门知识篇(sql入门新手教程视频)

一、什么是数据库?什么是SQL?1、数据库:存放数据,可以很多人一起使用2、关系数据库:多张表+各表之间的关系3、一张表需要包含列、列名、行4、主键:一列(或一组列),其值能够唯一区分表中的每个行。5...

postgresql实现跨库查询-dblink的妙用

技术导语:用惯了oracle的dblink,转战postgresql,会一时摸不着头脑。本期就重点详细讲解postgresql如何安装dblink模块及如何使用dblink实现跨库查询。安装cont...

Oracle VM VirtualBox虚拟机软件(oracle vm virtualbox win10)

OracleVMVirtualBox是一款完全免费的虚拟机软件,下载银行有提供下载,软件支持安装windows、linux等多个操作系统,让用户可以在一台设备上实现多个操作系统的操作。同时软件有着...

开源 SPL 轻松应对 T+0(开源srs)

T+0问题T+0查询是指实时数据查询,数据查询统计时将涉及到最新产生的数据。在数据量不大时,T+0很容易完成,直接基于生产数据库查询就可以了。但是,当数据量积累到一定程度时,在生产库中进行大数据...

中小企业佳选正睿ZI1TS4-4536服务器评测

随着科技的不断发展,各行各业对于数据使用越加频繁,同时针对服务器的选择方面也就越来越多样化和细分化。那么对于我们用户来说,如何选择符合自身业务需求和最优性价比的产品呢?笔者将通过刚刚购买的这台服务器的...

MFC转QT:Qt基础知识(mfc和qt的区别)

1.Qt框架概述Qt的历史和版本Qt是一个跨平台的C++应用程序开发框架,由挪威公司Trolltech(现为QtCompany)于1991年创建。Qt的发展历程:1991年:Qt项目启动1995年...

数据库,QSqlTableModel(数据库有哪些)

QMYSQL——mysqlQSQLITE——sqliteQOICQ——orcale所需头文件.pro增加sql#include<QSqlDatabase>#include<Q...

python通过oledb连接dbf数据库(python连接jdbc)

起因:因为工作需要,需要读取dbf文件和系统数据中数据进行校对,因为知道dbf文件可以用sql查询,所以想能不能像mysql/oracle那样连接,再调用执行sql方法,通过一系列百度,尝试,最终通过...

Excel常用技能分享与探讨(5-宏与VBA简介 VBA与数据库)

在VBA(VisualBasicforApplications)中使用数据库(如Access、SQLServer、MySQL等)具有以下优点,适用于需要高效数据管理和复杂业务逻辑的场景:1....

Excel常用技能分享与探讨(5-宏与VBA简介 VBA与数据库-二)

以下是常见数据库软件的详细配置步骤,涵盖安装、驱动配置、服务启动及基本设置,确保VBA能够顺利连接:一、MicrosoftAccess适用场景:小型本地数据库,无需独立服务。配置步骤:安装Acces...

Windows Docker 安装(docker安装windows容器)

Docker并非是一个通用的容器工具,它依赖于已存在并运行的Linux内核环境。Docker实质上是在已经运行的Linux下制造了一个隔离的文件环境,因此它执行的效率几乎等同于所部署的L...

Windows下安装Ubuntu虚拟机方法(windows下安装ubuntu20)

在Windows下安装Ubuntu虚拟机。选择使OracleVMVirtualBox安装Ubuntu虚拟机。1.下载和安装OracleVMVirtualBox:访问OracleVMVir...

java入门教程1 - 安装和配置(win和linux)

windows安装和配置安装javahttps://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html目前大部分项目的...

Centos7 安装Tomcat8服务及配置jdk1.8教程

1、下载jdk1.8压缩包下载地址:https://www.oracle.com/java/technologies/javase/javase8-archive-downloads.htmltom...

全网最完整的免费java教程讲义(一)——java配置和安装

一,安装Java1)安装JDK要学习和使用java,首先需要安装JDK(JavaDevelopemntKit),相当于java安装包。Java的下载页在甲骨文官网上:https://www.or...

取消回复欢迎 发表评论: