百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

Spark怎么学?Oracle高级技术总监的学习笔记你想不想看?

mhr18 2024-10-10 06:27 28 浏览 0 评论

怎么学习大数据?学什么?今天小编就把oracle高级技术总监整理的一份spark学习笔记分享给大家。大家有需要想学的可以加大数据、hadoop、Python学习资料分享群 596471005 不管你是小白还是大牛,小编我都挺欢迎,今天的源码已经上传到群文件,不定期分享干货,包括我自己整理的一份最新的适合2018年学习的大数据开发和零基础入门教程,欢迎初学和进阶中的小伙伴。也可以关注我。

1、原理和体系结构

2、安装配置

3、操作

============================================

一、为什么选择Spark?什么是Spark?

1、优势:基于内存

2、什么是Spark?

Apache Spark? is a fast and general engine for large-scale data processing.

就是计算处理模型(引擎,类似MapReduce)

3、Spark的特点

(1)快:基于内存

(2)易用:Java、Scala、Python

(3)通用

Spark的生态圈

(4)兼容性:HDFS

spark体系结构

二、Spark的体系结构与安装配置(重点)

1、支持安装模式:伪分布、全分布

2、以伪分布为例(一台)

(*)准备环境:RedHat Linux、JDK 1.8

配置主机名、免密码登录、关闭防火墙

(*)配置Spark

解压 tar -zxvf spark-2.1.0-bin-hadoop2.7.tgz -C ~/training/

核心的配置文件:conf/spark-env.sh

cp spark-env.sh.template spark-env.sh

修改 spark-env.sh

export JAVA_HOME=/root/training/jdk1.8.0_144

export SPARK_MASTER_HOST=mydemo71

export SPARK_MASTER_PORT=7077

(*)启动:sbin/start-all.sh

(*)Web Console: http://192.168.157.71:8080

三、使用spark-shell和spark-submit(工具)

1、spark-shell: 是交互式命令行工具

bin/spark-shell --master spark://mydemo71:7077

wordcount:

sc.textFile("/root/temp/data.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

2、使用spark-submit工具(真正在项目中提交任务的工具)

(1)把任务打包成jar文件

(2)spark-submit提交任务

example例子:

/root/training/spark-2.1.0-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.1.0.jar

(3)Demo:蒙特卡罗求PI: 3.1415926*********

bin/spark-submit --master spark://mydemo71:7077 --class org.apache.spark.examples.SparkPi examples/jars/spark-examples_2.11-2.1.0.jar 100

Pi is roughly 3.1407087140708714

四、实战项目:网站日志分析

1、工具:IDEA(类似eclipse)

五、Spark实时处理框架(Spark的生态圈)

相关推荐

SQL入门知识篇(sql入门新手教程视频)

一、什么是数据库?什么是SQL?1、数据库:存放数据,可以很多人一起使用2、关系数据库:多张表+各表之间的关系3、一张表需要包含列、列名、行4、主键:一列(或一组列),其值能够唯一区分表中的每个行。5...

postgresql实现跨库查询-dblink的妙用

技术导语:用惯了oracle的dblink,转战postgresql,会一时摸不着头脑。本期就重点详细讲解postgresql如何安装dblink模块及如何使用dblink实现跨库查询。安装cont...

Oracle VM VirtualBox虚拟机软件(oracle vm virtualbox win10)

OracleVMVirtualBox是一款完全免费的虚拟机软件,下载银行有提供下载,软件支持安装windows、linux等多个操作系统,让用户可以在一台设备上实现多个操作系统的操作。同时软件有着...

开源 SPL 轻松应对 T+0(开源srs)

T+0问题T+0查询是指实时数据查询,数据查询统计时将涉及到最新产生的数据。在数据量不大时,T+0很容易完成,直接基于生产数据库查询就可以了。但是,当数据量积累到一定程度时,在生产库中进行大数据...

中小企业佳选正睿ZI1TS4-4536服务器评测

随着科技的不断发展,各行各业对于数据使用越加频繁,同时针对服务器的选择方面也就越来越多样化和细分化。那么对于我们用户来说,如何选择符合自身业务需求和最优性价比的产品呢?笔者将通过刚刚购买的这台服务器的...

MFC转QT:Qt基础知识(mfc和qt的区别)

1.Qt框架概述Qt的历史和版本Qt是一个跨平台的C++应用程序开发框架,由挪威公司Trolltech(现为QtCompany)于1991年创建。Qt的发展历程:1991年:Qt项目启动1995年...

数据库,QSqlTableModel(数据库有哪些)

QMYSQL——mysqlQSQLITE——sqliteQOICQ——orcale所需头文件.pro增加sql#include<QSqlDatabase>#include<Q...

python通过oledb连接dbf数据库(python连接jdbc)

起因:因为工作需要,需要读取dbf文件和系统数据中数据进行校对,因为知道dbf文件可以用sql查询,所以想能不能像mysql/oracle那样连接,再调用执行sql方法,通过一系列百度,尝试,最终通过...

Excel常用技能分享与探讨(5-宏与VBA简介 VBA与数据库)

在VBA(VisualBasicforApplications)中使用数据库(如Access、SQLServer、MySQL等)具有以下优点,适用于需要高效数据管理和复杂业务逻辑的场景:1....

Excel常用技能分享与探讨(5-宏与VBA简介 VBA与数据库-二)

以下是常见数据库软件的详细配置步骤,涵盖安装、驱动配置、服务启动及基本设置,确保VBA能够顺利连接:一、MicrosoftAccess适用场景:小型本地数据库,无需独立服务。配置步骤:安装Acces...

Windows Docker 安装(docker安装windows容器)

Docker并非是一个通用的容器工具,它依赖于已存在并运行的Linux内核环境。Docker实质上是在已经运行的Linux下制造了一个隔离的文件环境,因此它执行的效率几乎等同于所部署的L...

Windows下安装Ubuntu虚拟机方法(windows下安装ubuntu20)

在Windows下安装Ubuntu虚拟机。选择使OracleVMVirtualBox安装Ubuntu虚拟机。1.下载和安装OracleVMVirtualBox:访问OracleVMVir...

java入门教程1 - 安装和配置(win和linux)

windows安装和配置安装javahttps://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html目前大部分项目的...

Centos7 安装Tomcat8服务及配置jdk1.8教程

1、下载jdk1.8压缩包下载地址:https://www.oracle.com/java/technologies/javase/javase8-archive-downloads.htmltom...

全网最完整的免费java教程讲义(一)——java配置和安装

一,安装Java1)安装JDK要学习和使用java,首先需要安装JDK(JavaDevelopemntKit),相当于java安装包。Java的下载页在甲骨文官网上:https://www.or...

取消回复欢迎 发表评论: