百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

数据服务体系建设-4种常见的数据服务

mhr18 2024-12-30 05:25 17 浏览 0 评论

数据服务类型是对数据使用场景的抽象提炼,可以根据不同的数据使用场景,抽象出查询服务、分析服务、检索服务、圈人服务、推荐服务、风控服务等多种数据服务类型。这些最小化的数据服务可以按需组合在一起,构成一个复杂的数据服务体系,并通过交互界面的封装,形成一个数据应用产品。

查询服务

1.定义

查询服务通过一个标识(key)查询其所对应的内容,可以附加一些条件过滤选项来满足检索要求。如常见的根据账号查询其相关的档案信息、根据商品查询其销售信息等,都属于查询服务的应用场景。

2.典型特征

查询服务具备3个特征,下面来一一介绍。

(1)支持配置查询标识

查询服务一般会有一个查询标识,会根据该标识去定位具体内容,底层数据组织一般会对该标识建立索引,以加快查询速度。

(2)支持配置过滤项

过滤项配置是指用户在进行标识查询时,配置一些过滤条件,以满足个性化的数据查询需求。该场景在应用层随处可见,比如查询一个人的账单流水数据,一般会配置一个时间区间,查询该时间区间的账单流水数据。

(3)支持查询结果配置

查询服务支持查询结果配置。常见的配置包括数据排序规则以及分页规则。数据排序就是对查询的结果数据做排序处理,包括升序、降序、自定义排序和组合排序。分页规则通常只需要设置每页要展示多少条数据即可。

3.构建过程

查询服务的构建包含4个过程

(1)数据接入

可以通过数据库、文件或API等形式把数据连接进来,也可以通过数据平台对接数据资产库数据,实现资产服务化的过程。

(2)数据查询

可以通过传参或图形化界面进行查询配置。一般会配置查询标识和过滤条件。

(3)结果规则配置

对于查询好的数据,可以设置排序规则和分页规则。排序规则规定按哪个字段进行排序,排序方式包括升序、降序和自定义。用户可以设置多个排序规则,按排序规则的前后顺序生效。用户可以设置结果数据的分页规则。

(4)能力开放

所有配置完成后,查询组件最终会生成一个服务API,供上层应用调用。该服务API中包含按查询规则生成的结果数据。

分析服务

1.定义

分析服务通过各种数据统计分析的方法,对数据做任意维度的数据分析挖掘,让数据分析人员快速了解数据集的特点,以支持数据化运营、分析决策等场景。常见的如BI工具、数据化运营中的路径分析、漏斗模型等,大部分是基于这种能力来构建的。

2.典型特征

分析服务通常具备4大特征


(1)支持多源数据接入

企业的数据经过清洗加工转化成数据资产后,最终通过服务作用于业务系统。基于企业异构存储的现状,要求分析服务能够支持与Hive、Elasticsearch、Greenplum、MySQL、Oracle、本地文件等多种数据源进行连接。此外,它应该还支持公有云和私有云等形式的数据接入,从而帮助企业实现业务数据的无缝对接。

(2)高性能即席查询

随着企业数据爆发式增长,每天产生的数据量由之前的千级别、万级别,转变成现在的百万级别、千万级别,甚至亿级别。这就导致传统的数据分析工具遇到分析能力的瓶颈,也就是对大数据量的分析越来越乏力。因此,这就要求分析服务内置高速计算引擎,以对数据进行高性能的即席计算,实现亿级数据毫秒级(至多秒级)分析和计算,减少用户等待时间。

(3)多维数据分析

在数据驱动决策深入人心的今天,越来越多的企业开始意识到数据的价值,从而对数据分析也提出了更高的挑战和要求。分析服务除了支持常规的数据分析、上卷下钻、切片切块之外,还应该支持多维的数据分析以及深层次的数据挖掘,发现数据背后的关联关系。

(4)灵活对接业务系统

最终的分析结果会以接口的形式输出给业务系统,供业务系统调用。为了适配企业多样的业务系统,服务接口允许用户自定义构建。分析服务应提供包括接口URL、后端服务类型、接口请求模式等在内的多个配置项,以最大程度地满足业务需求。

3.构建过程

分析服务的构建包含3个过程。

(1)数据接入

“巧妇难为无米之炊”,如果没有原始的数据接入,也就没办法向上层应用提供服务。而且,接入的数据必须具备分析的价值,否则,即使通过分析服务分析之后,也不会给企业带来价值信息。了解了这两点之后,可以把业务所需的数据通过各种数据库、API或文件等形式与分析组件进行对接。

(2)在线建模

在线建模本质上就是构建SQL语句的过程,把用户要分析的条件变为SQL语句来将数据查询出来。在这个过程中,业界通常会提供两种方式:一种是SQL代码编辑器,另一种是图形化界面。

SQL代码编辑器方式就是让用户通过代码编辑器直接编写SQL代码,查询要分析的数据。通过SQL代码编辑器,用户可以实现较复杂的数据分析。但对于业务人员来说,SQL代码编辑器非常不友好,由于不了解SQL,他们不能正常分析数据。

图形化界面则是专门为了方便业务人员使用而设计的。业务人员通过简单的“拖曳”完成数据分析操作,再由分析组件把用户的操作转化成系统能理解的SQL语句,从而实现数据的分析和查询。这种方式对于业务人员来说非常方便,简单易上手,但是通过这种方式不能实现复杂的数据分析。

(3)能力开放

完成建模后,分析组件会自动生成一个API对外透出,当然用户也可以对API进行自定义调整。对于生成的API,需要控制其使用权限,并不是所有的应用都可以调用它,只有经过审核的应用才能调用,这样可以避免数据资产泄露。

推荐服务

1.定义

推荐服务即所谓的千人千面,对不同的人对物的行为进行数据挖掘,构建每个人与物之间的关系程度,来推荐人、物以满足用户的兴趣偏好,以提升用户对业务的黏性。大家听过最多的啤酒与尿布的案例就是其中一种,只不过它是从物与物的关联性来找到相关的人群,以提高用户的消费力。每个人打开手机淘宝看到的内容都不一样,这就是一种基于人的兴趣偏好的推荐服务能力。

2.典型特征

推荐服务具备以下3大特征。



(1)支持不同行业的推荐

推荐服务是具备行业属性的,不同行业背后的推荐逻辑是有区别的。比如电商领域和内容资讯领域,同样都是浏览行为,但是在推荐模型进行计算的过程中,两者所占的比重完全不一样。所以在电商、内容资讯、视频直播、音乐媒体、社交等不同领域中,推荐服务都应该具备和该领域适配的推荐能力。

(2)支持不同场景的推荐

即使在同一个行业中,对于推荐的使用也会存在不同的场景。还是以内容资讯类为例,在用户冷启动场景下,应该为其推荐哪些资讯?在用户已经有浏览行为的场景下,又应该为其推荐哪些资讯?在资讯冷启动场景下,应该为其推荐哪些用户群体?在资讯已经被浏览之后,又应该为其推荐哪些用户群体?

不难发现,在不同的场景下,同行业下的推荐逻辑也是完全不同的,所以推荐服务应该覆盖这些不同的推荐场景。

(3)支持推荐效果优化

推荐服务的终极目标是成为用户的贴心管家。不需要用户的任何思考,推荐服务就能向用户推荐他想要查看的物品或资讯。这就要求推荐服务能够自我迭代,自我更新。从导入的原始数据开始,经过推荐组件生成推荐数据,再根据用户的浏览数据不断修正推荐模型,从而使推荐效果不断优化。

3.构建过程

推荐服务的构建包含5个过程



(1)选择行业和场景模板

一般需要先选择推荐服务的应用行业,是电商类推荐还是新闻资讯类推荐,是视频直播类推荐还是社交类推荐,等等。此外,还要选择推荐服务的应用场景,是用户冷启动推荐还是用户热启动推荐,是商品冷启动推荐还是商品热启动推荐。不同行业、不同场景背后的推荐模型不同。

(2)原始数据接入

选择好要使用的推荐模型之后,就需要把相关的数据接入进来。通常要接入三类数据:一类是用户相关的数据,一类是物品相关的数据,最后一类是关系类数据(用户和物品发生关系的数据)。

以新闻资讯类为例,用户数据包括用户的基本信息、行为习惯、兴趣偏好、性格特征等内容;物品数据包括新闻资讯的基本信息、从属关系、功能特性、价值属性等内容;关系类数据是指浏览、分享、点赞、评论等内容。

(3)参数配置

数据导入后,通过服务参数设置可以便捷地配置推荐模型的模型结构、样本指向、目标设定、输入输出格式等参数,推荐模型即会在设定的参数下开始自动化训练运行,直至模型稳定下来后,产出推荐结果或稳定的推荐模型。

(4)能力开放

通过模型训练后最终会生成一个可供调用的推荐API,该API支持传入ID参数,实时或离线计算后,将适配该行业或场景下的推荐数据输出返回到相应的上层应用系统中。

(5)数据回流

上层应用使用推荐服务提供的推荐数据后,产生的效果数据还要回流到推荐模型中,也就是要把新一轮的用户数据、物品数据和关系数据导入推荐组件,设置一定的同步周期,通过数据不断修正推荐模型,从而大大提高推荐的准确性。


圈人服务

1.定义

各行各业都会涉及广告营销场景,而如何找到对的人推送广告就成了大数据场景要解决的问题。圈人服务应运而生,通过提供人群圈选服务,帮助服务使用者从全量用户数据中基于标签组合筛选出符合指定特征的人群,并以API的形式对接上层的营销系统,从而实现营销广告的精准触达,最终达到老客户召回、休眠客户激活等运营目的。

2.典型特征

圈人服务具备3大特征


(1)支持人群圈选

圈人服务的核心在于人群圈选,通过SQL代码或标签取值组合等多种方式,实现人群查找,帮用户找到对的人群。

(2)支持人群计量

营销部门或广告公司使用圈人服务圈选出目标人群后,往往还要考虑人群量是否符合预期,因为预算有限,不可能无限量或者不计成本地对人群进行营销。因此在通过条件圈选后,系统需要能快速计算出符合条件的人群量,如果数量多于预期,则建议继续追加条件圈选更精准的人群;如果数量少于预期,则建议放宽筛选条件,或者继续圈选其他合适人群。

(3)支持多渠道对接

人群圈选并计量测算,确认是业务方所需目标人群后,需要能够将人群名单导出到相应的下游系统。最简单的名单导出方式是先下载文件,再由业务人员导入相应的业务系统中。当人群名单量达到千万甚至上亿级,或人群圈选需要自动化对接时,需要将人群名单直接对接到短信系统、微信投放接口、营销活动系统等。

3.构建过程

圈人服务的构建包含3个过程



(1)数据接入

圈人服务的第一步是接入人群数据,用户可以通过文件、数据库、API等多种方式导入数据。

(2)人群圈选

圈人服务的本质其实是数据查询分析的过程,根据用户输入的条件,返回符合相应条件的人群数据。针对不同的使用场景,通常会提供多种圈人方式,以满足不同类型客户的需求。面向开发人员,可以提供SQL代码编辑器进行圈选。开发人员直接在代码编辑器中编写要查询的SQL语句,实现人群圈选。面向业务人员,可以提供图形化界面进行圈选。业务人员通常对代码了解不多,所以直接通过界面拖曳标签,勾选计算逻辑的方式,能大大降低他们的学习成本。

(3)能力开放

和所有其他服务一样,圈人服务最终也会以API的形式向上层应用透出。圈人服务通常会提供两方面的信息:一是圈选出的人群包名单,二是圈选的人群特征。下游的分发系统,例如短信系统、营销活动系统、广告系统等,会根据圈人服务提供的API,向这个人群发送符合该人群特征的文案内容或创意广告,从而实现精准触达,提升点击率和转化率。

--摘自《数据中台》

相关推荐

SQL入门知识篇(sql入门新手教程视频)

一、什么是数据库?什么是SQL?1、数据库:存放数据,可以很多人一起使用2、关系数据库:多张表+各表之间的关系3、一张表需要包含列、列名、行4、主键:一列(或一组列),其值能够唯一区分表中的每个行。5...

postgresql实现跨库查询-dblink的妙用

技术导语:用惯了oracle的dblink,转战postgresql,会一时摸不着头脑。本期就重点详细讲解postgresql如何安装dblink模块及如何使用dblink实现跨库查询。安装cont...

Oracle VM VirtualBox虚拟机软件(oracle vm virtualbox win10)

OracleVMVirtualBox是一款完全免费的虚拟机软件,下载银行有提供下载,软件支持安装windows、linux等多个操作系统,让用户可以在一台设备上实现多个操作系统的操作。同时软件有着...

开源 SPL 轻松应对 T+0(开源srs)

T+0问题T+0查询是指实时数据查询,数据查询统计时将涉及到最新产生的数据。在数据量不大时,T+0很容易完成,直接基于生产数据库查询就可以了。但是,当数据量积累到一定程度时,在生产库中进行大数据...

中小企业佳选正睿ZI1TS4-4536服务器评测

随着科技的不断发展,各行各业对于数据使用越加频繁,同时针对服务器的选择方面也就越来越多样化和细分化。那么对于我们用户来说,如何选择符合自身业务需求和最优性价比的产品呢?笔者将通过刚刚购买的这台服务器的...

MFC转QT:Qt基础知识(mfc和qt的区别)

1.Qt框架概述Qt的历史和版本Qt是一个跨平台的C++应用程序开发框架,由挪威公司Trolltech(现为QtCompany)于1991年创建。Qt的发展历程:1991年:Qt项目启动1995年...

数据库,QSqlTableModel(数据库有哪些)

QMYSQL——mysqlQSQLITE——sqliteQOICQ——orcale所需头文件.pro增加sql#include<QSqlDatabase>#include<Q...

python通过oledb连接dbf数据库(python连接jdbc)

起因:因为工作需要,需要读取dbf文件和系统数据中数据进行校对,因为知道dbf文件可以用sql查询,所以想能不能像mysql/oracle那样连接,再调用执行sql方法,通过一系列百度,尝试,最终通过...

Excel常用技能分享与探讨(5-宏与VBA简介 VBA与数据库)

在VBA(VisualBasicforApplications)中使用数据库(如Access、SQLServer、MySQL等)具有以下优点,适用于需要高效数据管理和复杂业务逻辑的场景:1....

Excel常用技能分享与探讨(5-宏与VBA简介 VBA与数据库-二)

以下是常见数据库软件的详细配置步骤,涵盖安装、驱动配置、服务启动及基本设置,确保VBA能够顺利连接:一、MicrosoftAccess适用场景:小型本地数据库,无需独立服务。配置步骤:安装Acces...

Windows Docker 安装(docker安装windows容器)

Docker并非是一个通用的容器工具,它依赖于已存在并运行的Linux内核环境。Docker实质上是在已经运行的Linux下制造了一个隔离的文件环境,因此它执行的效率几乎等同于所部署的L...

Windows下安装Ubuntu虚拟机方法(windows下安装ubuntu20)

在Windows下安装Ubuntu虚拟机。选择使OracleVMVirtualBox安装Ubuntu虚拟机。1.下载和安装OracleVMVirtualBox:访问OracleVMVir...

java入门教程1 - 安装和配置(win和linux)

windows安装和配置安装javahttps://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html目前大部分项目的...

Centos7 安装Tomcat8服务及配置jdk1.8教程

1、下载jdk1.8压缩包下载地址:https://www.oracle.com/java/technologies/javase/javase8-archive-downloads.htmltom...

全网最完整的免费java教程讲义(一)——java配置和安装

一,安装Java1)安装JDK要学习和使用java,首先需要安装JDK(JavaDevelopemntKit),相当于java安装包。Java的下载页在甲骨文官网上:https://www.or...

取消回复欢迎 发表评论: