基于 Flink 实现的商品实时推荐系统(附源码)
mhr18 2024-12-14 11:11 14 浏览 0 评论
前言
之前一直给大家推荐的是关于 Flink 的介绍和知识点,可以在历史文章搜索了解。总的来说,现在还挺缺这种真正实战的项目分享出来,尤其是把源代码分享出来的,近期我在 GitHub 观察到一个不错的 Flink 项目,然后也和作者交流了下,于是在这里做一个分享。所以,那些平时问我有没有 Flink 项目的可以看过来了。地址在 :https://github.com/CheckChe0803/flink-recommandSystem-demo 下面介绍下这个项目。
1. 系统架构 v2.0
- 1.1 系统架构图
- 1.2模块说明
- a.在日志数据模块(flink-2-hbase)中,又主要分为6个Flink任务:
- 用户-产品浏览历史 -> 实现基于协同过滤的推荐逻辑通过Flink去记录用户浏览过这个类目下的哪些产品,为后面的基于Item的协同过滤做准备
实时的记录用户的评分到Hbase中,为后续离线处理做准备.数据存储在Hbase的p_history表 - 用户-兴趣 -> 实现基于上下文的推荐逻辑根据用户对同一个产品的操作计算兴趣度,计算规则通过操作间隔时间(如购物 - 浏览 < 100s)则判定为一次兴趣事件
通过Flink的ValueState实现,如果用户的操作Action=3(收藏),则清除这个产品的state,如果超过100s没有出现Action=3的事件,也会清除这个state数据存储在Hbase的u_interest表 - 用户画像计算 -> 实现基于标签的推荐逻辑v1.0按照三个维度去计算用户画像,分别是用户的颜色兴趣,用户的产地兴趣,和用户的风格兴趣.根据日志不断的修改用户画像的数据,记录在Hbase中.数据存储在Hbase的user表
- 产品画像记录 -> 实现基于标签的推荐逻辑用两个维度记录产品画像,一个是喜爱该产品的年龄段,另一个是性别数据存储在Hbase的prod表
- 事实热度榜 -> 实现基于热度的推荐逻辑通过Flink时间窗口机制,统计当前时间的实时热度,并将数据缓存在Redis中.通过Flink的窗口机制计算实时热度,使用ListState保存一次热度榜数据存储在redis中,按照时间戳存储list
- 日志导入从Kafka接收的数据直接导入进Hbase事实表,保存完整的日志log,日志中包含了用户Id,用户操作的产品id,操作时间,行为(如购买,点击,推荐等).数据按时间窗口统计数据大屏需要的数据,返回前段展示数据存储在Hbase的con表
- b. web模块
- 前台用户界面该页面返回给用户推荐的产品list
- 后台监控页面该页面返回给管理员指标监控
2.推荐引擎逻辑说明
- 2.1 基于热度的推荐逻辑现阶段推荐逻辑图根据用户特征,重新排序热度榜,之后根据两种推荐算法计算得到的产品相关度评分,为每个热度榜中的产品推荐几个关联的产品
- 2.2 基于产品画像的产品相似度计算方法基于产品画像的推荐逻辑依赖于产品画像和热度榜两个维度,产品画像有三个特征,包含color/country/style三个角度,通过计算用户对该类目产品的评分来过滤热度榜上的产品在已经有产品画像的基础上,计算item与item之间的关联系,通过余弦相似度来计算两两之间的评分,最后在已有物品选中的情况下推荐关联性更高的产品.
- 2.3 基于协同过滤的产品相似度计算方法根据产品用户表(Hbase) 去计算公式得到相似度评分:
3. 前台推荐页面
当前推荐结果分为3列,分别是热度榜推荐,协同过滤推荐和产品画像推荐
4. 后台数据大屏
在后台上显示推荐系统的实时数据,数据来自其他Flink计算模块的结果.目前包含热度榜和1小时日志接入量两个指标.
真实数据位置在resource/database.sql
5. 部署说明
以下的部署均使用Docker,对于搭建一套复杂的系统,使用docker来部署各种服务中间件再合适不过了。这里有一套简单的Docker入门系列
需要的服务有:Mysql、Redis、Hbase和Kafka
Mysql
1docker pull mysql:5.7
2
3docker run --name local-mysql -p 3308:3306 -e MYSQL_ROOT_PASSWORD=123456 -d mysql:5.7
简单介绍一下命令,先拉取镜像,然后指定参数启动容器
- --name local-mysql 容器名为local-mysql
- -p 3308:3306 宿主机与容器的端口映射为3308:3306 即你访问宿主机的3308就是访问容器的3306端口,需要理解下
- -e MYSQL_ROOT_PASSWORD=123456 容器内的变量名MYSQL_ROOT_PASSWORD对应的值为123456 即mysql的root密码为123456
- -d 后台启动
Redis
1nbsp;docker run --name local-redis -p 6379:6379 -d redis
Hbase
1docker pull harisekhon/hbase
2
3docker run -d -h base-server \
4 -p 2181:2181 \
5 -p 8080:8080 \
6 -p 8085:8085 \
7 -p 9090:9090 \
8 -p 9000:9000 \
9 -p 9095:9095 \
10 -p 16000:16000 \
11 -p 16010:16010 \
12 -p 16201:16201 \
13 -p 16301:16301 \
14 -p 16020:16020\
15 --name hbase \
16 harisekhon/hbase
Hbase用到的端口,可以参考一下详细教程
启动成功之后我们可以访问http://localhost:16010/master-status登录Web界面
:point_right: 快速实现SpringBoot集成Hbase
Kafka
考虑到更好的区别这些端口,我这里启动了一个虚拟机,在虚拟机中在用dokcer安装Kafka,过程如下
1## pull images
2docker pull wurstmeister/zookeeper
3docker pull wurstmeister/kafka
4docker pull sheepkiller/kafka-manager
5
6docker run -d --name zookeeper --publish 2181:2181 \
7 --volume /etc/localtime:/etc/localtime \
8 --restart=always \
9 wurstmeister/zookeeper
10
11
12## run kafka
13docker run --name kafka \
14 -p 9092:9092 \
15 --link zookeeper:zookeeper \
16 -e KAFKA_ADVERTISED_HOST_NAME=192.168.1.8 \
17 -e KAFKA_ZOOKEEPER_CONNECT=zookeeper:2181 \
18 -d wurstmeister/kafka
19
20## run kafka manager
21docker run -d \
22 --link zookeeper:zookeeper \
23 -p 9000:9000 \
24 -e ZK_HOSTS="zookeeper:2181" \
25 hlebalbau/kafka-manager:stable \
26 -Dpidfile.path=/dev/null
如果想设置webui 的权限,可以这样设置
1KAFKA_MANAGER_AUTH_ENABLED: "true"
2KAFKA_MANAGER_USERNAME: username
3KAFKA_MANAGER_PASSWORD: password
容器启动成功之后就可以在页面访问localhost:9000查看Kafkfa的管理界面。
:point_right: 快速实现SpringBoot集成Kafka
启动服务
以下的操作是在IDEA下完成
1、将上述部署的几个服务的ip和端口号分别配置在flink-2-hbase和web服务中;
2、在flink-2-hbase中的根目录执行mvn clean install,目的是将其打包并放置在本地仓库中;
3、分别启动task目录下的task(直接在idea中右键启动就行了);
4、把SchedulerJob启动起来,定时地去计算协同过滤和用户画像所需要的分数;
5、在idea中打开web项目,等待其自动引入flink-2-hbase生成的jar包之后,再启动服务就ok了;
注意:所有的服务启动后,因为没有任何的点击记录,所以就是随机从数据库取得产品,这里需要你在推荐页面随便点击,等有了一定的历史数据之后,就能实现实时推荐的效果了
6. 下一步工作
- 添加flink任务监控
- 完善数据大屏,显示更详细的指标
- 统计召回率/准确率等业务指标
- 上一篇:架构案例丨苏宁易购:商品详情系统架构设计
- 下一篇:混合云应用双活容灾最佳实践
相关推荐
- MYSQL数据同步(mysql数据同步方式)
-
java开发工程师在实际的开发经常会需要实现两台不同机器上的MySQL数据库的数据同步,要解决这个问题不难,无非就是mysql数据库的数据同步问题。但要看你是一次性的数据同步需求,还是定时数据同步,亦...
- SpringBoot+Redis实现点赞收藏功能+定时同步数据库
-
由于点赞收藏都是高频率的操作,如果因此频繁地写入数据库会造成数据库压力比较大,因此采用redis来统计点赞收藏浏览量,之后定时一次性写入数据库中,缓解数据库地压力。一.大体思路设计redis中的储存结...
- 双11订单洪峰:Codis代理层如何扛住Redis集群搞不定的120万QPS?
-
双11订单洪峰下的技术挑战每年的双11购物节,都是对电商平台技术架构的极限考验。当零点钟声敲响,海量用户瞬间涌入,订单量呈指数级增长,系统需要承受每秒数十万甚至上百万次的请求。作为电商系统的核心组件之...
- 基于spring boot + MybatisPlus 商城管理系统的Java开源商城系统
-
前言Mall4j项目致力于为中小企业打造一个完整、易于维护的开源的电商系统,采用现阶段流行技术实现。后台管理系统包含商品管理、订单管理、运费模板、规格管理、会员管理、运营管理、内容管理、统计报表、权限...
- 商品券后价产品设计方案(显示券后价)
-
如何设计一套高效、准确且稳定的券后价计算系统,是电商产品设计中的关键挑战之一。本文详细介绍了商品券后价的产品设计方案,从背景目标、功能设计、系统实现逻辑到异常处理机制等多个方面进行了全面阐述。一、背景...
- 外观(门面)模式-Java实现(java 门面模式)
-
定义外观模式(FacadePattern),也叫门面模式,原始定义是:为了子系统中的一组接口提供统一的接口。定义一个更高级别的接口,使子系统更易于使用。大大降低应用程序的复杂度,提高了程序的可维护性...
- Mall - 用 SpringBoot 实现一个电商系统
-
目前最为主流的Web开发技术,包括SpringBoot、MyBatis、MongoDB、Kibina、Docker、Vue等,都是开发者十分需要掌握的技术。有没有一个全面而又实际的项目,能把这...
- 腾讯云国际站:哪些工具能实现可视化运维?
-
本文由【云老大】TG@yunlaoda360撰写开源工具Grafana:开源的可视化平台,可与Prometheus、Elasticsearch、MySQL等多种数据源集成,将复杂监控数据转化...
- 系统稳定性保障全流程实战:事前、事中、事后 Java 代码详解
-
在互联网架构中,系统稳定性是生命线。本文基于“事前预防、事中管控、事后复盘”三阶段模型,结合Java实战代码,深度解析如何构建高可用系统,让你的服务稳如磐石!一、事前:未雨绸缪,筑牢防线1.发...
- Java面试题:拆分微服务应该注意哪些地方方,如何拆分?
-
在拆分微服务时,需要综合考虑业务、技术和组织等多方面因素,以下是关键注意事项及拆分策略的详细说明:一、拆分注意事项1.业务边界清晰化单一职责原则:每个服务应专注于单一业务能力,例如订单服务仅处理订单...
- 软件性能调优全攻略:从瓶颈定位到工具应用
-
性能调优是软件测试中的重要环节,旨在提高系统的响应时间、吞吐量、并发能力、资源利用率,并降低系统崩溃或卡顿的风险。通常,性能调优涉及发现性能瓶颈、分析问题根因、优化代码和系统配置等步骤,调优之前需要先...
- Docker Compose实战,多容器协同编排的利器,让开发部署更高效!
-
开篇导读你是否有过这样的经历?启动一个项目,数据库、Redis、Web服务得一个个敲dockerrun?想让别人复现你的开发环境,却得发一堆复杂的启动命令?明明都是容器,为什么不能“一键启动”所...
- 如何设计Agent的记忆系统(agent记忆方法)
-
最近看了一张画Agent记忆分类的图我觉得分类分的还可以,但是太浅了,于是就着它的逻辑,仔细得写了一下在不同的记忆层,该如何设计和选型先从流程,作用,实力和持续时间的这4个维度来解释一下这几种记忆:1...
- 不了解业务和技术术语怎么做好产品和项目?
-
基础技术术语术语分类解释API开发技术应用程序接口,不同系统间数据交互的协议(如支付接口、地图接口)。SDK开发工具软件开发工具包,包含API、文档和示例代码,帮助快速接入服务。RESTfulAPI...
- Docker 架构详解与核心概念实战图解:一文读懂容器的前世今生
-
不懂Docker架构,你只是“用容器的人”;理解了它的底层逻辑,才能成为真正的高手!在学习Docker之前,很多同学可能会陷入一个误区:“反正我用dockerrun就能跑起服务,架构这种...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- oracle位图索引 (63)
- oracle批量插入数据 (62)
- oracle事务隔离级别 (53)
- oracle 空为0 (50)
- oracle主从同步 (55)
- oracle 乐观锁 (51)
- redis 命令 (78)
- php redis (88)
- redis 存储 (66)
- redis 锁 (69)
- 启动 redis (66)
- redis 时间 (56)
- redis 删除 (67)
- redis内存 (57)
- redis并发 (52)
- redis 主从 (69)
- redis 订阅 (51)
- redis 登录 (54)
- redis 面试 (58)
- 阿里 redis (59)
- redis 搭建 (53)
- redis的缓存 (55)
- lua redis (58)
- redis 连接池 (61)
- redis 限流 (51)