百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

基于 Flink 实现的商品实时推荐系统(附源码)

mhr18 2024-12-14 11:11 19 浏览 0 评论


前言

之前一直给大家推荐的是关于 Flink 的介绍和知识点,可以在历史文章搜索了解。总的来说,现在还挺缺这种真正实战的项目分享出来,尤其是把源代码分享出来的,近期我在 GitHub 观察到一个不错的 Flink 项目,然后也和作者交流了下,于是在这里做一个分享。所以,那些平时问我有没有 Flink 项目的可以看过来了。地址在 :https://github.com/CheckChe0803/flink-recommandSystem-demo 下面介绍下这个项目。

1. 系统架构 v2.0

  • 1.1 系统架构图

  • 1.2模块说明
  • a.在日志数据模块(flink-2-hbase)中,又主要分为6个Flink任务:
  • 用户-产品浏览历史 -> 实现基于协同过滤的推荐逻辑通过Flink去记录用户浏览过这个类目下的哪些产品,为后面的基于Item的协同过滤做准备
    实时的记录用户的评分到Hbase中,为后续离线处理做准备.数据存储在Hbase的p_history表
  • 用户-兴趣 -> 实现基于上下文的推荐逻辑根据用户对同一个产品的操作计算兴趣度,计算规则通过操作间隔时间(如购物 - 浏览 < 100s)则判定为一次兴趣事件
    通过Flink的ValueState实现,如果用户的操作Action=3(收藏),则清除这个产品的state,如果超过100s没有出现Action=3的事件,也会清除这个state数据存储在Hbase的u_interest表
  • 用户画像计算 -> 实现基于标签的推荐逻辑v1.0按照三个维度去计算用户画像,分别是用户的颜色兴趣,用户的产地兴趣,和用户的风格兴趣.根据日志不断的修改用户画像的数据,记录在Hbase中.数据存储在Hbase的user表
  • 产品画像记录 -> 实现基于标签的推荐逻辑用两个维度记录产品画像,一个是喜爱该产品的年龄段,另一个是性别数据存储在Hbase的prod表
  • 事实热度榜 -> 实现基于热度的推荐逻辑通过Flink时间窗口机制,统计当前时间的实时热度,并将数据缓存在Redis中.通过Flink的窗口机制计算实时热度,使用ListState保存一次热度榜数据存储在redis中,按照时间戳存储list
  • 日志导入从Kafka接收的数据直接导入进Hbase事实表,保存完整的日志log,日志中包含了用户Id,用户操作的产品id,操作时间,行为(如购买,点击,推荐等).数据按时间窗口统计数据大屏需要的数据,返回前段展示数据存储在Hbase的con表
  • b. web模块
  • 前台用户界面该页面返回给用户推荐的产品list
  • 后台监控页面该页面返回给管理员指标监控

2.推荐引擎逻辑说明

  • 2.1 基于热度的推荐逻辑现阶段推荐逻辑图根据用户特征,重新排序热度榜,之后根据两种推荐算法计算得到的产品相关度评分,为每个热度榜中的产品推荐几个关联的产品
  • 2.2 基于产品画像的产品相似度计算方法基于产品画像的推荐逻辑依赖于产品画像和热度榜两个维度,产品画像有三个特征,包含color/country/style三个角度,通过计算用户对该类目产品的评分来过滤热度榜上的产品在已经有产品画像的基础上,计算item与item之间的关联系,通过余弦相似度来计算两两之间的评分,最后在已有物品选中的情况下推荐关联性更高的产品.
  • 2.3 基于协同过滤的产品相似度计算方法根据产品用户表(Hbase) 去计算公式得到相似度评分:

3. 前台推荐页面

当前推荐结果分为3列,分别是热度榜推荐,协同过滤推荐和产品画像推荐

4. 后台数据大屏

在后台上显示推荐系统的实时数据,数据来自其他Flink计算模块的结果.目前包含热度榜和1小时日志接入量两个指标.
真实数据位置在resource/database.sql

5. 部署说明

以下的部署均使用Docker,对于搭建一套复杂的系统,使用docker来部署各种服务中间件再合适不过了。这里有一套简单的Docker入门系列


需要的服务有:Mysql、Redis、Hbase和Kafka

Mysql

1docker pull mysql:5.7
2
3docker run --name local-mysql -p 3308:3306  -e MYSQL_ROOT_PASSWORD=123456 -d mysql:5.7

简单介绍一下命令,先拉取镜像,然后指定参数启动容器

  • --name local-mysql 容器名为local-mysql
  • -p 3308:3306 宿主机与容器的端口映射为3308:3306 即你访问宿主机的3308就是访问容器的3306端口,需要理解下
  • -e MYSQL_ROOT_PASSWORD=123456 容器内的变量名MYSQL_ROOT_PASSWORD对应的值为123456 即mysql的root密码为123456
  • -d 后台启动

Redis

1nbsp;docker run --name local-redis -p 6379:6379 -d redis

Hbase

 1docker pull harisekhon/hbase
 2
 3docker run -d -h base-server \
 4        -p 2181:2181 \
 5        -p 8080:8080 \
 6        -p 8085:8085 \
 7        -p 9090:9090 \
 8        -p 9000:9000 \
 9        -p 9095:9095 \
10        -p 16000:16000 \
11        -p 16010:16010 \
12        -p 16201:16201 \
13        -p 16301:16301 \
14        -p 16020:16020\
15        --name hbase \
16        harisekhon/hbase

Hbase用到的端口,可以参考一下详细教程
启动成功之后我们可以访问http://localhost:16010/master-status登录Web界面

:point_right: 快速实现SpringBoot集成Hbase

Kafka

考虑到更好的区别这些端口,我这里启动了一个虚拟机,在虚拟机中在用dokcer安装Kafka,过程如下

 1## pull images
 2docker pull wurstmeister/zookeeper
 3docker pull wurstmeister/kafka
 4docker pull sheepkiller/kafka-manager
 5
 6docker run -d --name zookeeper --publish 2181:2181 \
 7  --volume /etc/localtime:/etc/localtime \
 8  --restart=always \
 9  wurstmeister/zookeeper
10
11
12## run kafka
13docker run --name kafka \
14  -p 9092:9092 \
15  --link zookeeper:zookeeper \
16  -e KAFKA_ADVERTISED_HOST_NAME=192.168.1.8 \
17  -e KAFKA_ZOOKEEPER_CONNECT=zookeeper:2181 \
18  -d  wurstmeister/kafka  
19
20## run kafka manager
21docker run -d \
22  --link zookeeper:zookeeper \
23  -p 9000:9000  \
24  -e ZK_HOSTS="zookeeper:2181" \
25  hlebalbau/kafka-manager:stable \
26  -Dpidfile.path=/dev/null

如果想设置webui 的权限,可以这样设置

1KAFKA_MANAGER_AUTH_ENABLED: "true"
2KAFKA_MANAGER_USERNAME: username
3KAFKA_MANAGER_PASSWORD: password

容器启动成功之后就可以在页面访问localhost:9000查看Kafkfa的管理界面。

:point_right: 快速实现SpringBoot集成Kafka

启动服务

以下的操作是在IDEA下完成

1、将上述部署的几个服务的ip和端口号分别配置在flink-2-hbase和web服务中;

2、在flink-2-hbase中的根目录执行mvn clean install,目的是将其打包并放置在本地仓库中;

3、分别启动task目录下的task(直接在idea中右键启动就行了);

4、把SchedulerJob启动起来,定时地去计算协同过滤和用户画像所需要的分数;

5、在idea中打开web项目,等待其自动引入flink-2-hbase生成的jar包之后,再启动服务就ok了;

注意:所有的服务启动后,因为没有任何的点击记录,所以就是随机从数据库取得产品,这里需要你在推荐页面随便点击,等有了一定的历史数据之后,就能实现实时推荐的效果了

6. 下一步工作

  • 添加flink任务监控
  • 完善数据大屏,显示更详细的指标
  • 统计召回率/准确率等业务指标

相关推荐

软考架构师-案例分析之Redis(软考架构师真题)

软考架构师考试中,Redis的知识考了很多回,从最近几年来看,案例分析经常考,有的时候单独考,有的时候和其他知识点一起考。Redis过往的考试中,考过的知识如下:1、Redis特点,涉及数据类型、持久...

揭秘:视频播放网站如何精准记录用户观看进度

在互联网蓬勃发展的当下,视频内容已毫无争议地成为人们获取信息、享受娱乐休闲时光的核心方式。据权威数据统计,全球每天有数十亿小时的视频被观看,视频流量在网络总流量中的占比逐年攀升,预计在未来几年内将超过...

量子级一致性!Flink+Redis全局状态管理

百万级实时计算任务如何实现亚毫秒级状态访问?本文揭秘Flink+Redis的量子纠缠态状态管理方案,将状态延迟降至0.3ms。引子:实时风控系统的量子跃迁//传统Flink状态管理(基于RocksD...

在 Mac 上运行 Redis 的 Docker 容器

在Mac上运行Redis的Docker容器,你可以按以下步骤操作,非常简单高效:一、前提要求已安装DockerDesktopforMac可通过终端验证Docker是否可用:d...

从 0 到 1:使用 Nginx + Lua 打造高性能 Web 网关

在大规模分布式架构中,Web网关扮演着重要角色,负责请求转发、负载均衡、限流、认证等功能。而Nginx+Lua结合可以提供:o高性能:Nginx是目前最流行的高性能Web服务器o动...

外贸独立站缓存设置黑科技:用错Redis比没缓存更致命

上周帮一个杭州卖家排查网站崩溃问题,发现这老铁把Redis缓存设置成128MB还开着持久化,服务器内存直接炸得比春节红包还彻底——"你这哪是缓存啊,根本是DDoS攻击自己!"最近Clo...

Spring Boot3 整合 Redis,这些缓存注解你真的会用吗?

你在开发SpringBoot3项目时,有没有遇到过这样的困扰?随着项目功能不断增加,数据量逐渐庞大,接口响应速度变得越来越慢,用户体验直线下降。好不容易找到优化方向——引入Redis缓存...

MySQL处理并发访问和高负载的关键技术和策略

MySQL处理并发访问和高负载的关键技术和策略主要包括以下几个方面:一、硬件优化1.CPU:提升CPU处理能力可以明显改善并发处理性能。根据数据库负载,考虑使用更多的CPU核心。2.内存:增加内存可以...

druid解决高并发的数据库(druid多数据源配置 spring boot)

处理高并发的时候可以解决我们java一个核心问题java核心问题就是并发问题解决并发一个是redis一个是线程池的方式现在出来是个druid好像现在解决高并发的方式进行更换数据库的方式操作场景插入频繁...

高并发方案最全详解(8大常见方案)

关注△mikechen△,十余年BAT架构经验倾囊相授!大家好,我是mikechen睿哥。高并发是大型架构的核心,下面我重点来详解常见8大高并发方案@mikechen文章来源:mikechen.cc分...

MySQL如何处理并发访问和高负载?(mysql如何处理并发访问和高负载访问)

MySQL在处理并发访问和高负载方面,采取了一系列关键技术和策略,以确保数据库系统在面对不断增长的并发需求时维持高效和稳定的性能。以下是对这些技术和策略的详细阐述,旨在全面解析MySQL如何处理并发访...

Redis高可用集群详解(redis高可用方案以及优缺点)

Redis集群与哨兵架构对比Redis哨兵架构在redis3.0以前的版本要实现集群一般是借助哨兵sentinel工具监控master节点状态,如果master节点异常,则会做主从切换,将某一台sla...

MCP协议重大升级!Spring AI联合阿里Higress,性能提升300%

引言:一场颠覆AI通信的技术革命2025年3月,MCP(ModelContextProtocol)协议迎来里程碑式升级——StreamableHTTP正式取代HTTP+SSE成为默认传输层。这一...

阿里三面被挂,幸获内推,历经5轮终于拿到口碑offer

作者:Java程序猿阿谷来源:https://www.jianshu.com/p/1c8271f03aa5每一个互联网人心中都有一个大厂梦,百度、阿里巴巴、腾讯是很多互联网人梦寐以求的地方,而我也不例...

来瞧瞧阿里一面都面些什么(笔试+机试)

絮叨说实话,能有机会面一下阿里对我来说帮助确实有蛮多,至少让我知道了自己的不足在哪,都说面试造火箭,上班拧螺丝。但就算是如此,为了生存,你也只有不停的学习,唯有光头,才能更强。哈哈起因2月28日在Bo...

取消回复欢迎 发表评论: