基于大数据的餐饮推荐系统总结

介绍

推荐系统不单单指某一方面的技术，而是作为一个完整的系统而存在，要考虑到很多方面才能做出一个有价值的推荐系统。

在信息过载的时代，有太多的信息被产生，推荐系统的作用是让人们在海量的信息中查看到更多有效的信息。

推荐系统的价值在生活中的许多方面都有体现，浏览器、社交软件、购物软件等中都能看到其身影，为用户提供个性化推荐，在引导用户浏览商品信息的同时带动消费。

大数据时代，数据就是一种资源，为了资源能有效的使用，我们需要在数据中通过一定的方式得到有价值的信息。

通过大数据技术搭建平台，基于平台进行推荐业务代码的编写，将大数据技术与推荐系统结合在一起，可以带来更高的价值。通过基于大数据的推荐系统处理海量的数据得出有价值的推荐结果。

说明

最初是想学习大数据相关技术，然后从事和大数据相关的职业，所以在毕业设计选题时选择了《基于大数据的餐饮推荐系统设计》。

真正在查了很多资料才发现可能想的有点简单了，从零开始突然发现自己面对的是一个庞然大物的时候是不知所措的。

在和朋友的交流中的出一个结论：先做一个最简单的，再慢慢优化。

在一步一步的试错中前行。

过程

技术的选型

最初的设想是要实现离线推荐与实时推荐，最终选定了 Lambda 架构。

Lambda 架构的主要思想是将大数据系统构建为多个层次。

这里分为三层: 批处理层、实时处理层、服务层。

批处理层: 负责处理离线数据产生离线推荐信息

实时处理层: 负责处理实时数据产生实时推荐信息

服务层: 实现与用户的交互，将推荐数据信息可视化展示给用户

架构组件选型图

数据

不同于图书与音乐之类的数据，餐饮数据并不好量化。

以音乐为例，可以很清晰的以歌曲名称、歌手、热度、类型等来实现量化。

而餐饮数据充满着不确定性，一种食物每家饭店可能都做得不一样。

我觉得最好状态的是为每个用户创建画像，并为每种食物建立详细描述的标签，通过二者的关联度进行相关推荐。

技术无止境，但都是服务于业务，以上的想法要实现还有很长的路要走。

美团和饿了么都未提供经过脱敏的餐饮数据，也没有相关的支持。

所以数据只能自己造，使用 Python 写了一个小的餐饮评分数据生成器，通过其产生数据作为数据来源。

离线数据产生了10万条，实时数据是通过 Linux 的定时执行工具 crontab 定时执行 Python 脚本。

首先要将离线评分数据写入 HBase 数据库，先把本地的数据导入到 HDFS 中，在将其从 HDFS 中传输到 HBase 数据库中。

大数据平台的搭建

参照 Spark Streaming 实时流处理项目实战环境搭建汇总
完成大数据平台的搭建。

系统流程图

项目地址

不足

评分数据缺乏真实的来源

经过实际测试，没有真实的数据来源得到的推荐结果并没有实际价值。

也无法得出合适的参数优化模型。

没有冷启动

由于一切都是基于用户对餐饮数据的评分而产生的推荐结果，新的用户并未产生评分数据。

缺乏评分也就无法实现推荐，像我们现在注册账户刚登进去就会给我们很多选项，让我们选择自己感兴趣的。

这些都是实现了冷启动，通过这些确定了我们的爱好偏向，保证了在缺乏足够的数据之前进行相关推荐。

硬件限制

受限于电脑内存、电脑性能和机器数量，要同时兼顾平台的搭建、大数据各组件的运行和代码的开发运行，在大数据推荐平台的搭建上选择伪分布式安装并未用到集群，不能完整地发挥大数据的优势。

在代码编写完成后的运行速度与效率也受到限制，规模与真正的应用存在差距。在以后的工作中希望可以在这些方面得到更好的锻炼

总结

最终虽然完成了推荐系统的设计，但是也发现了许多问题与不足。

整体过程中遇到了很多坑，一直在踩坑与爬坑。

挺感谢这段经历的，在这个过程中收获了很多。

下一阶段的目标是把基础打牢，然后跟着官网更深入地学习大数据。