数据源来自于阿里巴巴提供的某年淘宝用户购买商品数据集,通过该数据进行大数据数仓的建设和开发分析,从以上几个维 度分别分析并将结果可视化(如上图)
user_log_format1.csv 本数据集为用户的购买日志,即数据集的每一行表示一条用户购买行为,由user_id"买家id",item_id"产品id",cat_id"分类id",seller_id"卖家id",brand_id"品牌id",time_stamp"时间戳"和action_type"行为类型"组成,并以逗号分隔。关于数据集中每一列的详细描述如下:
node1上启动hadoop集群:startha.sh(这个是一个脚本,可以对应hive专栏中查看) node3上开启hive的客户端和服务端
创建hive库
创建hive数据表 创建用户信息表
创建用户行为日志表
传输csv文件到虚拟机中——传输后删除否则占用虚拟机内存 导入本地excel到hive表中
删除文件
此时,我们发现在虚拟机中直接写代码是非常不友好的,没有高亮显示、没有拼写错误提示。这时候我们就需要一个可视化的工具——DataGrip
DataGrip的功能就类似Navicat,对虚拟机上的hive数据库可视化。操控,查询等功能 数仓开发工具可选用DBeaver或者DataGrip。 下载网址:https://www.jetbrains.com/zh-cn/datagrip/download/other.html 将Datagrip安装到D:devsoftJetBrainsDataGrip22.2.1目录下。 将解压后的ja-netfilter拷贝到D:devsoftJetBrains下(以后不要动它) 进入 Datagrip 的安装目录 D:devsoftJetBrainsDataGrip22.2.1bin 目录下,修改 datagrip64.exe.vmoptions 配置文件: 点击exe文件——选择好路径
移动破解文件夹到目标文件夹中 打开此文件 添加补丁路径 打开DataGrip
复制激活码 DataGrip2022密钥:
DataGrip需要用到JDBC协议连接到Hive,需要配置HiveServer2。 若配置过直接跳到启动步骤开始 具体配置步骤: 关闭hive
关闭hadoop
修改hive配置,支持hiveserver2启动
修改core-site.xml
分发给所有节点
启动hadoop集群
启动hive
启动hiveserver2
连接hiveserver2