商务服务
1.淘宝购买行为分析项目——需求分析、创建Hive表、DataGrip安装于激活、配置HiveServer2
2024-11-17 03:35

1.淘宝购买行为分析项目——需求分析、创建Hive表、DataGrip安装于激活、配置HiveServer2 数据源来自于阿里巴巴提供的某年淘宝用户购买商品数据集,通过该数据进行大数据数仓的建设和开发分析,从以上几个维 度分别分析并将结果可视化(如上图

1.淘宝购买行为分析项目——需求分析、创建Hive表、DataGrip安装于激活、配置HiveServer2

文件名称说明包含特征user_info_format1.csv包含所有用户的信息id “唯一标识id”, age_range “年龄范围”,gender “性别 0女 1男 2保密”user_log_format1.csv文件存放的是购买行为日志user_id,item_id,cat_id,seller_id, brand_id,time_stamp,action_type

user_log_format1.csv 本数据集为用户的购买日志,即数据集的每一行表示一条用户购买行为,由user_id"买家id",item_id"产品id",cat_id"分类id",seller_id"卖家id",brand_id"品牌id",time_stamp"时间戳"和action_type"行为类型"组成,并以逗号分隔。关于数据集中每一列的详细描述如下1.淘宝购买行为分析项目——需求分析、创建Hive表、DataGrip安装于激活、配置HiveServer2

node1上启动hadoop集群:startha.sh(这个是一个脚本,可以对应hive专栏中查看1.淘宝购买行为分析项目——需求分析、创建Hive表、DataGrip安装于激活、配置HiveServer2 node3上开启hive的客户端和服务端

 

创建hive库

 

创建hive数据表 创建用户信息表

 

创建用户行为日志表

 

传输csv文件到虚拟机中——传输后删除否则占用虚拟机内存 1.淘宝购买行为分析项目——需求分析、创建Hive表、DataGrip安装于激活、配置HiveServer2 导入本地excel到hive表中

 

删除文件

 

此时,我们发现在虚拟机中直接写代码是非常不友好的,没有高亮显示、没有拼写错误提示。这时候我们就需要一个可视化的工具——DataGrip

DataGrip的功能就类似Navicat,对虚拟机上的hive数据库可视化。操控,查询等功能 数仓开发工具可选用DBeaver或者DataGrip。 下载网址:https://www.jetbrains.com/zh-cn/datagrip/download/other.html 将Datagrip安装到D:devsoftJetBrainsDataGrip22.2.1目录下。 将解压后的ja-netfilter拷贝到D:devsoftJetBrains下(以后不要动它) 进入 Datagrip 的安装目录 D:devsoftJetBrainsDataGrip22.2.1bin 目录下,修改 datagrip64.exe.vmoptions 配置文件点击exe文件——选择好路径1.淘宝购买行为分析项目——需求分析、创建Hive表、DataGrip安装于激活、配置HiveServer2 1.淘宝购买行为分析项目——需求分析、创建Hive表、DataGrip安装于激活、配置HiveServer2 1.淘宝购买行为分析项目——需求分析、创建Hive表、DataGrip安装于激活、配置HiveServer2

移动破解文件夹到目标文件夹中 1.淘宝购买行为分析项目——需求分析、创建Hive表、DataGrip安装于激活、配置HiveServer2 打开此文件 1.淘宝购买行为分析项目——需求分析、创建Hive表、DataGrip安装于激活、配置HiveServer2 添加补丁路径 1.淘宝购买行为分析项目——需求分析、创建Hive表、DataGrip安装于激活、配置HiveServer2 打开DataGrip 1.淘宝购买行为分析项目——需求分析、创建Hive表、DataGrip安装于激活、配置HiveServer2

复制激活码 1.淘宝购买行为分析项目——需求分析、创建Hive表、DataGrip安装于激活、配置HiveServer2 DataGrip2022密钥

 
 

DataGrip需要用到JDBC协议连接到Hive,需要配置HiveServer2。 若配置过直接跳到启动步骤开始 具体配置步骤关闭hive

 

关闭hadoop

 

修改hive配置,支持hiveserver2启动

 

修改core-site.xml

 

分发给所有节点

 

启动hadoop集群

 

启动hive

 

启动hiveserver2

 

连接hiveserver2

    以上就是本篇文章【1.淘宝购买行为分析项目——需求分析、创建Hive表、DataGrip安装于激活、配置HiveServer2】的全部内容了,欢迎阅览 ! 文章地址:http://fabua.ksxb.net/news/496.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 海之东岸资讯移动站 http://fabua.ksxb.net/mobile/ , 查看更多   
最新文章
家庭医生签约服务健康知识库(一)
第一部分 科学健康观素养一、基本知识和理念(15条)1.【健康的定义】健康是指身体、心理和社会状态的完好状态,而不仅仅是没有
华为新款折叠屏手机开售后“秒光” 产业渗透率有望快速提升 媒体报道,12月6日,华为在南山全球旗舰店正式发售折叠屏手机MateX6,售价12999元起,此前已有超过116万人预约...
来源:雪球App,作者: 科创板日报,(https://xueqiu.com/9252950692/315917278)媒体报道,12月6日,华为在南山全球旗舰店正式
中信银行信用卡欠两万逾期两年多没还上该如何处理?
中信银行信用卡欠两万逾期两年多没还上怎么办小编导语随着信用卡的普及,越来越多的人选择使用信用卡进行消费。信用卡欠款逾期的
AI生成3D模型工具都有哪些?2023年AI生成器大盘点!
由于人工智能 (AI) 的快速发展3D 内容创作的未来也逐渐变得清晰AI 驱动的工具正在逐渐改变我们创建、交互和体验 3D 内容的方式,
如何利用2024年十大免费网站推广入口提升网站流量和品牌知名度?
在互联网时代,推广一个网站或业务需要通过多种渠道和入口来提高曝光度,增加流量。尤其是对于初创企业和小型网站来说,寻找合适
dwg用什么软件可以查看?dwg浏览器下载
本教程操作环境:windows7系统、DELL G3电脑。 6款可以打开dwg文件的软件看图纸DwgSeePlus是一款dwg文件浏览器,是专门为工程设
五大全站推广优化策略,助您网站流量激增秘诀大公开
全站推广标题优化五大秘诀,助您网站流量猛增。策略包括:精准关键词布局、吸引力标题设计、标题与内容一致性、多平台推广同步、
【学习教程系列】最通俗的 Python3 网络爬虫入门
很多朋友学习Python都是先从爬虫开始,其原因不外两方面: 其一Python对爬虫支持度较好,类库众多,其
工业富联涨0.86%,成交额20.91亿元,人气排名41位!后市是否有机会?附走势预测
12月11日,涨0.86%,成交额20.91亿元,换手率0.47%,总市值4436.50亿元。工业富联目前在新浪财经客户端A股市场人气排名第41名。