JAVA高级面试进阶训练营视频教程

admin · 发表于 2021-5-18 10:26:48

hive官方并不支持json格式的数据加载，默认支持csv格式文件加载，如何在不依赖外部jar包的情况下实现json数据格式解析，本编博客着重介绍此问题解决方案

首先创建元数据表：

create EXTERNAL table access_log (content string) 
row format delimited fields terminated by '\t' 
STORED AS INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat' 
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' 
location 'hdfs://sps1:9090/data/accesslog'

创建视图表：

create view access_log_view as 

select eventTime, ip, appName, fp, username, target from access_log 
lateral view json_tuple(content, "eventTime", "ip", "appName", "fp", "username", "target") t1 
as eventTime, ip, appName, fp, username, target;

视图表利用json tuple将json object的数据进行抽取，这样就实现了字段分离。

但是有些日志文件是/user/aaa/dt=2013-12-01/ds=01/access.log带有分区目录的，对于这种格式需要分区表的支持

创建分区表：

create EXTERNAL table access_log (content string) 
partitioned by (dt int, ds int) 
row format delimited fields terminated by '\t' 
STORED AS INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat' 
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' 
location 'hdfs://sps1:9090/data/accesslog4';

但是问题来了，发现没有办法加载数据，该怎么办那。

下一步我们需要手动的加载分区：

alter table access_log add partition(dt=?,ds=?)

这样就可以查到数据了。切记必须要进行分区add，否则无法查到数据。

批量add分区方法：

#!/bin/bash
source ~/.bashrc
dir="/testdata/user"
dt="dt="
ht="ht="
table="tpa.access_log"
hscript=""
#get date dir list
for part in `hadoop fs -ls $dir |grep -o -P "[0-9-]+$"`;
do
#get hour dir list
for part2 in `hadoop fs -ls $dir/$dt$part |grep -o -P "[0-9]+$"`
do
echo $dir/$dt$part/$ht$part2
tmp="ALTER TABLE $table ADD PARTITION($dt'$part', $ht'$part2');"
hscript=$hscript$tmp
done;
done;

hive -e "$hscript"

创建视图表：

与上边创建视图一样

但是分区是随着时间的推移进行增加的，这个不能人肉，我们需要自动化脚本来帮助我们完成

#!/bin/bash
source ~/.bashrc
date=`date +%Y-%m-%d`
hour=`date +%H`
cmd="ALTER TABLE databaseName.tableName ADD PARTITION(dt='$date', ht='$hour');"
hive -e "$cmd"

至此为止，有关hive加载json数据和分区表的问题就解释清楚了，不明白下方留言，我们继续讨论。

		自动登录	找回密码
密码			立即注册

JAVA高级面试进阶训练营视频教程	Java架构师系统进阶VIP课程	分布式高可用全栈开发微服务教程	Go语言视频零基础入门到精通	Java架构师3期(课件+源码)
Java开发全终端实战租房项目视频教程	SpringBoot2.X入门到高级使用教程	大数据培训第六期全套视频教程	深度学习（CNN RNN GAN）算法原理	Java亿级流量电商系统视频教程
互联网架构师视频教程	年薪50万Spark2.0从入门到精通	年薪50万！人工智能学习路线教程	年薪50万大数据入门到精通学习路线	年薪50万机器学习入门到精通教程
仿小米商城类app和小程序视频教程	深度学习数据分析基础到实战	最新黑马javaEE2.1就业课程	从 0到JVM实战高手教程	MySQL入门到精通教程

JAVA高级面试进阶训练营视频教程

Java架构师系统进阶VIP课程

hive加载json数据解决方案