Java自学者论坛

 找回密码
 立即注册

手机号码,快捷登录

恭喜Java自学者论坛(https://www.javazxz.com)已经为数万Java学习者服务超过8年了!积累会员资料超过10000G+
成为本站VIP会员,下载本站10000G+会员资源,会员资料板块,购买链接:点击进入购买VIP会员

JAVA高级面试进阶训练营视频教程

Java架构师系统进阶VIP课程

分布式高可用全栈开发微服务教程Go语言视频零基础入门到精通Java架构师3期(课件+源码)
Java开发全终端实战租房项目视频教程SpringBoot2.X入门到高级使用教程大数据培训第六期全套视频教程深度学习(CNN RNN GAN)算法原理Java亿级流量电商系统视频教程
互联网架构师视频教程年薪50万Spark2.0从入门到精通年薪50万!人工智能学习路线教程年薪50万大数据入门到精通学习路线年薪50万机器学习入门到精通教程
仿小米商城类app和小程序视频教程深度学习数据分析基础到实战最新黑马javaEE2.1就业课程从 0到JVM实战高手教程MySQL入门到精通教程
查看: 772|回复: 0

hive加载json数据解决方案

[复制链接]
  • TA的每日心情
    奋斗
    2024-4-6 11:05
  • 签到天数: 748 天

    [LV.9]以坛为家II

    2034

    主题

    2092

    帖子

    70万

    积分

    管理员

    Rank: 9Rank: 9Rank: 9

    积分
    705612
    发表于 2021-5-18 10:26:48 | 显示全部楼层 |阅读模式

    hive官方并不支持json格式的数据加载,默认支持csv格式文件加载,如何在不依赖外部jar包的情况下实现json数据格式解析,本编博客着重介绍此问题解决方案

    首先创建元数据表:

    create EXTERNAL table access_log (content string) 
    row format delimited fields terminated by '\t'
    STORED AS INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat'
    OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
    location 'hdfs://sps1:9090/data/accesslog'

    创建视图表:

    create view access_log_view as 

    select eventTime, ip, appName, fp, username, target from access_log
    lateral view json_tuple(content, "eventTime", "ip", "appName", "fp", "username", "target") t1
    as eventTime, ip, appName, fp, username, target;

    视图表利用json tuple将json object的数据进行抽取,这样就实现了字段分离。

    但是有些日志文件是/user/aaa/dt=2013-12-01/ds=01/access.log带有分区目录的,对于这种格式需要分区表的支持

    创建分区表:

    create EXTERNAL table access_log (content string) 
    partitioned by (dt int, ds int)
    row format delimited fields terminated by '\t'
    STORED AS INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat'
    OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
    location 'hdfs://sps1:9090/data/accesslog4';

    但是问题来了,发现没有办法加载数据,该怎么办那。

    下一步我们需要手动的加载分区:

    alter table access_log add partition(dt=?,ds=?)

    这样就可以查到数据了。切记必须要进行分区add,否则无法查到数据。

    批量add分区方法:

    #!/bin/bash
    source ~/.bashrc
    dir="/testdata/user"
    dt="dt="
    ht="ht="
    table="tpa.access_log"
    hscript=""
    #get date dir list
    for part in `hadoop fs -ls $dir |grep -o -P "[0-9-]+$"`;
    do
    #get hour dir list
    for part2 in `hadoop fs -ls $dir/$dt$part |grep -o -P "[0-9]+$"`
    do
    echo $dir/$dt$part/$ht$part2
    tmp="ALTER TABLE $table ADD PARTITION($dt'$part', $ht'$part2');"
    hscript=$hscript$tmp
    done;
    done;
    
    hive -e "$hscript"

     

    创建视图表:

    与上边创建视图一样

    但是分区是随着时间的推移进行增加的,这个不能人肉,我们需要自动化脚本来帮助我们完成

    #!/bin/bash
    source ~/.bashrc
    date=`date +%Y-%m-%d`
    hour=`date +%H`
    cmd="ALTER TABLE databaseName.tableName ADD PARTITION(dt='$date', ht='$hour');"
    hive -e "$cmd"

    至此为止,有关hive加载json数据和分区表的问题就解释清楚了,不明白下方留言,我们继续讨论。

    哎...今天够累的,签到来了1...
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|手机版|小黑屋|Java自学者论坛 ( 声明:本站文章及资料整理自互联网,用于Java自学者交流学习使用,对资料版权不负任何法律责任,若有侵权请及时联系客服屏蔽删除 )

    GMT+8, 2024-5-6 11:17 , Processed in 0.106032 second(s), 29 queries .

    Powered by Discuz! X3.4

    Copyright © 2001-2021, Tencent Cloud.

    快速回复 返回顶部 返回列表