Java自学者论坛

 找回密码
 立即注册

手机号码,快捷登录

恭喜Java自学者论坛(https://www.javazxz.com)已经为数万Java学习者服务超过8年了!积累会员资料超过10000G+
成为本站VIP会员,下载本站10000G+会员资源,会员资料板块,购买链接:点击进入购买VIP会员

JAVA高级面试进阶训练营视频教程

Java架构师系统进阶VIP课程

分布式高可用全栈开发微服务教程Go语言视频零基础入门到精通Java架构师3期(课件+源码)
Java开发全终端实战租房项目视频教程SpringBoot2.X入门到高级使用教程大数据培训第六期全套视频教程深度学习(CNN RNN GAN)算法原理Java亿级流量电商系统视频教程
互联网架构师视频教程年薪50万Spark2.0从入门到精通年薪50万!人工智能学习路线教程年薪50万大数据入门到精通学习路线年薪50万机器学习入门到精通教程
仿小米商城类app和小程序视频教程深度学习数据分析基础到实战最新黑马javaEE2.1就业课程从 0到JVM实战高手教程MySQL入门到精通教程
查看: 991|回复: 0

spark解决text乱码问题

[复制链接]
  • TA的每日心情
    奋斗
    2024-4-6 11:05
  • 签到天数: 748 天

    [LV.9]以坛为家II

    2034

    主题

    2092

    帖子

    70万

    积分

    管理员

    Rank: 9Rank: 9Rank: 9

    积分
    705612
    发表于 2021-6-29 14:18:06 | 显示全部楼层 |阅读模式

    package test

    import org.apache.hadoop.io.{LongWritable, Text}
    import org.apache.hadoop.mapred.TextInputFormat
    import org.apache.spark.{SparkConf, SparkContext}
    import org.apache.spark.sql.hive.HiveContext

    /**
    * Created on 下午5:58.
    * desc: spark 解析中文文件乱码
    * @author hadoop
    */
    object testSparkEncoding {
    def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setMaster("local[3]").setAppName("test")
    val sc = new SparkContext(sparkConf)
    val sqlContext = new HiveContext(sc)

    //////////////////////////////////////////////////////////////////////////////////
    //
    // 使用textfile读取utf8格式的文件
    // 输出:
    // 安徽|合肥|0551
    // 江苏|南京|025
    // 浙江|杭州|0571
    //////////////////////////////////////////////////////////////////////////////////
    val fileUTF8 = "/tmp/input/city_utf8.txt"
    val rddUTF8 = sc.textFile(fileUTF8) // 读取文件
    rddUTF8.take(10).foreach(println) // 打印文件的前10行内容

    //////////////////////////////////////////////////////////////////////////////////
    //
    // 使用textfile读取GBK格式的文件
    // 输出乱码:
    // ����|�Ϸ�|0551
    // ����|�Ͼ�|025
    // �㽭|����|0571
    //////////////////////////////////////////////////////////////////////////////////
    val fileGBK1 = "/tmp/input/city_gbk.txt"
    val rddGBK1 = sc.textFile(fileGBK1) // 读取文件
    rddGBK1.take(10).foreach(println) // 打印文件的前10行内容

    //////////////////////////////////////////////////////////////////////////////////
    //
    // 读取GBK格式乱码处理
    // 输出:
    // 安徽|合肥|0551
    // 江苏|南京|025
    // 浙江|杭州|0571
    //////////////////////////////////////////////////////////////////////////////////
    val fileGBK2 = "/tmp/input/city_gbk.txt"
    val rddGBK2 = sc.hadoopFile(fileGBK2, classOf[TextInputFormat], classOf[LongWritable], classOf[Text], 1).
    map(p => new String(p._2.getBytes, 0, p._2.getLength, "GBK"))
    rddGBK2.take(10).foreach(println)
    }
    }

    哎...今天够累的,签到来了1...
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|手机版|小黑屋|Java自学者论坛 ( 声明:本站文章及资料整理自互联网,用于Java自学者交流学习使用,对资料版权不负任何法律责任,若有侵权请及时联系客服屏蔽删除 )

    GMT+8, 2024-5-1 12:19 , Processed in 0.082197 second(s), 29 queries .

    Powered by Discuz! X3.4

    Copyright © 2001-2021, Tencent Cloud.

    快速回复 返回顶部 返回列表