侯体宗的博客
  • 首页
  • Hyperf版
  • beego仿版
  • 人生(杂谈)
  • 技术
  • 关于我
  • 更多分类
    • 文件下载
    • 文字修仙
    • 中国象棋ai
    • 群聊
    • 九宫格抽奖
    • 拼图
    • 消消乐
    • 相册

Hive的数据导入MySQL

数据库  /  管理员 发布于 5年前   553

1.在hive中建立表,并且申明字段分隔符:

create external table behavior1(
city string,
page string,
time string
)ROW FORMAT DELIMITED FIELDS TERMINATED BY '|';


2.在hive数据仓库中将从behavior表

(其他保存数据的一个hive表)中查询回来的数据插入到表behavior1中:

insert overwrite table behavior1 select city,page,time from behavior;


3.查询hive数据仓库中behavior1的表中是否有数据:

select * from behavior1 limit 10;


4.在MySQL中建立表格behavior,申明使用uft-8编码

(因为hive中的数据有中文,最好使用utf8编码):

create table behavior(
city char(100),
page char(100),
time char(100)
)ENGINE=InnoDB DEFAULT CHARSET=utf8;


5.测试sqoop连接数据库是否正常:

sqoop list-databases -connect jdbc:mysql://cdh1:3306/ -username root -password 123


6.执行sqoop语句:

sqoop export --connect jdbc:mysql://cdh1:3306/kabaobao --table behavior --username root --password 123     --fields-terminated-by '|' --export-dir /user/hive/warehouse/test.db/behavior1 

sqoop export:申明导出操作

--connect jdbc:mysql://cdh1:3306/kabaobao:将要导入的mysql数据库

--table behavior:将要导入的mysql数据库表名

--username root --password 123:mysql数据库的账号密码

--fields-terminated-by '|':申明字段区分符号,以Hive表中的字段区分符号作为mysql的字段区分符号

--export-dir /user/hive/warehouse/test.db/behavior1 :将要导出的hive表在hdfs中的目录


MySQL中文乱码问题

MySQL版本:

Server version: 5.6.37 MySQL Community Server (GPL):

查看数据库当前编码集:

show variables like 'character_set%';
+--------------------------+----------------------------+
| Variable_name            | Value                      |
+--------------------------+----------------------------+
| character_set_client     | utf8                       |
| character_set_connection | utf8                       |
| character_set_database   | latin1                     |
| character_set_filesystem | binary                     |
| character_set_results    | utf8                       |
| character_set_server     | latin1                     |
| character_set_system     | utf8                       |
| character_sets_dir       | /usr/share/mysql/charsets/ |
+--------------------------+----------------------------+
8 rows in set (0.00 sec)


2.在mysql的控制台通过编码命令进行设置:

SET character_set_client = utf8; 
SET character_set_connection = utf8; 
SET character_set_database = utf8; 
SET character_set_results = utf8; 
SET character_set_server = utf8; 


3.再次查看数据库当前编码:

show variables like 'character_set%';
+--------------------------+----------------------------+
| Variable_name            | Value                      |
+--------------------------+----------------------------+
| character_set_client     | utf8                       |
| character_set_connection | utf8                       |
| character_set_database   | utf8                       |
| character_set_filesystem | binary                     |
| character_set_results    | utf8                       |
| character_set_server     | utf8                       |
| character_set_system     | utf8                       |
| character_sets_dir       | /usr/share/mysql/charsets/ |
+--------------------------+----------------------------+
8 rows in set (0.00 sec)

这时可以看到之前latin1的编码都替换成了utf8的编码了


4.这时再查询数据会发现,没什么作用用:

select * from behavior limit 5;
+------+------+------------------------------+
| city | page | time                         |
+------+------+------------------------------+
| R??? | ???? | Wed Jun 28 00:26:26 CST 2017 |
| ??   | ???? | Wed Jun 28 00:26:28 CST 2017 |
| ???  | ???? | Wed Jun 28 00:26:30 CST 2017 |
| ???  | ???? | Wed Jun 28 00:26:30 CST 2017 |
| ???  | ???? | Wed Jun 28 00:26:39 CST 2017 |
+------+------+------------------------------+
5 rows in set (0.00 sec)

还是没有解决乱码的问题


5.编辑/etc/my.cnf文件,在[mysqld]这个session中添加:

character-set-server = utf8

保存退出,然后重启mysqld进程


6.发现修改失败,没办法,我只好删除库kabaobao,然后再建立库kabaobao:

create database kabaobao CHARACTER SET utf8;

 

7.创建表behavior,再使用sqoop工具将hive上的数据导入behavior表中.

然后查询:

mysql> select * from behavior limit 10;
+------------+--------------+------------------------------+
| city       | page         | time                         |
+------------+--------------+------------------------------+
| R日照市    | 通道首页     | Wed Jun 28 00:26:26 CST 2017 |
| 全国       | 选卡页面     | Wed Jun 28 00:26:28 CST 2017 |
| 重庆市     | 总行单卡     | Wed Jun 28 00:26:30 CST 2017 |
| 重庆市     | 总行单卡     | Wed Jun 28 00:26:30 CST 2017 |
| 无锡市     | 选卡页面     | Wed Jun 28 00:26:39 CST 2017 |
| Q泉州市    | 总行提交     | Wed Jun 28 00:26:40 CST 2017 |
| Q泉州市    | 通道首页     | Wed Jun 28 00:26:41 CST 2017 |
| 广州       | 选卡页面     | Wed Jun 28 00:26:42 CST 2017 |
| 无锡       | 总行提交     | Wed Jun 28 00:26:42 CST 2017 |
| Q泉州市    | 通道首页     | Wed Jun 28 00:26:45 CST 2017 |
+------------+--------------+------------------------------+
10 rows in set (0.00 sec)

问题解决!


总结

事后解决不如事前避免问题的发生.

在创建数据库的时候,指定数据库的编码格式是utf8,

在创建数据表的时候,指定表的编码格式也是utf8格式.


  • 上一条:
    mongoDB的数据导入到hive中
    下一条:
    建立hive表的数据仓库
  • 昵称:

    邮箱:

    0条评论 (评论内容有缓存机制,请悉知!)
    最新最热
    • 分类目录
    • 人生(杂谈)
    • 技术
    • linux
    • Java
    • php
    • 框架(架构)
    • 前端
    • ThinkPHP
    • 数据库
    • 微信(小程序)
    • Laravel
    • Redis
    • Docker
    • Go
    • swoole
    • Windows
    • Python
    • 苹果(mac/ios)
    • 相关文章
    • 分库分表的目的、优缺点及具体实现方式介绍(0个评论)
    • DevDB - 在 VS 代码中直接访问数据库(0个评论)
    • 在ubuntu系统中实现mysql数据存储目录迁移流程步骤(0个评论)
    • 在mysql中使用存储过程批量新增测试数据流程步骤(0个评论)
    • php+mysql数据库批量根据条件快速更新、连表更新sql实现(0个评论)
    • 近期文章
    • 智能合约Solidity学习CryptoZombie第二课:让你的僵尸猎食(0个评论)
    • 智能合约Solidity学习CryptoZombie第一课:生成一只你的僵尸(0个评论)
    • 在go中实现一个常用的先进先出的缓存淘汰算法示例代码(0个评论)
    • 在go+gin中使用"github.com/skip2/go-qrcode"实现url转二维码功能(0个评论)
    • 在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf分页文件功能(0个评论)
    • gmail发邮件报错:534 5.7.9 Application-specific password required...解决方案(0个评论)
    • 欧盟关于强迫劳动的规定的官方举报渠道及官方举报网站(0个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf文件功能(0个评论)
    • Laravel从Accel获得5700万美元A轮融资(0个评论)
    • 近期评论
    • 122 在

      学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..
    • 123 在

      Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..
    • 原梓番博客 在

      在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..
    • 博主 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..
    • 1111 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
    • 2017-06
    • 2017-08
    • 2017-09
    • 2017-10
    • 2017-11
    • 2018-01
    • 2018-05
    • 2018-10
    • 2018-11
    • 2020-02
    • 2020-03
    • 2020-04
    • 2020-05
    • 2020-06
    • 2020-07
    • 2020-08
    • 2020-09
    • 2021-02
    • 2021-04
    • 2021-07
    • 2021-08
    • 2021-11
    • 2021-12
    • 2022-02
    • 2022-03
    • 2022-05
    • 2022-06
    • 2022-07
    • 2022-08
    • 2022-09
    • 2022-10
    • 2022-11
    • 2022-12
    • 2023-01
    • 2023-03
    • 2023-04
    • 2023-05
    • 2023-07
    • 2023-08
    • 2023-10
    • 2023-11
    • 2023-12
    • 2024-01
    • 2024-03
    Top

    Copyright·© 2019 侯体宗版权所有· 粤ICP备20027696号 PHP交流群

    侯体宗的博客