Hive的数据导入MySQL
数据库  /  管理员 发布于 4年前   530
1.在hive中建立表,并且申明字段分隔符:
create external table behavior1(
city string,
page string,
time string
)ROW FORMAT DELIMITED FIELDS TERMINATED BY '|';
2.在hive数据仓库中将从behavior表
(其他保存数据的一个hive表)中查询回来的数据插入到表behavior1中:
insert overwrite table behavior1 select city,page,time from behavior;
3.查询hive数据仓库中behavior1的表中是否有数据:
select * from behavior1 limit 10;
4.在MySQL中建立表格behavior,申明使用uft-8编码
(因为hive中的数据有中文,最好使用utf8编码):
create table behavior(
city char(100),
page char(100),
time char(100)
)ENGINE=InnoDB DEFAULT CHARSET=utf8;
5.测试sqoop连接数据库是否正常:
sqoop list-databases -connect jdbc:mysql://cdh1:3306/ -username root -password 123
6.执行sqoop语句:
sqoop export --connect jdbc:mysql://cdh1:3306/kabaobao --table behavior --username root --password 123 --fields-terminated-by '|' --export-dir /user/hive/warehouse/test.db/behavior1
sqoop export:申明导出操作
--connect jdbc:mysql://cdh1:3306/kabaobao:将要导入的mysql数据库
--table behavior:将要导入的mysql数据库表名
--username root --password 123:mysql数据库的账号密码
--fields-terminated-by '|':申明字段区分符号,以Hive表中的字段区分符号作为mysql的字段区分符号
--export-dir /user/hive/warehouse/test.db/behavior1 :将要导出的hive表在hdfs中的目录
MySQL中文乱码问题
MySQL版本:
Server version: 5.6.37 MySQL Community Server (GPL):
查看数据库当前编码集:
show variables like 'character_set%';
+--------------------------+----------------------------+
| Variable_name | Value |
+--------------------------+----------------------------+
| character_set_client | utf8 |
| character_set_connection | utf8 |
| character_set_database | latin1 |
| character_set_filesystem | binary |
| character_set_results | utf8 |
| character_set_server | latin1 |
| character_set_system | utf8 |
| character_sets_dir | /usr/share/mysql/charsets/ |
+--------------------------+----------------------------+
8 rows in set (0.00 sec)
2.在mysql的控制台通过编码命令进行设置:
SET character_set_client = utf8;
SET character_set_connection = utf8;
SET character_set_database = utf8;
SET character_set_results = utf8;
SET character_set_server = utf8;
3.再次查看数据库当前编码:
show variables like 'character_set%';
+--------------------------+----------------------------+
| Variable_name | Value |
+--------------------------+----------------------------+
| character_set_client | utf8 |
| character_set_connection | utf8 |
| character_set_database | utf8 |
| character_set_filesystem | binary |
| character_set_results | utf8 |
| character_set_server | utf8 |
| character_set_system | utf8 |
| character_sets_dir | /usr/share/mysql/charsets/ |
+--------------------------+----------------------------+
8 rows in set (0.00 sec)
这时可以看到之前latin1的编码都替换成了utf8的编码了
4.这时再查询数据会发现,没什么作用用:
select * from behavior limit 5;
+------+------+------------------------------+
| city | page | time |
+------+------+------------------------------+
| R??? | ???? | Wed Jun 28 00:26:26 CST 2017 |
| ?? | ???? | Wed Jun 28 00:26:28 CST 2017 |
| ??? | ???? | Wed Jun 28 00:26:30 CST 2017 |
| ??? | ???? | Wed Jun 28 00:26:30 CST 2017 |
| ??? | ???? | Wed Jun 28 00:26:39 CST 2017 |
+------+------+------------------------------+
5 rows in set (0.00 sec)
还是没有解决乱码的问题
5.编辑/etc/my.cnf文件,在[mysqld]这个session中添加:
character-set-server = utf8
保存退出,然后重启mysqld进程
6.发现修改失败,没办法,我只好删除库kabaobao,然后再建立库kabaobao:
create database kabaobao CHARACTER SET utf8;
7.创建表behavior,再使用sqoop工具将hive上的数据导入behavior表中.
然后查询:
mysql> select * from behavior limit 10;
+------------+--------------+------------------------------+
| city | page | time |
+------------+--------------+------------------------------+
| R日照市 | 通道首页 | Wed Jun 28 00:26:26 CST 2017 |
| 全国 | 选卡页面 | Wed Jun 28 00:26:28 CST 2017 |
| 重庆市 | 总行单卡 | Wed Jun 28 00:26:30 CST 2017 |
| 重庆市 | 总行单卡 | Wed Jun 28 00:26:30 CST 2017 |
| 无锡市 | 选卡页面 | Wed Jun 28 00:26:39 CST 2017 |
| Q泉州市 | 总行提交 | Wed Jun 28 00:26:40 CST 2017 |
| Q泉州市 | 通道首页 | Wed Jun 28 00:26:41 CST 2017 |
| 广州 | 选卡页面 | Wed Jun 28 00:26:42 CST 2017 |
| 无锡 | 总行提交 | Wed Jun 28 00:26:42 CST 2017 |
| Q泉州市 | 通道首页 | Wed Jun 28 00:26:45 CST 2017 |
+------------+--------------+------------------------------+
10 rows in set (0.00 sec)
问题解决!
总结
事后解决不如事前避免问题的发生.
在创建数据库的时候,指定数据库的编码格式是utf8,
在创建数据表的时候,指定表的编码格式也是utf8格式.
122 在
学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..123 在
Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..原梓番博客 在
在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..博主 在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..1111 在
佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
Copyright·© 2019 侯体宗版权所有·
粤ICP备20027696号