hdfs导入数据库

发布时间: 2022-02-16 19:26:44

❶ 怎么使用java代码直接将从外部拿到的数据存入hdfs

存入HDFS有好几种数据格式，我这里给你列出一种格式的存储，sequence的

publicclassSeqWrite{

	privatestaticfinalString[]data={"a,b,c,d,e,f,g","h,i,j,k,l,m,n","o,p,q,r,s,t","u,v,w,x,y,z","0,1,2,3,4","5,6,7,8,9"};

	publicstaticvoidmain(String[]args)throwsIOException,Exception{

		Configurationconfiguration=newConfiguration();
		//这里是你主机的地址
		configuration.set("fs.defaultFS","192.168.51.140");
		//这个是存储的路径
		Pathpath=newPath("/tmp/test1.seq");
		Optionoption=SequenceFile.Writer.file(path);
		OptionoptKey=SequenceFile.Writer.keyClass(IntWritable.class);
		OptionoptValue=SequenceFile.Writer.valueClass(Text.class);
		SequenceFile.Writerwriter=null;
		IntWritablekey=newIntWritable(10);
		Textvalue=newText();

		writer=SequenceFile.createWriter(configuration,option,optKey,optValue);
		
		for(inti=0;i<data.length;i++){
			key.set(i);
			value.set(data[i]);
			writer.append(key,value);
			writer.hsync();
			Thread.sleep(10000L);
		}

		IOUtils.closeStream(writer);
	}
}

❷ 使用sqoop将hive中的数据导入关系型数据库怎么去重

直接导入hive表
sqoop import --connect jdbc:postgresql://ip/db_name--username user_name --table table_name --hive-import -m 5
内部执行实际分三部，1.将数据导入hdfs（可在hdfs上找到相应目录），2.创建hive表名相同的表，3，将hdfs上数据传入hive表中
sqoop根据postgresql表创建hive表
sqoop create-hive-table --connect jdbc:postgresql://ip/db_name --username user_name --table table_name --hive-table hive_table_name( --hive-partition-key partition_name若需要分区则加入分区名称)
导入hive已经创建好的表中
sqoop import --connect jdbc:postgresql://ip/db_name --username user_name --table table_name --hive-import -m 5 --hive-table hive_table_name (--hive-partition-key partition_name --hive-partition-value partititon_value);
使用query导入hive表
sqoop import --connect jdbc:postgresql://ip/db_name --username user_name --query "select ,* from retail_tb_order where \$CONDITIONS" --hive-import -m 5 --hive-table hive_table_name (--hive-partition-key partition_name --hive-partition-value partititon_value);
注意：$CONDITIONS条件必须有，query子句若用双引号，则$CONDITIONS需要使用\转义，若使用单引号，则不需要转义。

❸ 关系数据库数据导入hdfs，是用sqoop还是用shell，ke

1.jpg sqoop是关系型数据库与非关系型数据库之间转换数据，hdfs二者都不属于，所以sqoop不能转换hdfs的数据。支持条件过滤，但是并不是你所说的条件select into，而是另外的一种形式。详细可以参考下面帖子：sqoop、sqoop2介绍及如何使用高可用性：Sqoop工具import和export使用详解

❹ 怎么通过sqoop将hdfs上数据导入到mysql

sqoop是一个能把数据在关系型数据库和HDFS之间互相传输的工具。在这里，我写一下用java 程序来实现sqoop把数据从HDFS写入到MYSQL。
在接触sqoop之前，我自己写了一个传输类来实现数据从HDFS到MYSQL。这里简单说一下时间的思想:
1、在MYSQL中创建一个参数表A，用来记录要传输的表的表名B和字段。
2、HDFS上的数据的格式和MYSQL中参数表A中B表的字段的数量一样。
3、从MYSQL的参数表A中，读取要传输的表B。把这些字段拼凑成一个insert语句，例如
，拼凑为insert into b(column1,column2..) values(value1,value2...)
4、从HDFS相应的目录逐行读取数据，通过JDBC，把数据批量导入到MYSQL的B表中。
我现在用sqoop来代替原来传输的那个功能。先做一下准备工作：
1、hadoop的每个节点下lib文件夹中要有mysql的jar包和sqoop的jar包。
2、在HDFS的某个目录上的数据格式和MYSQL相应的表中的字段数量一致。
实现类如下：
package sqoop;
import java .util.ArrayList;
import java.util.List;
import org.apache.hadoop.conf.Configuration;
import org.apache.sqoop.Sqoop;
import org.apache.sqoop.tool.ExportTool;
/**
* 用SQOOP来把数据从HDFS导入到MYSQL。
* */
public class Test {
public static void main(String[] args) {
List<String> generatedJarsList = new ArrayList<String>();
Configuration conf = new Configuration();
conf.set("fs.default.name", "hdfs://master:9000");
conf.set("hadoop.job.ugi", "hadooper,hadoopgroup");
conf.set("mapred.job.tracker", "master:9001");
ArrayList<String> list = new ArrayList<String>(); //定义一个list
list.add("--table");
list.add("a_baat_client"); //mysql中的表。将来数据要导入到这个表中。
list.add("--export-dir");
list.add("/tmp/datathree/"); //hdfs上的目录。这个目录下的数据要导入到a_baat_client这个表中。
list.add("--connect");
list.add("jdbc:mysql://192.168.1.10:3306/report"); //mysql的链接
list.add("--username");
list.add("root"); //mysql的用户名
list.add("--password");
list.add("root"); //mysql的密码
list.add("--lines-terminated-by");
list.add("\\n"); //数据的换行符号
list.add("-m");
list.add("1");//定义maprece的数量。
String[] arg = new String[1];
ExportTool exporter = new ExportTool();
Sqoop sqoop = new Sqoop(exporter);
sqoop.setConf(conf);
arg = list.toArray(new String[0]);
int result = Sqoop.runSqoop(sqoop, arg);
System.out.println("res:" + result); //打印执行结果。
}
}
这个导出类执行过程中，可以在浏览器中看一下http://master:50030页面。会发现导出数据也是一个把任务转换为maprece执行的过程。
当然，上面的java代码，也可以用命令行来实现。命令如下：
bin/sqoop export --connect jdbc:mysql://192.168.1.10:3306/report \
--table a_baat_client --username root --password root \
--export-dir /tmp/datathree/ -m 1
关于sqoop把数据从HDFS导入到MYSQL就说这么多。把数据从HIVE导入到MYSQL，其实可以理解为把HIVE表所对应的HDFS路径的数据导入到MYSQL，这里就不多说了。

❺ mysql导入到hive hdfs上显示又数据了 hive表里面什么都没有

hdfs显示但是hive里面没有的话，很可能hive配置使用的是自带的deby数据库。hive的配置文件弄好，如果用sqoop的话，把hive的配置文件hive-site.sh拷贝一份到sqoop的conf目录下，让sqoop知道保存的数据是到mysql元数据库的hive。

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：718

制作脚本网站发布：2025-10-20 08:17:34 浏览：983

python中的init方法发布：2025-10-20 08:17:33 浏览：690

图案密码什么意思发布：2025-10-20 08:16:56 浏览：844

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：750

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1090

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：319

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：198

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：887

python股票数据获取发布：2025-10-20 07:39:44 浏览：846

hdfs导入数据库

与hdfs导入数据库相关的资讯