hive脚本执行

发布时间: 2023-09-17 03:29:50

A. 如何在shell脚本中判断hive已经执行完毕

举个例子，执行一条基本语句建立一个文件 #!/bin/bashtouch test.txtif [ $? -eq 0 ]then echo "执行成功"else echo "执行失败"fi$?可以判断上一条命令是否成功，成功为0，不成功为非0

B. hue/oozie 调度shell执行hive脚本

前面已经有篇文章介绍如何编译包含hive的spark-assembly.jar了,不清楚的可以翻看一下前面的文章。clouderamanager装好的spark,直接执行spark-shell进入命令行后，写入如下语句：valhiveContext=neworg.apache.spark.sql.hive.HiveContext(sc)你会发现没法执行通过，因为cm装的原生的spark是不支持sparkhql的，我们需要手动进行一些调整：第一步，将编译好的包含hive的JAR包上传到hdfs上配置的默认的spark的sharelib目录：/user/spark/share/lib第二步：在你要运行spark-shell脚本的节点上的/opt/cloudera/parcels/CDH-5.3.0-1.cdh5.3.0.p0.30/lib/spark/lib/目录下面，下载这个jar到这个目录：hadoopfs-gethdfs://n1:8020/user/spark/share/lib/spark-assembly-with-hive-maven.jar（具体路径替换成你自己的）。然后这个目录下面原来会有个软链接spark-assembly.jar指向的是spark-assembly-1.2.0-cdh5.3.0-hadoop2.5.0-cdh5.3.0.jar，我们把这个软链接删除掉重新创建一个同名的软链接：ln-sspark-assembly-with-hive-maven.jarspark-assembly.jar，指向我们刚下载下来的那个JAR包，这个JAR包会在启动spark-shell脚本时装载到driverprogram的classpath中去的，sparkContext也是在driver中创建出来的，所以需要将我们编译的JAR包替换掉原来的spark-assembly.jar包，这样在启动spark-shell的时候，包含hive的spark-assembly就被装载到classpath中去了。第三步：在/opt/cloudera/parcels/CDH/lib/spark/conf/目录下面创建一个hive-site.xml。/opt/cloudera/parcels/CDH/lib/spark/conf目录是默认的spark的配置目录，当然你可以修改默认配置目录的位置。hive-site.xml内容如下：hive.metastore.localfalsehive.metastore.uristhrift://n1:9083hive.metastore.client.socket.timeout300hive.metastore.warehouse.dir/user/hive/warehouse这个应该大家都懂的，总要让spark找到hive的元数据在哪吧，于是就有了上面一些配置。第四步：修改/opt/cloudera/parcels/CDH/lib/spark/conf/spark-defaults.conf，添加一个属性：spark.yarn.jar=hdfs://n1:8020/user/spark/share/lib/spark-assembly-with-hive-maven.jar。这个是让每个executor下载到本地然后装载到自己的classpath下面去的，主要是用在yarn-cluster模式。local模式由于driver和executor是同一个进程所以没关系。以上完事之后，运行spark-shell,再输入:valhiveContext=neworg.apache.spark.sql.hive.HiveContext(sc)应该就没问题了。我们再执行一个语句验证一下是不是连接的我们指定的hive元数据库：hiveContext.sql("showtables").take(10)//取前十个表看看最后要重点说明一下这里的第二步第三步和第四步，如果是yarn-cluster模式的话，应该替换掉集群所有节点的spark-assembly.jar集群所有节点的sparkconf目录都需要添加hive-site.xml，每个节点spark-defaults.conf都需要添加spark.yarn.jar=hdfs://n1:8020/user/spark/share/lib/spark-assembly-with-hive-maven.jar。可以写个shell脚本来替换，不然手动一个一个节点去替换也是蛮累的。

C. 如何通过脚本的方法，批量执行hive sql语句

操作方法如下：
把SQL语句写成存储过程，这样以后每次只需要调用存储过程就行了

D. 如何提升hive脚本的map数

一、控制hive任务中的map数:

1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。
主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；

2. 举例：
a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块（6个128m的块和1个12m的块），从而产生7个map数
b) 假设input目录下有3个文件a,b,c,大小分别为10m，20m，130m，那么hadoop会分隔成4个块（10m,20m,128m,2m）,从而产生4个map数
即，如果文件大于块大小(128m),那么会拆分，如果小于块大小，则把该文件当成一个块。

E. hive脚本无法实现rows查询

可以实现。
为了让Spark能够连接到Hive的原有数据仓库，我们需要将Hive中的hivesitexml文件拷贝到Spark的conf目录下，这样就可以通过这个配置文件找到Hive的元数据以及数据存放。

阅读全文

热点内容

试用网站源码发布：2025-03-10 04:26:28 浏览：991

超市管理系统c语言发布：2025-03-10 04:26:16 浏览：859

安卓触摸键怎么用发布：2025-03-10 04:24:37 浏览：954

郁美净脚本发布：2025-03-10 04:23:04 浏览：568

ftp上传权限设置发布：2025-03-10 04:23:00 浏览：174

黄钻不能隐身访问了发布：2025-03-10 04:21:29 浏览：703

javaexcel导出poi 发布：2025-03-10 04:12:17 浏览：541

存储时间养老发布：2025-03-10 04:12:09 浏览：239

sources是什么文件夹发布：2025-03-10 04:11:27 浏览：137

数据库锁大题发布：2025-03-10 04:00:01 浏览：842

hive脚本执行

与hive脚本执行相关的资讯