sparkpython
Ⅰ 如何在spark集群中裝python
前段時間使用了一下google的博客空間,感覺也很一般,所以現在把那裡的幾篇文章轉過來。 執行python腳本只需要對python文件做如下操作即可: 在python文件里第一行加上#! /usr/bin/python,即你的python解釋器所在的目錄
Ⅱ spark python腳本怎麼執行
前段時間使用了一下google的博客空間,感覺也很一般,所以現在把那裡的幾篇文章轉過來。
執行python腳本只需要對python文件做如下操作即可:
在python文件里第一行加上#!
/usr/bin/python,即你的python解釋器所在的目錄。另外還有一種寫法是#!
/usr/bin/env
python
編輯完成python腳本文件後為它加上可執行許可權。例如你的python腳本文件叫做runit.py,那麼就在shell中輸入如下命令:chmod
+x
runit.py
之後直接在shell中輸入./runit.py就可以執行你的python程序了。
當然這是在Linux下的操作,如果想在windows下直接執行Python程序,就需要使用py2exe工具將python源程序編譯成exe文件了。
Ⅲ 機器學習實踐:如何將Spark與Python結合
可以學習一下林大貴這本書,從頭到尾教你如何使用python+spark+hadoop實現常用的演算法訓練和部署。
《Python+Spark2.0+Hadoop機器學習與大數據實戰_林大貴》
鏈接:https://pan..com/s/1VGUOyr3WnOb_uf3NA_ZdLA
提取碼:ewzf
Ⅳ spark和python哪個速度快
這完全沒有可比性。
spark可以處理彈性分布式數據,可以跟hadoop媲美。
而python是做數據分析,對於超大數據量是無能為力的。
Ⅳ 如何運行含spark的python腳本
2~spark$ bin/spark-submit first.py
-----------first.py-------------------------------
from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local").setAppName("My App")
sc = SparkContext(conf = conf)
lines = sc.textFile("first.py")
pythonLines = lines.filter(lambda line: "Python" in line)
print "hello python"
print pythonLines.first()
print pythonLines.first()
print "hello spark!"
---------------------------------------------------
hello python
pythonLines = lines.filter(lambda line: "Python" in line)
pythonLines = lines.filter(lambda line: "Python" in line)
hello spark!
到spark的安裝目錄下/bin 下面 spark-submit ***.py 即可
Ⅵ python spark 怎麼打包jar
基於eclipse的Spark IDE
以WordCount為例:
package com.lxw.test
import org.apache.spark.{SparkConf, SparkContext}
import SparkContext._
object WordCount {
def main (args: Array[String]) {
if(args.length < 2) {
println("Usage: WordCount ")
System.exit(1)
}
val hdfsIn = args(0);
val hdfsOut = args(1);
val sc = new SparkContext(new SparkConf().setAppName("WordCount"))
val srcData = sc.textFile(hdfsIn)
val result = srcData.flatMap(_.split("\\s+")).map((_,1)).receByKey(_+_)
result.saveAsTextFile(hdfsOut)
}
}
在eclipse中將程序打成普通的java jar包即可。
在Spark的一台Client機器上使用spark-submit來提交運行jar包:
$SPARK_HOME/bin/spark-submit \ --name "lxw1234-wordcount" \ --master spark://192.168.1.130:7077 \ --executor-memory 1G \ --class com.lxw.test.WordCount \ /home/lxw1234/lxw-spark.jar /logs/site/2015-05-14/ /tmp/lxwoutput
Ⅶ 最新的spark支持python的什麼版本
兩種方法:
使用 spark-submit 解釋執行python腳本
使用 python 解釋執行python腳本
1. 使用Spark-submit解釋執行python腳本
python腳本中需要在開頭導入spark相關模塊,調用時使用spark-submit提交,示例代碼如下:
===========================================================
"""odflow.py"""
from pyspark import SparkContext
fileDir = "/TripChain3_Demo.txt"
# sc = SparkContext("local", "ODFlow")
sc = SparkContext("spark://ITS-Hadoop10:7077", "ODFlow")
lines = sc.textFile(fileDir)
# python不能直接寫多行的lambda表達式,所以要封裝在函數中
def toKV(line):
arr = line.split(",")
t = arr[5].split(" ")[1].split(":")
return (t[0]+t[1]+","+arr[11]+","+arr[18],1)
r1 = lines.map( lambda line : toKV(line) ).receByKey(lambda a,b: a+b)
# 排序並且存入一個(repartition)文件中
r1.sortByKey(False).saveAsTextFile("/pythontest/output")
===========================================================
發布命令為:
spark-submit \
--master spark://ITS-Hadoop10:7077 \
odflow.py
2. 使用 python 解釋執行python腳本
直接用python執行會出現錯誤:
ImportError: No mole named pyspark
ImportError: No mole named py4j.java_gateway
缺少pyspark和py4j這兩個模塊,這兩個包在Spark的安裝目錄里,需要在環境變數里定義PYTHONPATH,編輯~/.bashrc或者/etc/profile文件均可
vi ~/.bashrc # 或者 sudo vi /etc/profile
# 添加下面這一行
export PYTHONPATH=$SPARK_HOME/python/:$SPARK_HOME/python/lib/py4j-0.8.2.1-src.zip:$PYTHONPATH
# 使其生效
source ~/.bashrc # 或者 sudo source /etc/profile
然後關閉終端,重新打開,用python執行即可
python odflow.py
Ⅷ spark部署python腳本怎麼部署三方庫
1、Spark腳本提交/運行/部署
1.1 spark-shell(交互窗口模式)
運行Spark-shell需要指向申請資源的standalone spark集群信息,其參數為MASTER,還可以指定executor及driver的內存大小。
sudo spark-shell --executor-memory 5g --driver-memory1g --master spark://192.168.180.216:7077
spark-shell啟動完後,可以在交互窗口中輸入Scala命令,進行操作,其中spark-shell已經默認生成sc對象,可以用:
val user_rdd1 = sc.textFile(inputpath, 10)
讀取數據資源等。
1.2 spark-shell(腳本運行模式)
上面方法需要在交互窗口中一條一條的輸入scala程序;將scala程序保存在test.scala文件中,可以通過以下命令一次運行該文件中的程序代碼:
sudo spark-shell --executor-memory 5g --driver-memory1g --master spark//192.168.180.216:7077 < test.scala
運行後會自動進入spark-shell交互窗口並且運行test.scala中的程序,運行完成後,會自動退出spark-shell。
如果程序退出終端後,Linux終端失效,可以試試:stty echo 命令
1.3 spark-submit (程序部署)
Spark提供了一個容易上手的應用程序部署工具bin/spark-submit,可以完成Spark應用程序在local、Standalone、YARN、Mesos上的快捷部署。可以指定集群資源master,executor/ driver的內存資源等。
sudo spark-submit --masterspark://192.168.180.216:7077 --executor-memory 5g --class mypackage.test workcount.jar hdfs://192.168.180.79:9000/user/input.txt
workcount .scala 代碼打包workcount.jar,並將文件需要上傳到spark的安裝目錄下面;
hdfs//192.168.180.79:9000/user/input.txt為輸入參數;