pythonmapreduce

發布時間: 2023-06-14 21:54:47

Ⅰ 用java寫MapRece,用python和R,哪種更適合從事數據行業,做數據...

必然python啊，不過R也很好。python更加靈活，但是R是這一方面的功能一點不弱。但是我感覺很多演算法拿python實現會更容易，而且python更好學，語法更簡潔。具體看個人。

Ⅱ python可以做什麼

用Python可以算n的階乘，下面是n的階乘的代碼（自帶格式）。

def factorial(n):

result = n

for i in range(1,n):

result *= i

return result

def main():

print factorial(4)

if __name__ == '__main__':

main()

階乘介紹：

基斯頓·卡曼（Christian Kramp，1760～1826）於 1808 年發明的運算符號，是數學術語。

一個正整數的階乘（factorial）是所有小於及等於該數的正整數的積，並且0的階乘為1。自然數n的階乘寫作n!。1808年，基斯頓·卡曼引進這個表示法。

亦即n!=1×2×3×...×(n-1)×n。階乘亦可以遞歸方式定義：0!=1，n!=(n-1)!×n。

Ⅲ java工程師一般用python做什麼知乎

#做網站後台
Python在網站後台這邊有大量的成熟的框架，如django，flask，bottle，tornado，我曾經用過flask和django搭建了的兩個網站已經上線

http://zhaixueshe.com
http://aljun.me

#寫網路爬蟲
Python寫爬蟲非常簡單，庫很健全

以下是我寫的一些爬蟲教程和心得
http://aljun.me/post/17

http://aljun.me/post/18

#科學計算
Python有三大神器：numpy,scipy,matplotlib,其中numpy很多底層使用C語言實現的，所以速度很快，我曾經用它參加各種數學建模大賽，完全可以替代r語言和MATLAB

以下是我寫的科學計算簡單教程
http://aljun.me/post/16

#數據挖掘，機器學習
Python
的機器學習包很多，或者自己可以試著實現機器學習演算法，因為Python的類似偽代碼的語法，很容易快速實現自己的想法，另外主流的機器學習演算法都有成熟
的包，加上谷歌開源的TensorFlow，常用的機器學習包：scikit-learn,pattern,jieba，pybrain等等

#數據科學
最近spark，Hadoop都開了Python的介面，所以使用Python做大數據的maprece也非常簡單，加上py對資料庫支持都很好，或者類似sqlalchemy的orm也非常強大好用

以及剩下的碼演算法，玩玩樹莓派什麼的我就不多說了，

py的強大其實在於他能迅速的實現想法

Ⅳ 如何在Hadoop環境下搭建Python

搭建 Python 環境在 Hadoop 上的步驟如下：

安裝 Hadoop：在你的計算機上安裝 Hadoop。
安裝 Python：請確保你的計孫拿算機上已經安裝了 Python。
配置 Hadoop 環境：編輯 Hadoop 的配置文件，以確保 Hadoop 可以與 Python 配合使用。
安裝相關模塊：請安裝所需的 Python 模塊，以便在 Hadoop 環境下使用 Python。
測試灶行 Python 安裝：請運行一些測試腳本，以確保 Python 可以在 Hadoop 環境下正常工作。

這些步驟可以幫助你在 Hadoop 環境下搭建 Python。請注意，具體的步驟可能因 Hadoop 的版本和環境而異，請仔細查則辯搭看相關文檔。

Ⅳ 如何使用Python為Hadoop編寫一個簡單的MapRece程序

在這個實例中，我將會向大家介紹如何使用Python 為 Hadoop編寫一個簡單的MapRece
程序。
盡管Hadoop 框架是使用Java編寫的但是我們仍然需要使用像C++、Python等語言來實現Hadoop程序。盡管Hadoop官方網站給的示常式序是使用Jython編寫並打包成Jar文件，這樣顯然造成了不便，其實，不一定非要這樣來實現，我們可以使用Python與Hadoop 關聯進行編程，看看位於/src/examples/python/WordCount.py 的例子，你將了解到我在說什麼。

我們想要做什麼？

我們將編寫一個簡單的 MapRece 程序，使用的是C-Python，而不是Jython編寫後打包成jar包的程序。
我們的這個例子將模仿 WordCount 並使用Python來實現，例子通過讀取文本文件來統計出單詞的出現次數。結果也以文本形式輸出，每一行包含一個單詞和單詞出現的次數，兩者中間使用製表符來想間隔。

先決條件

編寫這個程序之前，你學要架設好Hadoop 集群，這樣才能不會在後期工作抓瞎。如果你沒有架設好，那麼在後面有個簡明教程來教你在Ubuntu linux 上搭建（同樣適用於其他發行版linux、unix）

如何使用Hadoop Distributed File System (HDFS)在Ubuntu Linux 建立單節點的 Hadoop 集群

如何使用Hadoop Distributed File System (HDFS)在Ubuntu Linux 建立多節點的 Hadoop 集群

Python的MapRece代碼

使用Python編寫MapRece代碼的技巧就在於我們使用了 HadoopStreaming 來幫助我們在Map 和 Rece間傳遞數據通過STDIN (標准輸入)和STDOUT (標准輸出).我們僅僅使用Python的sys.stdin來輸入數據，使用sys.stdout輸出數據，這樣做是因為HadoopStreaming會幫我們辦好其他事。這是真的，別不相信！

Map: mapper.py

將下列的代碼保存在/home/hadoop/mapper.py中，他將從STDIN讀取數據並將單詞成行分隔開，生成一個列表映射單詞與發生次數的關系：
注意：要確保這個腳本有足夠許可權（chmod +x /home/hadoop/mapper.py）。

#!/usr/bin/env python

import sys

# input comes from STDIN (standard input)
for line in sys.stdin:
# remove leading and trailing whitespace
line = line.strip()
# split the line into words
words = line.split()
# increase counters
for word in words:
# write the results to STDOUT (standard output);
# what we output here will be the input for the
# Rece step, i.e. the input for recer.py
#
# tab-delimited; the trivial word count is 1
print '%s\\t%s' % (word, 1)在這個腳本中，並不計算出單詞出現的總數，它將輸出 "<word> 1" 迅速地，盡管<word>可能會在輸入中出現多次，計算是留給後來的Rece步驟（或叫做程序）來實現。當然你可以改變下編碼風格，完全尊重你的習慣。

Rece: recer.py

將代碼存儲在/home/hadoop/recer.py 中，這個腳本的作用是從mapper.py 的STDIN中讀取結果，然後計算每個單詞出現次數的總和，並輸出結果到STDOUT。
同樣，要注意腳本許可權：chmod +x /home/hadoop/recer.py

#!/usr/bin/env python

from operator import itemgetter
import sys

# maps words to their counts
word2count = {}

# input comes from STDIN
for line in sys.stdin:
# remove leading and trailing whitespace
line = line.strip()

# parse the input we got from mapper.py
word, count = line.split('\\t', 1)
# convert count (currently a string) to int
try:
count = int(count)
word2count[word] = word2count.get(word, 0) + count
except ValueError:
# count was not a number, so silently
# ignore/discard this line
pass

# sort the words lexigraphically;
#
# this step is NOT required, we just do it so that our
# final output will look more like the official Hadoop
# word count examples
sorted_word2count = sorted(word2count.items(), key=itemgetter(0))

# write the results to STDOUT (standard output)
for word, count in sorted_word2count:
print '%s\\t%s'% (word, count)
測試你的代碼（cat data | map | sort | rece）

我建議你在運行MapRece job測試前嘗試手工測試你的mapper.py 和 recer.py腳本，以免得不到任何返回結果
這里有一些建議，關於如何測試你的Map和Rece的功能：
——————————————————————————————————————————————
\r\n
# very basic test
hadoop@ubuntu:~$ echo "foo foo quux labs foo bar quux" | /home/hadoop/mapper.py
foo 1
foo 1
quux 1
labs 1
foo 1
bar 1
——————————————————————————————————————————————
hadoop@ubuntu:~$ echo "foo foo quux labs foo bar quux" | /home/hadoop/mapper.py | sort | /home/hadoop/recer.py
bar 1
foo 3
labs 1
——————————————————————————————————————————————

# using one of the ebooks as example input
# (see below on where to get the ebooks)
hadoop@ubuntu:~$ cat /tmp/gutenberg/20417-8.txt | /home/hadoop/mapper.py
The 1
Project 1
Gutenberg 1
EBook 1
of 1
[...]
(you get the idea)

quux 2

quux 1

——————————————————————————————————————————————

在Hadoop平台上運行Python腳本

為了這個例子，我們將需要三種電子書：

The Outline of Science, Vol. 1 (of 4) by J. Arthur Thomson\r\n
The Notebooks of Leonardo Da Vinci\r\n
Ulysses by James Joyce
下載他們，並使用us-ascii編碼存儲解壓後的文件，保存在臨時目錄，比如/tmp/gutenberg.

hadoop@ubuntu:~$ ls -l /tmp/gutenberg/
total 3592
-rw-r--r-- 1 hadoop hadoop 674425 2007-01-22 12:56 20417-8.txt
-rw-r--r-- 1 hadoop hadoop 1423808 2006-08-03 16:36 7ldvc10.txt
-rw-r--r-- 1 hadoop hadoop 1561677 2004-11-26 09:48 ulyss12.txt
hadoop@ubuntu:~$

復制本地數據到HDFS

在我們運行MapRece job 前，我們需要將本地的文件復制到HDFS中：

hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -FromLocal /tmp/gutenberg gutenberg
hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -ls
Found 1 items
/user/hadoop/gutenberg <dir>
hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -ls gutenberg
Found 3 items
/user/hadoop/gutenberg/20417-8.txt <r 1> 674425
/user/hadoop/gutenberg/7ldvc10.txt <r 1> 1423808
/user/hadoop/gutenberg/ulyss12.txt <r 1> 1561677

執行 MapRece job

現在，一切准備就緒，我們將在運行Python MapRece job 在Hadoop集群上。像我上面所說的，我們使用的是
HadoopStreaming 幫助我們傳遞數據在Map和Rece間並通過STDIN和STDOUT，進行標准化輸入輸出。

hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop jar contrib/streaming/hadoop-0.19.1-streaming.jar
-mapper /home/hadoop/mapper.py -recer /home/hadoop/recer.py -input gutenberg/*
-output gutenberg-output
在運行中，如果你想更改Hadoop的一些設置，如增加Rece任務的數量，你可以使用「-jobconf」選項：

hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop jar contrib/streaming/hadoop-0.19.1-streaming.jar
-jobconf mapred.rece.tasks=16 -mapper ...

一個重要的備忘是關於Hadoop does not honor mapred.map.tasks
這個任務將會讀取HDFS目錄下的gutenberg並處理他們，將結果存儲在獨立的結果文件中，並存儲在HDFS目錄下的
gutenberg-output目錄。
之前執行的結果如下：

hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop jar contrib/streaming/hadoop-0.19.1-streaming.jar
-mapper /home/hadoop/mapper.py -recer /home/hadoop/recer.py -input gutenberg/*
-output gutenberg-output

additionalConfSpec_:null
null=@@@userJobConfProps_.get(stream.shipped.hadoopstreaming
packageJobJar: [/usr/local/hadoop-datastore/hadoop-hadoop/hadoop-unjar54543/]
[] /tmp/streamjob54544.jar tmpDir=null
[...] INFO mapred.FileInputFormat: Total input paths to process : 7
[...] INFO streaming.StreamJob: getLocalDirs(): [/usr/local/hadoop-datastore/hadoop-hadoop/mapred/local]
[...] INFO streaming.StreamJob: Running job: job_200803031615_0021
[...]
[...] INFO streaming.StreamJob: map 0% rece 0%
[...] INFO streaming.StreamJob: map 43% rece 0%
[...] INFO streaming.StreamJob: map 86% rece 0%
[...] INFO streaming.StreamJob: map 100% rece 0%
[...] INFO streaming.StreamJob: map 100% rece 33%
[...] INFO streaming.StreamJob: map 100% rece 70%
[...] INFO streaming.StreamJob: map 100% rece 77%
[...] INFO streaming.StreamJob: map 100% rece 100%
[...] INFO streaming.StreamJob: Job complete: job_200803031615_0021

[...] INFO streaming.StreamJob: Output: gutenberg-output hadoop@ubuntu:/usr/local/hadoop$

正如你所見到的上面的輸出結果，Hadoop 同時還提供了一個基本的WEB介面顯示統計結果和信息。
當Hadoop集群在執行時，你可以使用瀏覽器訪問 http://localhost:50030/ ，如圖：

檢查結果是否輸出並存儲在HDFS目錄下的gutenberg-output中：

hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -ls gutenberg-output
Found 1 items
/user/hadoop/gutenberg-output/part-00000 <r 1> 903193 2007-09-21 13:00
hadoop@ubuntu:/usr/local/hadoop$

可以使用dfs -cat 命令檢查文件目錄

hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -cat gutenberg-output/part-00000
"(Lo)cra" 1
"1490 1
"1498," 1
"35" 1
"40," 1
"A 2
"AS-IS". 2
"A_ 1
"Absoluti 1
[...]
hadoop@ubuntu:/usr/local/hadoop$

注意比輸出，上面結果的(")符號不是Hadoop插入的。

轉載僅供參考，版權屬於原作者。祝你愉快，滿意請採納哦

Ⅵ 現存python後端學習路線是怎樣的

【導語】人工智慧時代，想要從事編程行業，最佳的學習語言自然是Python，Python入門簡單、功能強大，已成為各大企業首選開發語言，也吸引了無數有志學子投身學習，那麼現存python後端學習路線是怎樣的呢?接下來我們就來具體了解一下吧。

第一階段為Python語言基礎，主要學習Python最基礎知識，如Python3、數據類型、字元串、函數、類、文件操作等。階段課程結束後，學員需要完成Pygame實戰飛機大戰、2048等項目;

第二階段為Python語言高級，主要學習Python庫、正則表達式、進程線程、爬蟲、遍歷以及MySQL資料庫;

第三階段為Python全棧工程師前端，主要學習HTML、CSS、JavaScript、jQuery等前端知識，學員需要完成網頁界面設計實戰;

第四至第五階段為Python全棧工程師後端，主要學習Django、 Flask以及Tornado，學員需要完成對應的實戰項目;

第六階段為Linux基礎，主要學習Linux相關的各種命令，如文件處理命令、壓縮解壓命令、許可權管理以及Linux Shell開發等;

第七階段為Linux運維自動化開發，主要學習Python開發Linux運維、Linux運維報警工具開發、Linux運維報警安全審計開發、Linux業務質量報表工具開發、Kali安全檢測工具檢測以及Kali
密碼破解實戰;

第八階段為Python數據分析，主要學習numpy數據處理、pandas數據分析、matplotlib數據可視化、scipy數據統計分析以及python
金融數據分析;

第九階段為Python大數據，主要學習Hadoop HDFS、python Hadoop MapRece、python Spark
core、python Spark SQL以及python Spark MLlib;

第十階段為Python機器學習，主要學習KNN演算法、線性回歸、邏輯斯蒂回歸演算法、決策樹演算法、樸素貝葉斯演算法、支持向量機以及聚類k-means演算法。

關於現存python後端學習路線，就給大家說明到這里了，九層之台，起於壘土。想要成為Python開發領域的高端人才，基礎知識很重要，而實戰經驗也很重要。只有將理論知識與實戰項目緊密結合，將現有知識與潮流技術融會貫通，你才能站在技術鏈的頂端。

Ⅶ 如何使用Python為Hadoop編寫一個簡單的MapRece程序

我們將編寫一個簡槐迅單的 MapRece 程序，使用的是C-Python，而不是Jython編寫後打包成jar包的程序。
我們的這個例子將模仿 WordCount 並使用Python來實現，例子通過讀取文本文件來統計出單詞的出現次數。結果也以文本形式輸出，每一陵此行包含一個單詞和單尺明迅詞出現的次數，兩者中間使用製表符來想間隔。

先決條件

編寫這個程序之前，你學要架設好Hadoop 集群，這樣才能不會在後期工作抓瞎。如果你沒有架設好，那麼在後面有個簡明教程來教你在Ubuntu Linux 上搭建（同樣適用於其他發行版linux、unix）

如何使用Hadoop Distributed File System (HDFS)在Ubuntu Linux 建立單節點的 Hadoop 集群

如何使用Hadoop Distributed File System (HDFS)在Ubuntu Linux 建立多節點的 Hadoop 集群

Python的MapRece代碼

使用Python編寫MapRece代碼的技巧就在於我們使用了 HadoopStreaming 來幫助我們在Map 和 Rece間傳遞數據通過STDIN (標准輸入)和STDOUT (標准輸出).我們僅僅使用Python的sys.stdin來輸入數據，使用sys.stdout輸出數據，這樣做是因為HadoopStreaming會幫我們辦好其他事。這是真的，別不相信！

閱讀全文

熱點內容

方舟手游如何解鎖自己的伺服器發布：2025-02-12 20:54:09 瀏覽：657

貓影視源碼發布：2025-02-12 20:42:05 瀏覽：923

區域網如何訪問其他電腦發布：2025-02-12 20:39:06 瀏覽：378

新平板電腦的數字密碼如何知道發布：2025-02-12 20:31:19 瀏覽：345

打包php整站發布：2025-02-12 20:29:48 瀏覽：358

施工作業現場拍攝腳本發布：2025-02-12 20:20:22 瀏覽：137

eve腳本破解發布：2025-02-12 20:07:48 瀏覽：636

python腳本編程基礎發布：2025-02-12 20:03:40 瀏覽：486

我的世界伺服器里刷怪發布：2025-02-12 19:57:04 瀏覽：389

瘋狂java視頻發布：2025-02-12 19:38:17 瀏覽：150

pythonmapreduce

與pythonmapreduce相關的資訊