pythonmapreduce

发布时间: 2023-06-14 21:54:47

Ⅰ 用java写MapRece,用python和R,哪种更适合从事数据行业,做数据...

必然python啊，不过R也很好。python更加灵活，但是R是这一方面的功能一点不弱。但是我感觉很多算法拿python实现会更容易，而且python更好学，语法更简洁。具体看个人。

Ⅱ python可以做什么

用Python可以算n的阶乘，下面是n的阶乘的代码（自带格式）。

def factorial(n):

result = n

for i in range(1,n):

result *= i

return result

def main():

print factorial(4)

if __name__ == '__main__':

main()

阶乘介绍：

基斯顿·卡曼（Christian Kramp，1760～1826）于 1808 年发明的运算符号，是数学术语。

一个正整数的阶乘（factorial）是所有小于及等于该数的正整数的积，并且0的阶乘为1。自然数n的阶乘写作n!。1808年，基斯顿·卡曼引进这个表示法。

亦即n!=1×2×3×...×(n-1)×n。阶乘亦可以递归方式定义：0!=1，n!=(n-1)!×n。

Ⅲ java工程师一般用python做什么知乎

#做网站后台
Python在网站后台这边有大量的成熟的框架，如django，flask，bottle，tornado，我曾经用过flask和django搭建了的两个网站已经上线

http://zhaixueshe.com
http://aljun.me

#写网络爬虫
Python写爬虫非常简单，库很健全

以下是我写的一些爬虫教程和心得
http://aljun.me/post/17

http://aljun.me/post/18

#科学计算
Python有三大神器：numpy,scipy,matplotlib,其中numpy很多底层使用C语言实现的，所以速度很快，我曾经用它参加各种数学建模大赛，完全可以替代r语言和MATLAB

以下是我写的科学计算简单教程
http://aljun.me/post/16

#数据挖掘，机器学习
Python
的机器学习包很多，或者自己可以试着实现机器学习算法，因为Python的类似伪代码的语法，很容易快速实现自己的想法，另外主流的机器学习算法都有成熟
的包，加上谷歌开源的TensorFlow，常用的机器学习包：scikit-learn,pattern,jieba，pybrain等等

#数据科学
最近spark，Hadoop都开了Python的接口，所以使用Python做大数据的maprece也非常简单，加上py对数据库支持都很好，或者类似sqlalchemy的orm也非常强大好用

以及剩下的码算法，玩玩树莓派什么的我就不多说了，

py的强大其实在于他能迅速的实现想法

Ⅳ 如何在Hadoop环境下搭建Python

搭建 Python 环境在 Hadoop 上的步骤如下：

安装 Hadoop：在你的计算机上安装 Hadoop。
安装 Python：请确保你的计孙拿算机上已经安装了 Python。
配置 Hadoop 环境：编辑 Hadoop 的配置文件，以确保 Hadoop 可以与 Python 配合使用。
安装相关模块：请安装所需的 Python 模块，以便在 Hadoop 环境下使用 Python。
测试灶行 Python 安装：请运行一些测试脚本，以确保 Python 可以在 Hadoop 环境下正常工作。

这些步骤可以帮助你在 Hadoop 环境下搭建 Python。请注意，具体的步骤可能因 Hadoop 的版本和环境而异，请仔细查则辩搭看相关文档。

Ⅳ 如何使用Python为Hadoop编写一个简单的MapRece程序

在这个实例中，我将会向大家介绍如何使用Python 为 Hadoop编写一个简单的MapRece
程序。
尽管Hadoop 框架是使用Java编写的但是我们仍然需要使用像C++、Python等语言来实现Hadoop程序。尽管Hadoop官方网站给的示例程序是使用Jython编写并打包成Jar文件，这样显然造成了不便，其实，不一定非要这样来实现，我们可以使用Python与Hadoop 关联进行编程，看看位于/src/examples/python/WordCount.py 的例子，你将了解到我在说什么。

我们想要做什么？

我们将编写一个简单的 MapRece 程序，使用的是C-Python，而不是Jython编写后打包成jar包的程序。
我们的这个例子将模仿 WordCount 并使用Python来实现，例子通过读取文本文件来统计出单词的出现次数。结果也以文本形式输出，每一行包含一个单词和单词出现的次数，两者中间使用制表符来想间隔。

先决条件

编写这个程序之前，你学要架设好Hadoop 集群，这样才能不会在后期工作抓瞎。如果你没有架设好，那么在后面有个简明教程来教你在Ubuntu linux 上搭建（同样适用于其他发行版linux、unix）

如何使用Hadoop Distributed File System (HDFS)在Ubuntu Linux 建立单节点的 Hadoop 集群

如何使用Hadoop Distributed File System (HDFS)在Ubuntu Linux 建立多节点的 Hadoop 集群

Python的MapRece代码

使用Python编写MapRece代码的技巧就在于我们使用了 HadoopStreaming 来帮助我们在Map 和 Rece间传递数据通过STDIN (标准输入)和STDOUT (标准输出).我们仅仅使用Python的sys.stdin来输入数据，使用sys.stdout输出数据，这样做是因为HadoopStreaming会帮我们办好其他事。这是真的，别不相信！

Map: mapper.py

将下列的代码保存在/home/hadoop/mapper.py中，他将从STDIN读取数据并将单词成行分隔开，生成一个列表映射单词与发生次数的关系：
注意：要确保这个脚本有足够权限（chmod +x /home/hadoop/mapper.py）。

#!/usr/bin/env python

import sys

# input comes from STDIN (standard input)
for line in sys.stdin:
# remove leading and trailing whitespace
line = line.strip()
# split the line into words
words = line.split()
# increase counters
for word in words:
# write the results to STDOUT (standard output);
# what we output here will be the input for the
# Rece step, i.e. the input for recer.py
#
# tab-delimited; the trivial word count is 1
print '%s\\t%s' % (word, 1)在这个脚本中，并不计算出单词出现的总数，它将输出 "<word> 1" 迅速地，尽管<word>可能会在输入中出现多次，计算是留给后来的Rece步骤（或叫做程序）来实现。当然你可以改变下编码风格，完全尊重你的习惯。

Rece: recer.py

将代码存储在/home/hadoop/recer.py 中，这个脚本的作用是从mapper.py 的STDIN中读取结果，然后计算每个单词出现次数的总和，并输出结果到STDOUT。
同样，要注意脚本权限：chmod +x /home/hadoop/recer.py

#!/usr/bin/env python

from operator import itemgetter
import sys

# maps words to their counts
word2count = {}

# input comes from STDIN
for line in sys.stdin:
# remove leading and trailing whitespace
line = line.strip()

# parse the input we got from mapper.py
word, count = line.split('\\t', 1)
# convert count (currently a string) to int
try:
count = int(count)
word2count[word] = word2count.get(word, 0) + count
except ValueError:
# count was not a number, so silently
# ignore/discard this line
pass

# sort the words lexigraphically;
#
# this step is NOT required, we just do it so that our
# final output will look more like the official Hadoop
# word count examples
sorted_word2count = sorted(word2count.items(), key=itemgetter(0))

# write the results to STDOUT (standard output)
for word, count in sorted_word2count:
print '%s\\t%s'% (word, count)
测试你的代码（cat data | map | sort | rece）

我建议你在运行MapRece job测试前尝试手工测试你的mapper.py 和 recer.py脚本，以免得不到任何返回结果
这里有一些建议，关于如何测试你的Map和Rece的功能：
——————————————————————————————————————————————
\r\n
# very basic test
hadoop@ubuntu:~$ echo "foo foo quux labs foo bar quux" | /home/hadoop/mapper.py
foo 1
foo 1
quux 1
labs 1
foo 1
bar 1
——————————————————————————————————————————————
hadoop@ubuntu:~$ echo "foo foo quux labs foo bar quux" | /home/hadoop/mapper.py | sort | /home/hadoop/recer.py
bar 1
foo 3
labs 1
——————————————————————————————————————————————

# using one of the ebooks as example input
# (see below on where to get the ebooks)
hadoop@ubuntu:~$ cat /tmp/gutenberg/20417-8.txt | /home/hadoop/mapper.py
The 1
Project 1
Gutenberg 1
EBook 1
of 1
[...]
(you get the idea)

quux 2

quux 1

——————————————————————————————————————————————

在Hadoop平台上运行Python脚本

为了这个例子，我们将需要三种电子书：

The Outline of Science, Vol. 1 (of 4) by J. Arthur Thomson\r\n
The Notebooks of Leonardo Da Vinci\r\n
Ulysses by James Joyce
下载他们，并使用us-ascii编码存储解压后的文件，保存在临时目录，比如/tmp/gutenberg.

hadoop@ubuntu:~$ ls -l /tmp/gutenberg/
total 3592
-rw-r--r-- 1 hadoop hadoop 674425 2007-01-22 12:56 20417-8.txt
-rw-r--r-- 1 hadoop hadoop 1423808 2006-08-03 16:36 7ldvc10.txt
-rw-r--r-- 1 hadoop hadoop 1561677 2004-11-26 09:48 ulyss12.txt
hadoop@ubuntu:~$

复制本地数据到HDFS

在我们运行MapRece job 前，我们需要将本地的文件复制到HDFS中：

hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -FromLocal /tmp/gutenberg gutenberg
hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -ls
Found 1 items
/user/hadoop/gutenberg <dir>
hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -ls gutenberg
Found 3 items
/user/hadoop/gutenberg/20417-8.txt <r 1> 674425
/user/hadoop/gutenberg/7ldvc10.txt <r 1> 1423808
/user/hadoop/gutenberg/ulyss12.txt <r 1> 1561677

执行 MapRece job

现在，一切准备就绪，我们将在运行Python MapRece job 在Hadoop集群上。像我上面所说的，我们使用的是
HadoopStreaming 帮助我们传递数据在Map和Rece间并通过STDIN和STDOUT，进行标准化输入输出。

hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop jar contrib/streaming/hadoop-0.19.1-streaming.jar
-mapper /home/hadoop/mapper.py -recer /home/hadoop/recer.py -input gutenberg/*
-output gutenberg-output
在运行中，如果你想更改Hadoop的一些设置，如增加Rece任务的数量，你可以使用“-jobconf”选项：

hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop jar contrib/streaming/hadoop-0.19.1-streaming.jar
-jobconf mapred.rece.tasks=16 -mapper ...

一个重要的备忘是关于Hadoop does not honor mapred.map.tasks
这个任务将会读取HDFS目录下的gutenberg并处理他们，将结果存储在独立的结果文件中，并存储在HDFS目录下的
gutenberg-output目录。
之前执行的结果如下：

hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop jar contrib/streaming/hadoop-0.19.1-streaming.jar
-mapper /home/hadoop/mapper.py -recer /home/hadoop/recer.py -input gutenberg/*
-output gutenberg-output

additionalConfSpec_:null
null=@@@userJobConfProps_.get(stream.shipped.hadoopstreaming
packageJobJar: [/usr/local/hadoop-datastore/hadoop-hadoop/hadoop-unjar54543/]
[] /tmp/streamjob54544.jar tmpDir=null
[...] INFO mapred.FileInputFormat: Total input paths to process : 7
[...] INFO streaming.StreamJob: getLocalDirs(): [/usr/local/hadoop-datastore/hadoop-hadoop/mapred/local]
[...] INFO streaming.StreamJob: Running job: job_200803031615_0021
[...]
[...] INFO streaming.StreamJob: map 0% rece 0%
[...] INFO streaming.StreamJob: map 43% rece 0%
[...] INFO streaming.StreamJob: map 86% rece 0%
[...] INFO streaming.StreamJob: map 100% rece 0%
[...] INFO streaming.StreamJob: map 100% rece 33%
[...] INFO streaming.StreamJob: map 100% rece 70%
[...] INFO streaming.StreamJob: map 100% rece 77%
[...] INFO streaming.StreamJob: map 100% rece 100%
[...] INFO streaming.StreamJob: Job complete: job_200803031615_0021

[...] INFO streaming.StreamJob: Output: gutenberg-output hadoop@ubuntu:/usr/local/hadoop$

正如你所见到的上面的输出结果，Hadoop 同时还提供了一个基本的WEB接口显示统计结果和信息。
当Hadoop集群在执行时，你可以使用浏览器访问 http://localhost:50030/ ，如图：

检查结果是否输出并存储在HDFS目录下的gutenberg-output中：

hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -ls gutenberg-output
Found 1 items
/user/hadoop/gutenberg-output/part-00000 <r 1> 903193 2007-09-21 13:00
hadoop@ubuntu:/usr/local/hadoop$

可以使用dfs -cat 命令检查文件目录

hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -cat gutenberg-output/part-00000
"(Lo)cra" 1
"1490 1
"1498," 1
"35" 1
"40," 1
"A 2
"AS-IS". 2
"A_ 1
"Absoluti 1
[...]
hadoop@ubuntu:/usr/local/hadoop$

注意比输出，上面结果的(")符号不是Hadoop插入的。

转载仅供参考，版权属于原作者。祝你愉快，满意请采纳哦

Ⅵ 现存python后端学习路线是怎样的

【导语】人工智能时代，想要从事编程行业，最佳的学习语言自然是Python，Python入门简单、功能强大，已成为各大企业首选开发语言，也吸引了无数有志学子投身学习，那么现存python后端学习路线是怎样的呢?接下来我们就来具体了解一下吧。

第一阶段为Python语言基础，主要学习Python最基础知识，如Python3、数据类型、字符串、函数、类、文件操作等。阶段课程结束后，学员需要完成Pygame实战飞机大战、2048等项目;

第二阶段为Python语言高级，主要学习Python库、正则表达式、进程线程、爬虫、遍历以及MySQL数据库;

第三阶段为Python全栈工程师前端，主要学习HTML、CSS、JavaScript、jQuery等前端知识，学员需要完成网页界面设计实战;

第四至第五阶段为Python全栈工程师后端，主要学习Django、 Flask以及Tornado，学员需要完成对应的实战项目;

第六阶段为Linux基础，主要学习Linux相关的各种命令，如文件处理命令、压缩解压命令、权限管理以及Linux Shell开发等;

第七阶段为Linux运维自动化开发，主要学习Python开发Linux运维、Linux运维报警工具开发、Linux运维报警安全审计开发、Linux业务质量报表工具开发、Kali安全检测工具检测以及Kali
密码破解实战;

第八阶段为Python数据分析，主要学习numpy数据处理、pandas数据分析、matplotlib数据可视化、scipy数据统计分析以及python
金融数据分析;

第九阶段为Python大数据，主要学习Hadoop HDFS、python Hadoop MapRece、python Spark
core、python Spark SQL以及python Spark MLlib;

第十阶段为Python机器学习，主要学习KNN算法、线性回归、逻辑斯蒂回归算法、决策树算法、朴素贝叶斯算法、支持向量机以及聚类k-means算法。

关于现存python后端学习路线，就给大家说明到这里了，九层之台，起于垒土。想要成为Python开发领域的高端人才，基础知识很重要，而实战经验也很重要。只有将理论知识与实战项目紧密结合，将现有知识与潮流技术融会贯通，你才能站在技术链的顶端。

Ⅶ 如何使用Python为Hadoop编写一个简单的MapRece程序

我们将编写一个简槐迅单的 MapRece 程序，使用的是C-Python，而不是Jython编写后打包成jar包的程序。
我们的这个例子将模仿 WordCount 并使用Python来实现，例子通过读取文本文件来统计出单词的出现次数。结果也以文本形式输出，每一陵此行包含一个单词和单尺明迅词出现的次数，两者中间使用制表符来想间隔。

先决条件

编写这个程序之前，你学要架设好Hadoop 集群，这样才能不会在后期工作抓瞎。如果你没有架设好，那么在后面有个简明教程来教你在Ubuntu Linux 上搭建（同样适用于其他发行版linux、unix）

如何使用Hadoop Distributed File System (HDFS)在Ubuntu Linux 建立单节点的 Hadoop 集群

如何使用Hadoop Distributed File System (HDFS)在Ubuntu Linux 建立多节点的 Hadoop 集群

Python的MapRece代码

使用Python编写MapRece代码的技巧就在于我们使用了 HadoopStreaming 来帮助我们在Map 和 Rece间传递数据通过STDIN (标准输入)和STDOUT (标准输出).我们仅仅使用Python的sys.stdin来输入数据，使用sys.stdout输出数据，这样做是因为HadoopStreaming会帮我们办好其他事。这是真的，别不相信！

阅读全文

热点内容

方舟手游如何解锁自己的服务器发布：2025-02-12 20:54:09 浏览：657

猫影视源码发布：2025-02-12 20:42:05 浏览：923

局域网如何访问其他电脑发布：2025-02-12 20:39:06 浏览：378

新平板电脑的数字密码如何知道发布：2025-02-12 20:31:19 浏览：345

打包php整站发布：2025-02-12 20:29:48 浏览：358

施工作业现场拍摄脚本发布：2025-02-12 20:20:22 浏览：137

eve脚本破解发布：2025-02-12 20:07:48 浏览：636

python脚本编程基础发布：2025-02-12 20:03:40 浏览：486

我的世界服务器里刷怪发布：2025-02-12 19:57:04 浏览：389

疯狂java视频发布：2025-02-12 19:38:17 浏览：150

pythonmapreduce

与pythonmapreduce相关的资讯