javaorpython

发布时间: 2024-10-20 11:55:43

Ⅰ 开源爬虫框架各有什么优缺点

开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的？这里按照我的经验随便扯淡一下：上面说的爬虫，基本可以分3类：1.分布式爬虫：Nutch
2.java单机爬虫：Crawler4j、WebMagic、WebCollector
3. 非JAVA单机爬虫：scrapy
第一类：分布式爬虫
爬虫使用分布式，主要是解决两个问题：
1）海量URL管理
2）网速
现在比较流行的分布式爬虫，是Apache的Nutch。但是对于大多数用户来说，Nutch是这几类爬虫里，最不好的选择，理由如下：
1）Nutch是为搜索引擎设计的爬虫，大多数用户是需要一个做精准数据爬取（精抽取）的爬虫。Nutch运行的一套流程里，有三分之二是为了搜索引擎而设计的。对精抽取没有太大的意义。也就是说，用Nutch做数据抽取，会浪费很多的时间在不必要的计算上。而且如果你试图通过对Nutch进行二次开发，来使得它适用于精抽取的业务，基本上就要破坏Nutch的框架，把Nutch改的面目全非，有修改Nutch的能力，真的不如自己重新写一个分布式爬虫框架了。
2）Nutch依赖hadoop运行，hadoop本身会消耗很多的时间。如果集群机器数量较少，爬取速度反而不如单机爬虫快。
3）Nutch虽然有一套插件机制，而且作为亮点宣传。可以看到一些开源的Nutch插件，提供精抽取的功能。但是开发过Nutch插件的人都知道，Nutch的插件系统有多蹩脚。利用反射的机制来加载和调用插件，使得程序的编写和调试都变得异常困难，更别说在上面开发一套复杂的精抽取系统了。而且Nutch并没有为精抽取提供相应的插件挂载点。Nutch的插件有只有五六个挂载点，而这五六个挂载点都是为了搜索引擎服务的，并没有为精抽取提供挂载点。大多数Nutch的精抽取插件，都是挂载在“页面解析”（parser）这个挂载点的，这个挂载点其实是为了解析链接（为后续爬取提供URL），以及为搜索引擎提供一些易抽取的网页信息（网页的meta信息、text文本）。
4）用Nutch进行爬虫的二次开发，爬虫的编写和调试所需的时间，往往是单机爬虫所需的十倍时间不止。了解Nutch源码的学习成本很高，何况是要让一个团队的人都读懂Nutch源码。调试过程中会出现除程序本身之外的各种问题（hadoop的问题、hbase的问题）。
5）很多人说Nutch2有gora，可以持久化数据到avro文件、hbase、mysql等。很多人其实理解错了，这里说的持久化数据，是指将URL信息（URL管理所需要的数据）存放到avro、hbase、mysql。并不是你要抽取的结构化数据。其实对大多数人来说，URL信息存在哪里无所谓。
6）Nutch2的版本目前并不适合开发。官方现在稳定的Nutch版本是nutch2.2.1，但是这个版本绑定了gora-0.3。如果想用hbase配合nutch（大多数人用nutch2就是为了用hbase），只能使用0.90版本左右的hbase，相应的就要将hadoop版本降到hadoop 0.2左右。而且nutch2的官方教程比较有误导作用，Nutch2的教程有两个，分别是Nutch1.x和Nutch2.x，这个Nutch2.x官网上写的是可以支持到hbase 0.94。但是实际上，这个Nutch2.x的意思是Nutch2.3之前、Nutch2.2.1之后的一个版本，这个版本在官方的SVN中不断更新。而且非常不稳定（一直在修改）。
所以，如果你不是要做搜索引擎，尽量不要选择Nutch作为爬虫。有些团队就喜欢跟风，非要选择Nutch来开发精抽取的爬虫，其实是冲着Nutch的名气（Nutch作者是Doug Cutting），当然最后的结果往往是项目延期完成。
如果你是要做搜索引擎，Nutch1.x是一个非常好的选择。Nutch1.x和solr或者es配合，就可以构成一套非常强大的搜索引擎了。如果非要用Nutch2的话，建议等到Nutch2.3发布再看。目前的Nutch2是一个非常不稳定的版本。
第二类：JAVA单机爬虫
这里把JAVA爬虫单独分为一类，是因为JAVA在网络爬虫这块的生态圈是非常完善的。相关的资料也是最全的。这里可能有争议，我只是随便扯淡。
其实开源网络爬虫（框架）的开发非常简单，难问题和复杂的问题都被以前的人解决了（比如DOM树解析和定位、字符集检测、海量URL去重），可以说是毫无技术含量。包括Nutch，其实Nutch的技术难点是开发hadoop，本身代码非常简单。网络爬虫从某种意义来说，类似遍历本机的文件，查找文件中的信息。没有任何难度可言。之所以选择开源爬虫框架，就是为了省事。比如爬虫的URL管理、线程池之类的模块，谁都能做，但是要做稳定也是需要一段时间的调试和修改的。
对于爬虫的功能来说。用户比较关心的问题往往是：
1）爬虫支持多线程么、爬虫能用代理么、爬虫会爬取重复数据么、爬虫能爬取JS生成的信息么？
不支持多线程、不支持代理、不能过滤重复URL的，那都不叫开源爬虫，那叫循环执行http请求。
能不能爬js生成的信息和爬虫本身没有太大关系。爬虫主要是负责遍历网站和下载页面。爬js生成的信息和网页信息抽取模块有关，往往需要通过模拟浏览器（htmlunit,selenium）来完成。这些模拟浏览器，往往需要耗费很多的时间来处理一个页面。所以一种策略就是，使用这些爬虫来遍历网站，遇到需要解析的页面，就将网页的相关信息提交给模拟浏览器，来完成JS生成信息的抽取。
2）爬虫可以爬取ajax信息么？
网页上有一些异步加载的数据，爬取这些数据有两种方法：使用模拟浏览器（问题1中描述过了），或者分析ajax的http请求，自己生成ajax请求的url，获取返回的数据。如果是自己生成ajax请求，使用开源爬虫的意义在哪里？其实是要用开源爬虫的线程池和URL管理功能（比如断点爬取）。
如果我已经可以生成我所需要的ajax请求（列表），如何用这些爬虫来对这些请求进行爬取？
爬虫往往都是设计成广度遍历或者深度遍历的模式，去遍历静态或者动态页面。爬取ajax信息属于deep web（深网）的范畴，虽然大多数爬虫都不直接支持。但是也可以通过一些方法来完成。比如WebCollector使用广度遍历来遍历网站。爬虫的第一轮爬取就是爬取种子集合（seeds）中的所有url。简单来说，就是将生成的ajax请求作为种子，放入爬虫。用爬虫对这些种子，进行深度为1的广度遍历（默认就是广度遍历）。
3）爬虫怎么爬取要登陆的网站？
这些开源爬虫都支持在爬取时指定cookies，模拟登陆主要是靠cookies。至于cookies怎么获取，不是爬虫管的事情。你可以手动获取、用http请求模拟登陆或者用模拟浏览器自动登陆获取cookie。
4）爬虫怎么抽取网页的信息？
开源爬虫一般都会集成网页抽取工具。主要支持两种规范：CSS SELECTOR和XPATH。至于哪个好，这里不评价。
5）爬虫怎么保存网页的信息？
有一些爬虫，自带一个模块负责持久化。比如webmagic，有一个模块叫pipeline。通过简单地配置，可以将爬虫抽取到的信息，持久化到文件、数据库等。还有一些爬虫，并没有直接给用户提供数据持久化的模块。比如crawler4j和webcollector。让用户自己在网页处理模块中添加提交数据库的操作。至于使用pipeline这种模块好不好，就和操作数据库使用ORM好不好这个问题类似，取决于你的业务。
6）爬虫被网站封了怎么办？
爬虫被网站封了，一般用多代理（随机代理）就可以解决。但是这些开源爬虫一般没有直接支持随机代理的切换。所以用户往往都需要自己将获取的代理，放到一个全局数组中，自己写一个代理随机获取（从数组中）的代码。
7）网页可以调用爬虫么？
爬虫的调用是在Web的服务端调用的，平时怎么用就怎么用，这些爬虫都可以使用。
8）爬虫速度怎么样？
单机开源爬虫的速度，基本都可以讲本机的网速用到极限。爬虫的速度慢，往往是因为用户把线程数开少了、网速慢，或者在数据持久化时，和数据库的交互速度慢。而这些东西，往往都是用户的机器和二次开发的代码决定的。这些开源爬虫的速度，都很可以。
9）明明代码写对了，爬不到数据，是不是爬虫有问题，换个爬虫能解决么？
如果代码写对了，又爬不到数据，换其他爬虫也是一样爬不到。遇到这种情况，要么是网站把你封了，要么是你爬的数据是javascript生成的。爬不到数据通过换爬虫是不能解决的。
10）哪个爬虫可以判断网站是否爬完、那个爬虫可以根据主题进行爬取？
爬虫无法判断网站是否爬完，只能尽可能覆盖。
至于根据主题爬取，爬虫之后把内容爬下来才知道是什么主题。所以一般都是整个爬下来，然后再去筛选内容。如果嫌爬的太泛，可以通过限制URL正则等方式，来缩小一下范围。
11）哪个爬虫的设计模式和构架比较好？
设计模式纯属扯淡。说软件设计模式好的，都是软件开发完，然后总结出几个设计模式。设计模式对软件开发没有指导性作用。用设计模式来设计爬虫，只会使得爬虫的设计更加臃肿。
至于构架，开源爬虫目前主要是细节的数据结构的设计，比如爬取线程池、任务队列，这些大家都能控制好。爬虫的业务太简单，谈不上什么构架。
所以对于JAVA开源爬虫，我觉得，随便找一个用的顺手的就可以。如果业务复杂，拿哪个爬虫来，都是要经过复杂的二次开发，才可以满足需求。
第三类：非JAVA单机爬虫
在非JAVA语言编写的爬虫中，有很多优秀的爬虫。这里单独提取出来作为一类，并不是针对爬虫本身的质量进行讨论，而是针对larbin、scrapy这类爬虫，对开发成本的影响。
先说python爬虫，python可以用30行代码，完成JAVA 50行代码干的任务。python写代码的确快，但是在调试代码的阶段，python代码的调试往往会耗费远远多于编码阶段省下的时间。使用python开发，要保证程序的正确性和稳定性，就需要写更多的测试模块。当然如果爬取规模不大、爬取业务不复杂，使用scrapy这种爬虫也是蛮不错的，可以轻松完成爬取任务。
对于C++爬虫来说，学习成本会比较大。而且不能只计算一个人的学习成本，如果软件需要团队开发或者交接，那就是很多人的学习成本了。软件的调试也不是那么容易。
还有一些ruby、php的爬虫，这里不多评价。的确有一些非常小型的数据采集任务，用ruby或者php很方便。但是选择这些语言的开源爬虫，一方面要调研一下相关的生态圈，还有就是，这些开源爬虫可能会出一些你搜不到的BUG（用的人少、资料也少）
End.

Ⅱ PHP开发人员的Python基础知识

PHP（外文名:PHP: Hypertext Preprocessor，中文名：“超文本预处理器”）是一种通用开源脚本语言。语法吸收了C语言、Java和Perl的特点，利于学习，使用广泛，主要适用于Web开发领域。那么PHP开发人员的Python基础知识都有哪些呢？以下仅供参考！

常用缩略语

Ajax：异步 JavaScript + XML

XML：可扩展标记语言（Extensible Markup Language）

什么是 Python？

Python 的定义是一种 “通用的高级编程语言”。它以简洁性和易用性着称，而且是少有的几种对空格和缩进有要求的语言之一。Python 的主要作者 Guido Van Rossum 在社区中仍然非常活跃，并且被人们戏称为仁慈的领导。

Python 的灵活性和紧凑性是值得称赞的。它支持面向对象编程、结构化编程、面向方面编程以及函数编程等。Python 采用小内核设计，但具备大量扩展库，从而确保了该语言的紧凑性和灵活性。

从语法的角度来说，您会发现 Python 的简洁性异常突出——几乎可以说是一种纯粹的境界。PHP 开发人员要么会对这种方法的语法深深陶醉，要么会发现它的局限性。这主要取决于您自己的见解。Python 社区推动这种美感的态度是非常明确的，它们更加重视的是美学和简洁性，而不是灵动的技巧。已形成 Perl 传统（“可以通过多种方式实现它”）的 PHP 开发人员（像我自己）将面对一种完全相反的哲学（“应该只有一种方法可以实现它”）。

事实上，该社区定义了一种特有的代码风格术语，即 Python 化（pythonic）。您可以说您的代码是 Python 化，这是对 Python 术语的良好运用，同时还可展现语言的自然特性。本文并不打算成为 Pythonista（或 Pythoneer），但如果您想继续 Python 之路，那么千万不能错过本文的知识点。就像 PHP 有自己的编程风格，Perl 有自己的概念方法，学习 Python 语言必然也需要开始用该语言来思考问题。

另一个要点：在撰写本文时，Python 的最新版本是 V3.0，但本文主要侧重于 Python V2.6。Python V3.0 并不能向后兼容之前的版本，而且 V2.6 是使用最为广泛的版本。当然，您可以根据需求使用自己喜好的版本。

Python 与 PHP 有何不同？

一般来说，PHP 是一种 Web 开发语言。是的，它提供了一个命令行接口，并且甚至可用于开发嵌入式应用程序，但它主要还是用于 Web 开发。相反，Python 是一种脚本语言，并且也可用于 Web 开发。从这方面来说，我知道我会这样说——它比 PHP 更加接近 Perl。（当然，在其他方面，它们之间并无实际不同。我们继续往下看。）

PHP 的语法中充斥着美元符号（$）和大括号（{}），而 Python 相对来说则更加简洁和干净。PHP 支持 switch 和 do...while 结构，而 Python 则不尽然。PHP 使用三元操作符（foo?bar:baz）和冗长的函数名列表，而命名约定更是无所不有；相反，您会发现 Python 要简洁多了。PHP 的数组类型可同时支持简单列表和字典或散列，但 Python 却将这两者分开。

Python 同时使用可变性和不变性的概念：举例来说，tuple 就是一个不可变的列表。您可以创建 tuple，但在创建之后不能修改它。这一概念可能要花些时间来熟悉，但对于避免错误极为有效。当然，更改 tuple 的惟一方法是复制它。因此，如果您发现对不可变对象执行了大量更改，则应该重新考量自己的方法。

之前提到，Python 中的缩进是有含义的：您在刚开始学习该语言时会对此非常难以适应。您还可以创建使用关键字作为参数的函数和方法——这与 PHP 中的标准位置参数迥然不同。面向对象的追随者会对 Python 中真正的面向对象思想感到欣喜，当然还包括它的 “一级” 类和函数。如果您使用非英语语言，则会钟爱于 Python 强大的.国际化和 Unicode 支持。您还会喜欢 Python 的多线程功能；这也是最开始令我为之着迷的特性之一。

综上所述，PHP 和 Python 在许多方面都彼此类似。您可以方便地创建变量、循环，使用条件和创建函数。您甚至可以轻松地创建可重用的模块。两种语言的用户社区都充满活力和激情。PHP 的用户群体更加庞大，但这主要归因于它在托管服务器及 Web 专注性方面的优势和普及性。

很好简要介绍到此为止。我们开始探索之旅。

使用 Python

清单 1 展示了一个基本的 Python 脚本。

清单 1. 一个简单的 Python 脚本

for i in range(20):

print(i)

清单 2 展示了脚本的必然结果。

清单 2. 清单 1 的结果

在深入探索之前，我们先来了解一些预备知识。首先从变量开始。

变量

可以看到，表示变量并不需要任何特殊的字符。变量 i 就是一个纯粹的 i——毫无特殊之处。表示代码块或语言结束也不需要任何特殊字符（比如分号和括号）；只需要在 for 行使用一个简单的冒号即可（:）。还需注意，缩进会向 Python 指示哪些内容属于 for 循环。举例来说，清单 3 中的代码会在循环中为各编号输出一个说明。

清单 3. 为各循环添加一条语句

for i in range(20):

print(i)

print('all done?')

相反，清单 4 中的代码会在循环结束处输出一条说明。

清单 4. 在循环后添加一条语句

for i in range(20):

print(i)

print('all done!')

现在，我第一次看到这样的代码时，我认为这完全是无稽之谈。什么？让我相信换行和缩进能保证代码的结构和运行？请相信我，不用多久，您就会习惯它（但我需要承认必须到达到分号处才会结束语句的运行）。如果您与其他开发人员共同开发 Python 项目，则会发现这种可读性的用处是多么大了。您不再像以前那样总是猜测 “这个聪明的家伙在这里究竟想干些什么？”

在 PHP，您使用 = 操作符为变量分配值（参见清单 5）。在 Python 中，您使用相同的操作符，只是需要标记或指向值。对于我来说，它就是赋值操作而已，我不需要过多担心专门的术语。

清单 5. 创建变量

yorkie = 'Marlowe' #meet our Yorkie Marlowe!

mutt = 'Kafka' #meet our mutt Kafka

print(mutt) #prints Kafka

Python 的变量名称约定与 PHP 类似：您在创建变量名时只能使用字母、数字和下划线（_）。同样，变量名的第一个字符不能是数字。Python 变量名是区分大小写的，并且您不能使用特定的 Python 关键字（比如 if、else、while、def、or、and、not、in 和 is 开始符）作为变量名。这没有什么值得奇怪的。

Python 允许您随意执行基于字符串的操作。清单 6 中的大多数操作应该都是您熟悉的。

清单 6. 常见的基于字符串的操作

yorkie = 'Marlowe'

mutt = 'Kafka'

ylen = len(yorkie) #length of variable yorkie

print(ylen) #prints 7

print(len(yorkie)) #does the same thing

len(yorkie) #also does the same thing, print is implicit

print(yorkie.lower()) #lower cases the string

print(yorkie.strip('aeiou')) #removes vowels from end of string

print(mutt.split('f')) #splits "Kafka" into ['Ka', 'ka']

print(mutt.count('a')) #prints 2, the number of a's in string

yorkie.replace('a','4') #replace a's with 4's

条件语句

您已经了解了如何使用 for 循环；现在，我们来讨论条件语句。您会发现 Phyon 中的条件语句与 PHP 基本相同：您可以使用熟悉的 if/else型结构，如清单 7 所示。

清单 7. 一个简单的条件测试

yorkie = 'Marlowe'

mutt = 'Kafka'

if len(yorkie) > len(mutt):

print('The yorkie wins!')

else:

print('The mutt wins!')

您还可以使用 if/elif/else（elif，等价于 PHP 中的 elseif）创建更加复杂的条件测试，如清单 8 所示。

清单 8. 一个比较复杂的条件测试

yorkie = 'Marlowe'

mutt = 'Kafka'

if len(yorkie) + len(mutt) > 15:

print('The yorkie and the mutt win!')

elif len(yorkie) + len(mutt) > 10:

print('Too close to tell!')

else:

print('Nobody wins!')

您可能会说，目前为止并没有什么与众不同的地方：甚本上和想象中没有太大区别。现在，我们来看 Python 处理列表的方式，您会发现两种语言之间的不同之处。

列表

一种常用的列表类型是 tuple，它是不可变的。在 tuple 中载入一系列值之后，您不会更改它。Tuple 可以包含数字、字符串、变量，甚至其他 tuples。Tuples 从 0 开始建立索引，这很正常；您可以使用 -1 索引访问最后一个项目。您还可以对 tuple 运行一些函数（请参见清单 9）。

清单 9. Tuples

items = (1, mutt, 'Honda', (1,2,3))

print items[1] #prints Kafka

print items[-1] #prints (1,2,3)

items2 = items[0:2] #items2 now contains (1, 'Kafka') thanks to slice operation

'Honda' in items #returns TRUE

len(items) #returns 4

items.index('Kafka') #returns 1, because second item matches this index location

列表与 tuple 类似，只不过它们是可变的。创建列表之后，您可以添加、删除和更新列表中的值。列表使用方括号，而不是圆括号（()），如清单 10 所示。

清单 10. 列表

groceries = ['ham','spam','eggs']

len(groceries) #returns 3

print groceries[1] #prints spam

for x in groceries:

print x.upper() #prints HAM SPAM EGGS

groceries[2] = 'bacon'

groceries #list is now ['ham','spam','bacon']

groceries.append('eggs')

groceries #list is now ['ham', 'spam', 'bacon', 'eggs']

groceries.sort()

groceries #list is now ['bacon', 'eggs', 'ham', 'spam']

字典类似于关联数组或散列；它使用键值对来存储和限制信息。但它不使用方括号和圆括号，而是使用尖括号。与列表类似，字典是可变的，这意味着您可以添加、删除和更新其中的值（请参见清单 11）。

清单 11. 字典

colorvalues = {'red' : 1, 'blue' : 2, 'green' : 3, 'yellow' : 4, 'orange' : 5}

colorvalues #prints {'blue': 2, 'orange': 5, 'green': 3, 'yellow': 4, 'red': 1}

colorvalues['blue'] #prints 2

colorvalues.keys() #retrieves all keys as a list:

#['blue', 'orange', 'green', 'yellow', 'red']

colorvalues.pop('blue') #prints 2 and removes the blue key/value pair

colorvalues #after pop, we have:

#{'orange': 5, 'green': 3, 'yellow': 4, 'red': 1}

在 Python 中创建一个简单的脚本

现在，您已经对 Python 有了一定的了解。接下来，我们将创建一个简单的 Python 脚本。该脚本将读取位于您的服务器 /tmp 目录下的 PHP 会话文件的数量，并在日志文件中写入摘要报告。在该脚本中，您将学习如何导入特定函数的模块，如何使用文件，以及如何写入日志文件。您还将设置一系列变量来跟踪所收集的信息。

清单 12 展示了整个脚本。打开一个编辑器，并将代码粘贴到其中，然后在系统中将该文件保存为 tmp.py。然后，对该文件运行 chmod + x，使它成为可执行文件（假定您使用 UNIX? 系统）。

清单 12. tmp.py

#!/usr/bin/python

import os

from time import strftime

stamp = strftime("%Y-%m-%d %H:%M:%S")

logfile = '/path/to/your/logfile.log'

path = '/path/to/tmp/directory/'

files = os.listdir(path)

bytes = 0

numfiles = 0

for f in files:

if f.startswith('sess_'):

info = os.stat(path + f)

numfiles += 1

bytes += info[6]

if numfiles > 1:

title = 'files'

else:

title = 'file'

string = stamp + " -- " + str(numfiles) + " session "

+ title +", " + str(bytes) + " bytes "

file = open(logfile,"a")

file.writelines(string)

file.close()

在第一行中，您可以看到一个 hash-bang 行：它用于标识 Python 解释器的位置。在我的系统中，它位于 /usr/bin/python。请根据系统需求调整这一行。

接下来的两行用于导入特定的模块，这些模块将帮助您执行作业。考虑到脚本需要处理文件夹和文件，因此您需要导入 os 模块，因为其中包含各种函数和方法，可帮助您列出文件、读取文件和操作文件夹。您还需要写入一个日志文件，因此可以为条目添加一个时间戳 — 这就需要使用时间函数。您不需要所有时间函数，只需要导入 strftime函数即可。

在接下来的六行中，您设置了一些变量。第一个变量是 stamp，其中包含一个日期字符串。然后，您使用 strftime 函数创建了一个特定格式的时间戳 — 在本例中，时间戳的格式为 2010-01-03 12:43:03。

接下来，创建一个 logfile 变量，并在文件中添加一个实际存储日志文件消息的路径（该文件不需要实际存在）。为简单起见，我在 /logs 文件夹中放置了一个日志文件，但您也可以将它放置在别处。同样，path 变量包含到 /tmp 目录的路径。您可以使用任何路径，只要使用斜杠作为结束即可 (/)。

接下来的三个变量也非常简单：files 列表包含指定路径中的所有文件和文件夹，另外还包含 bytes 和 numfiles 两个变量。这两个变量都设置为 0；脚本会在处理文件时递增这些值。

完成所有这些定义之后，接下来就是脚本的核心了：一个简单的 for 循环，用于处理文件列表中的各文件。每次运行循环时，脚本都会计算文件名；如果它以 sess_ 开头，则脚本会对该文件运行 os.stat()，提取文件数据（比如创建时间、修改时间和字节大小），递增 numfiles 计数器并将该文件的字节大小累计到总数中。

当循环完成运行后，脚本会检查 numfiles 变量中的值是否大于 1。如果大于 1，则会将一个新的 title 变量设置为 files；否则，title 将被设置为单数形式的 file。

脚本的最后部分也非常简单：您创建了一个 string 变量，并在该变量中添加了一行以时间戳开始的数据，并且其后还包含 numfiles（已转换为字符串）和字节（也已转换为字符串）。请注意继续字符（）；该字符可允许代码运行到下一行。它是一个提高可读性的小技巧。

然后，您使用 open() 函数以附加模式打开日志文件（毕竟始终需要在该文件中添加内容），writelines() 函数会将字符串添加到日志文件中，而 close() 函数用于关闭该文件。

现在，您已经创建了一个简单的 Python 脚本。该脚本可用于完成许多任务，举例来说，您可以设置一个 cron作业来每小时运行一次这个脚本，以帮助您跟踪 24 小时内所使用的 PHP 会话的数量。您还可以使用 jQuery 或其他一些 JavaScript 框架通过 Ajax 连接这个脚本，用于为您提供日志文件提要（如果采用这种方式，则需要使用 print命令来返回数据）。

Ⅲ 现在国内java的就业前景怎么样

java的就业前景还是非常好的，虽然很多人都在说java饱和了，但事实上，java运用更加广泛，而且可以被看作是一项基础来学。

不论学大数据、web、全栈、人工智能、前后端，小程序都需要学java！而且当你学完java后，再学C#，python，PHP等其他语言是会有事半功倍的效果！简单列举下学好java可以做哪些事情。

java学好可以做：

做网站，Java开发做网站可以说是大材小用了，不过用Java做网站还是很容易的；

做管理系统，每个公司都会用到管理系统，比如OA，ERP等等，Java也可以做；

做CS程序，所谓的CS程序就是例如QQ这样的有客户端的程序，用Java也可以完成的；

做移动应用，我们所熟悉的Android都是依赖Java的，所以学习完Java做移动应用很吃香

做游戏，Java中也包括了游戏开发的内容，用它做游戏也是非常不错的；

做大数据分析，大数据分析是如今比较流行的，而其中就有大量Java的内容，所以学习Java从事大数据分析是不错的选择。

互联网行业目前还是最热门的行业之一，学习IT技能之后足够优秀是有机会进入腾讯、阿里、网易等互联网大厂高薪就业的，发展前景非常好，普通人也可以学习。

想要系统学习，你可以考察对比一下开设有相关专业的热门学校，好的学校拥有根据当下企业需求自主研发课程的能力，能够在校期间取得大专或本科学历，中博软件学院、南京课工场、南京北大青鸟等开设相关专业的学校都是不错的，建议实地考察对比一下。

祝你学有所成，望采纳。

Ⅳ python可以做什么

用Python可以算n的阶乘，下面是n的阶乘的代码（自带格式）。

def factorial(n):

result = n

for i in range(1,n):

result *= i

return result

def main():

print factorial(4)

if __name__ == '__main__':

main()

阶乘介绍：

基斯顿·卡曼（Christian Kramp，1760～1826）于 1808 年发明的运算符号，是数学术语。

一个正整数的阶乘（factorial）是所有小于及等于该数的正整数的积，并且0的阶乘为1。自然数n的阶乘写作n!。1808年，基斯顿·卡曼引进这个表示法。

亦即n!=1×2×3×...×(n-1)×n。阶乘亦可以递归方式定义：0!=1，n!=(n-1)!×n。

阅读全文

热点内容

一台剪辑电脑要什么配置发布：2025-01-12 07:50:16 浏览：10

android与java 发布：2025-01-12 07:50:12 浏览：496

打印机手机连接密码是什么发布：2025-01-12 07:48:31 浏览：584

冒险岛2什么服务器发布：2025-01-12 07:39:22 浏览：134

phpcms文件夹权限发布：2025-01-12 07:22:06 浏览：121

解压馆打卡发布：2025-01-12 07:21:32 浏览：945

电脑服务器端口号怎样查看发布：2025-01-12 07:02:21 浏览：78

手机怎样给程序加密软件发布：2025-01-12 06:47:11 浏览：825

地平线最高画质笔记本要什么配置才能玩发布：2025-01-12 06:47:10 浏览：370

原神过主线任务脚本发布：2025-01-12 06:34:51 浏览：514

javaorpython

与javaorpython相关的资讯