python日志分析
⑴ python 中 logging.info是干吗的
logging是python的日志库,是一个类
info是logging的一个属性
logging.info是输出日志的信息
logging.info('输出信息')
⑵ python能操作orcal么
Python作为一门易学易用且不失强大的语言,
国内外不乏用Python开发的从桌面系统到复杂大型系统的例子。但作为脚本语言中的一位着名代表,Python不仅可以用来取代Java、C++等系统
语言来开发复杂的大型系统,也可以被当作一种辅助工具用来做一些日常工作中的琐碎的事情,比如备份、生成测试数据、日志分析等等。本文将通过一些简单的例
子来演示如何使用Python来访问Oracle进行基本操作。需要说明的是本文并不会尝试对 Python
或Oracle进行全面的介绍或细致的讲解,只是通过一些简单实用的示例来,来演示如何使用Python操作Oracle。如果您希望深入了解请
Python及Python操作Oracle请参考本文最后给出的扩展阅读材料。
1
、
运行环境搭建
首先安装Python运行环境
下载地址:
http://www.activestate.com/activepython/downloads
选择
2.6.x
版本下载
,
安装略过。
安装完成后在打开命令行
,
输入
python
进入
Python
交互环境如下图所示
经典的Hello World:在交互环境中输入
>>> print 'HELLO PYTHON'
回车后结果如下:
类似我们在Java中访问数据库,需要使用相应数据库系统的
JDBC实现,Python中也有类似JDBC的一个统一接口,名为Python DB
API,所以也需要相应的数据库系统的实现。Oracle的实现叫做cx_Oracle,所以需要先安装cx_Oracle
下载地址:
http://cx-oracle.sourceforge.net/
安装略过,安装完成后在Python交互环境中输
入
import
cx_Oracle #
注
意大小写
如下图所示:
如果没有报错,证明安装成功。到这一步所需要的环境已经安装好
了。
其实Python
操作Oracle的流程与JDBC一样,首先创建连接,再获取游标对象,执行操作,获取结果,最后关闭连接,下面将通过一些例子来说明这个过程。
2
、
操作示例
下面将通过一些实际例子来演示如何操作Oracle
示例一:创建一个表
tb_user:
在交互环境中输入以下代码:
Python代码
import cx_Oracle
#建立和数据库系统的连接
conn = cx_Oracle.connect('challenger/[email protected]/challenge')
#获取操作游标
cursor = conn.cursor()
#执行sql,创建一个表
cursor.execute("""create table tb_user(id number, name varchar2(50),password varchar(50),primary key(id)) """)
#关闭连接,释放资源
cursor.close()
#执行完成,打印提示信息
print 'Completed!'
示例二:在
tb_user
、插入单条数
据、插入多条数据
新建一个名为insert.py的文件写入以下内容:
Python代码
#!/usr/bin/env python
# -*- coding:utf-8 -*-
###################################
# @author migle
# @date 2010-05-17
##################################
#在Oracle插入数据
#
##################################
import cx_Oracle
conn = cx_Oracle.connect('challenger/[email protected]/challenge')
cursor = conn.cursor()
#插入一条记录
cursor.execute("""insert into tb_user values(1,'admin','password')""");
#再插入一条数据
param={'id':2,'n':'admin','p':'password'}
cursor.execute('insert into tb_user values(:id,:n,:p)',param);
#一次插入多条数据,参数为字典列表形式
param=[{'id':3,'n':'admin','p':'password'},{'id':4,'n':'admin','p':'password'},{'id':5,'n':'admin','p':'password'}];
cursor.executemany('insert into tb_user values(:id,:n,:p)',param);
#再一次插入多条数据
param=[];
#生成5条插入数据,参数为元组列表形式
for i in range(6,11): # [6,7,8,9,10]
param.append((i,'user'+str(i),'password'+str(i)))
#插入数据
cursor.executemany('insert into tb_user values(:1,:2,:3)',param);
cursor.close();
#提交更改
conn.commit();
conn.close();
保存后,打开命令行切换至insert.py所在目录
输入
:python insert.py
运行插入数据脚本如下图所示
以上代码用了多种方式,共插入了10条数据,在sqlplus
中查看结果如下图所示
示例三:查询。
查询和插入的流程基本类似,只是多了一个得到查询结果的步骤,
新建search.py文件,内容如下:
Python代码
#!/usr/bin/env python
# -*- coding:utf-8 -*-
###################################
# @author migle
# @date 2010-05-17
##################################
#在Oracle中查询数据
#
##################################
import cx_Oracle
conn = cx_Oracle.connect('challenger/[email protected]/challenge')
cursor = conn.cursor()
#执行查询 语句
cursor.execute("""select * from tb_user""")
#获取一条记录
one = cursor.fetchone()
print '1: id:%s,name:%s,password:%s'%one;
#获取两条记录!!!注意游标已经到了第二条
two = cursor.fetchmany(2)
print '2 and 3:',two[0],two[1]
#获取其余记录!!!注意游标已经到了第四条
three = cursor.fetchall();
for row in three:
print row #打印所有结果
print '条件查询'
cursor.prepare("""select * from tb_user where id <= :id""")
cursor.execute(None,{'id':5})
for row in cursor: #相当于fetchall()
print row
cursor.close();
conn.close();
运行search.py可以看到如下图所示的结果
实际上所有的主流数据库都有相应Python DB
API的实现,如MySQL、PostgreSQL等,只需要安装相应的软件包即可,流程及操作接口都与cx_Oracle基本一致。
本文通过使用Python操作Oracle的基本
操作,如果您想对Python或用Python操作Oracle进行更进一步的了解,请看扩展阅读。
⑶ Python编写一个程序 可以读取邮件日志(mbox.txt),统计每个邮件发出的邮件数量,并输出结果。
由于工作需要在一大堆日志里面提取相应的一些固定字符,如果单纯靠手工取提取,数据量大,劳心劳力,于是自然而然想到了用Python做一个对应的提取工具,代替手工提取的繁杂,涉及中文字符,正则表达式不好匹配,但不是不可以实现,这个以后优化时再说。
需求描述:
一个父目录中存在多个子文件夹,子文件夹下有多个txt形式化的Log日志,要求从所有地方Log日志中找出CardType=9, CardNo=0时的CardID的值,并将其统计存储到一个文本文件中,要求CardID不能够重复。
需求解析:
首先获取所有的Log日志的全路径,根据路径分别加载到将各个Log日志加载到内存中进行提取分析,并将结果存储到给定的文本文件中。
解决方案:
为了尽可能的简洁通用,这里使用配置文件作为输入变量的依据。不多说,上代码:
配置文件如下:
心得体会:
1、利用Python去处理一些日常的小任务,可以很方便的完成,相比较C/C++来说,这方面生产力高了不少。
2、本文设计对中文字符的处理,所以使用正则表达式不太怎么方便,但不少不可以,后续版本中会添加对正则的支持!
3、由于初学中,所以代码写的不够精炼简洁,后续进行再优化!
⑷ Loguru:Python 日志终极解决方案
日志的作用非常重要,日志可以记录用户的操作、程序的异常,还可以为数据分析提供依据,日志的存在意义就是为了能够在程序在运行过程中记录错误,方便维护和调试,能够快速定位出错的地方,减少维护成本。每个程序员都应该知道,不是为了记录日志而记录日志,日志也不是随意记的。要实现能够只通过日志文件还原整个程序执行的过程,达到能透明地看到程序里执行情况,每个线程、每个过程到底执行到哪的目的。日志就像飞机的黑匣子一样,应当能够复原异常的整个现场乃至细节!
最常见的是把输出函数 print() 当作日志记录的方式,直接打印各种提示信息,常见于个人练习项目里,通常是懒得单独配置日志,而且项目太小不需要日志信息,不需要上线,不需要持续运行,完整的项目不推荐直接打印日志信息,现实中也几乎没有人这么做。
我们可以在不少小项目里面看到作者自己写了一个日志模板,通常利用 print() 或者 sys.stdout 稍微封装一下即可实现简单的日志输出,这里的 sys.stdout 是 Python 中的标准输出流, print() 函数是对 sys.stdout 的高级封装,当我们在 Python 中打印对象调用 print(obj) 时候,事实上是调用了 sys.stdout.write(obj+'\n') , print() 将内容打印到了控制台,然后追加了一个换行符 \n 。
自写日志模板适合比较小的项目,可以按照自己的喜好编写模板,不需要太多复杂配置,方便快捷,但是这种记录日志的方式并不是很规范,有可能你自己觉得阅读体验不错,但是别人在接触你的项目的时候往往需要花费一定的时间去学习日志的逻辑、格式、输出方式等,比较大的项目同样不推荐这种方法。
一个简单的自写日志模板举例:
日志模板 log.py:
调用日志模块:
日志输出:
在一个完整的项目中,大多数人都会引入专门的日志记录库,而 Python 自带的标准库 logging 就是专门为日志记录而生的,logging 模块定义的函数和类为应用程序和库的开发实现了一个灵活的事件日志系统。由标准库模块提供日志记录 API 的关键好处是所有 Python 模块都可以使用这个日志记录功能。所以,你的应用日志可以将你自己的日志信息与来自第三方模块的信息整合起来。
logging 模块虽然强大,但是其配置也是比较繁琐的,在大型项目中通常需要单独初始化日志、配置日志格式等等,K哥在日常使用中通常都会对 logging 做如下的封装写法,使日志可以按天保存,保留15天的日志,可以配置是否输出到控制台和文件,如下所示:
输出日志:
它在控制台中是这样的:
当然,如果你不需要很复杂的功能,希望简洁一点,仅仅需要在控制台输出一下日志的话,也可以只进行简单的配置:
对于 logging 模块,即便是简单的使用,也需要自己定义格式,这里介绍一个更加优雅、高效、简洁的第三方模块:loguru,官方的介绍是:Loguru is a library which aims to bring enjoyable logging in Python. Loguru 旨在为 Python 带来愉快的日志记录。这里引用官方的一个 GIF 来快速演示其功能:
Loguru 仅支持 Python 3.5 及以上的版本,使用 pip 安装即可:
Loguru 的主要概念是只有一个:logger
控制台输出:
可以看到不需要手动设置,Loguru 会提前配置一些基础信息,自动输出时间、日志级别、模块名、行号等信息,而且根据等级的不同,还自动设置了不同的颜色,方便观察,真正做到了开箱即用!
如果想自定义日志级别,自定义日志格式,保存日志到文件该怎么办?与 logging 模块不同,不需要 Handler,不需要 Formatter,只需要一个 add() 函数就可以了,例如我们想把日志储存到文件:
我们不需要像 logging 模块一样再声明一个 FileHandler 了,就一行 add() 语句搞定,运行之后会发现目录下 test.log 里面同样出现了刚刚控制台输出的 debug 信息。
与 add() 语句相反, remove() 语句可以删除我们添加的配置:
此时控制台会输出两条 debug 信息:
而 test.log 日志文件里面只有一条 debug 信息,原因就在于我们在第二条 debug 语句之前使用了 remove() 语句。
Loguru 对输出到文件的配置有非常强大的支持,比如支持输出到多个文件,分级别分别输出,过大创建新文件,过久自动删除等等。 下面我们来详细看一下 add() 语句的详细参数:
基本语法:
基本参数释义:
当且仅当 sink 是协程函数时,以下参数适用:
当且仅当 sink 是文件路径时,以下参数适用:
这么多参数可以见识到 add() 函数的强大之处,仅仅一个函数就能实现 logging 模块的诸多功能,接下来介绍几个比较常用的方法。
add() 函数的 rotation 参数,可以实现按照固定时间创建新的日志文件,比如设置每天 0 点新创建一个 log 文件:
设置超过 500 MB 新创建一个 log 文件:
设置每隔一个周新创建一个 log 文件:
add() 函数的 retention 参数,可以设置日志的最长保留时间,比如设置日志文件最长保留 15 天:
设置日志文件最多保留 10 个:
也可以是一个 datetime.timedelta 对象,比如设置日志文件最多保留 5 个小时:
add() 函数的 compression 参数,可以配置日志文件的压缩格式,这样可以更加节省存储空间,比如设置使用 zip 文件格式保存:
其格式支持: gz 、 bz2 、 xz 、 lzma 、 tar 、 tar.gz 、 tar.bz2 、 tar.xz
Loguru 在输出 log 的时候还提供了非常友好的字符串格式化功能,相当于 str.format() :
输出:
在 Loguru 里可以直接使用它提供的装饰器就可以直接进行异常捕获,而且得到的日志是无比详细的:
日志输出:
在控制台的输出是这样的:
相比 Logging,Loguru 无论是在配置方面、日志输出样式还是异常追踪,都远优于 Logging,使用 Loguru 无疑能提升开发人员效率。本文仅介绍了一些常用的方法,想要详细了解可参考 Loguru 官方文档 或关注 Loguru GitHub 。
⑸ python的日志,如何做到一天是单独一个日志,并且定期清理
创建以日期为文件的log文件(如:20140911.log),写日志前判断存放日志路径是否存在以当天日期为文件名的文件,如果存在添加日志信息,不存在就创建,在写日志信息。
定期清理亦可以按照此思路来做
⑹ 如何用 python 分析网站日志
日志的记录
Python有一个logging模块,可以用来产生日志。
(1)学习资料
http://blog.sina.com.cn/s/blog_4b5039210100f1wv.html
http://blog.donews.com/limodou/archive/2005/02/16/278699.aspx
http://kenby.iteye.com/blog/1162698
http://blog.csdn.NET/fxjtoday/article/details/6307285
前边几篇文章仅仅是其它人的简单学习经验,下边这个链接中的内容比较全面。
http://www.red-dove.com/logging/index.html
(2)我需要关注内容
日志信息输出级别
logging模块提供了多种日志级别,如:NOTSET(0),DEBUG(10),
INFO(20),WARNING(30),WARNING(40),CRITICAL(50)。
设置方法:
logger = getLogger()
logger.serLevel(logging.DEBUG)
日志数据格式
使用Formatter设置日志的输出格式。
设置方法:
logger = getLogger()
handler = loggingFileHandler(XXX)
formatter = logging.Formatter("%(asctime)s %(levelname) %(message)s","%Y-%m-%d,%H:%M:%S")
%(asctime)s表示记录日志写入时间,"%Y-%m-%d,%H:%M:%S“设定了时间的具体写入格式。
%(levelname)s表示记录日志的级别。
%(message)s表示记录日志的具体内容。
日志对象初始化
def initLog():
logger = logging.getLogger()
handler = logging.FileHandler("日志保存路径")
formatter = logging.Formatter("%(asctime)s %(levelname) %(message)s","%Y-%m-%d,%H:%M:%S")
handler.setFormatter(formatter)
logger.addHandler(handler)
logger.setLevel
写日志
logging.getLogger().info(), logging.getLogger().debug()......
2. 日志的分析。
(1)我的日志的内容。(log.txt)
2011-12-12,12:11:31 INFO Client1: 4356175.0 1.32366309133e+12 1.32366309134e+12
2011-12-12,12:11:33 INFO Client1: 4361320.0 1.32366309334e+12 1.32366309336e+12
2011-12-12,12:11:33 INFO Client0: 4361320.0 1.32366309389e+12 1.32366309391e+12
2011-12-12,12:11:39 INFO Client1: 4366364.0 1.32366309934e+12 1.32366309936e+12
2011-12-12,12:11:39 INFO Client0: 4366364.0 1.32366309989e+12 1.32366309991e+12
2011-12-12,12:11:43 INFO Client1: 4371416.0 1.32366310334e+12 1.32366310336e+12
2011-12-12,12:11:43 INFO Client0: 4371416.0 1.32366310389e+12 1.32366310391e+12
2011-12-12,12:11:49 INFO Client1: 4376450.0 1.32366310934e+12 1.32366310936e+12
我需要将上述内容逐行读出,并将三个时间戳提取出来,然后将其图形化。
(2) 文件操作以及字符串的分析。
打开文件,读取出一行日志。
file = file("日志路径",“r”)
while True:
line = file.readline()
if len(len) == 0:
break;
print line
file.close()
从字符串中提取数据。
字符串操作学习资料:
http://reader.you.com/sharelite?itemId=-4646262544179865983&method=viewSharedItemThroughLink&sharedBy=-1137845767117085734
从上面展示出来的日志内容可见,主要数据都是用空格分隔,所以需要使用字符串的
split函数对字符串进行分割:
paraList = line.split(),该函数默认的分割符是空格,返回值为一个list。
paraList[3], paraList[4], paraList[5]中分别以字符串形式存储着我需要的时间戳。
使用float(paraList[3])将字符串转化为浮点数。
(3)将日志图形化。
matplotlib是python的一个绘图库。我打算用它来将日志图形化。
matplotlib学习资料。
matplotlib的下载与安装:
http://yexin218.iteye.com/blog/645894
http://blog.csdn.Net/sharkw/article/details/1924949
对matplotlib的宏观介绍:
http://apps.hi..com/share/detail/21928578
对matplotlib具体使用的详细介绍:
http://blog.sina.com.cn/s/blog_4b5039210100ie6a.html
在matplotlib中设置线条的颜色和形状:
http://blog.csdn.net/kkxgx/article/details/python
如果想对matplotlib有一个全面的了解,就需要阅读教程《Matplotlib for Python developers》,教程下载地址:
http://download.csdn.net/detail/nmgfrank/4006691
使用实例
import matplotlib.pyplot as plt
listX = [] #保存X轴数据
listY = [] #保存Y轴数据
listY1 = [] #保存Y轴数据
file = file("../log.txt","r")#打开日志文件
while True:
line = file.readline()#读取一行日志
if len(line) == 0:#如果到达日志末尾,退出
break
paraList = line.split()
print paraList[2]
print paraList[3]
print paraList[4]
print paraList[5]
if paraList[2] == "Client0:": #在坐标图中添加两个点,它们的X轴数值是相同的
listX.append(float(paraList[3]))
listY.append(float(paraList[5]) - float(paraList[3]))
listY1.append(float(paraList[4]) - float(paraList[3]))
file.close()
plt.plot(listX,listY,'bo-',listX,listY1,'ro')#画图
plt.title('tile')#设置所绘图像的标题
plt.xlabel('time in sec')#设置x轴名称
plt.ylabel('delays in ms'')#设置y轴名称
plt.show()
⑺ Python日志—Python日志模块logging介绍
从事与软件相关工作的人,应该都听过“日志”一词。
日志就是跟踪软件运行时事件的方法,为了能够在程序运行过程中记录错误。
通过日志记录程序的运行,方便我们查询信息,以便追踪问题、进行维护和调试、还是数据分析。
并且各编程语言都形成了各自的日志体系和相应的框架。
日志的作用总结:
首先我们要树立一个观点,那就是“不是为了记录日志而记录日志,日志也不是随意记的”。要实现能够只通过日志文件还原整个程序执行的过程,达到能透明地看到程序里执行情况,每个线程每个过程到底执行结果的目的。日志就像飞机的黑匣子一样,应当能够复原异常的整个现场乃至细节。
在项目中,日志这个功能非常重要,我们要重视起来。
在Python中,使用logging模块来进行日志的处理。
logging是Python的内置模块,主要用于将日志信息进行格式化内容输出,可将格式化内容输出到文件,也可输出到屏幕。
我们在开发过程中,常用print()函数来进行调试,但是在实际应用的部署时,我们要将日志信息输出到文件中,方便后续查找以及备份。
在我们使用日志管理时,我们也可以将日志格式化成Json对象转存到ELK中方便图形化查看及管理。
logging模块将日志系统从高向低依次定义了四个类,分别是logger(日志器)、handler(处理器)、filter(过滤器)和formatter(格式器)。其中由日志器生成的实例将接管原本日志记录函数logging.log的功能。
说明:
我们先来思考下下面的两个问题:
在软件开发阶段或部署开发环境时,为了尽可能详细的查看应用程序的运行状态来保证上线后的稳定性,我们可能需要把该应用程序所有的运行日志全部记录下来进行分析,这是非常耗费机器性能的。
当应用程序正式发布或在生产环境部署应用程序时,我们通常只需要记录应用程序的异常信息、错误信息等,这样既可以减小服务器的I/O压力,也可以避免我们在排查故障时被淹没在日志的海洋里。
那么怎样才能在不改动应用程序代码的情况下,根据事件的重要性或者称之为等级,实现在不同的环境中,记录不同详细程度的日志呢?
这就是日志等级的作用了,我们通过配置文件指定我们需要的日志等级就可以了。
说明:
总结:
开发应用程序时或部署开发环境时,可以使用DEBUG或INFO级别的日志获取尽可能详细的日志信息,可以方便进行开发或部署调试。 应用上线或部署生产环境时,应用使用WARNING或ERROR或CRITICAL级别的日志,来降低机器的I/O压力和提高获取错误日志信息的效率。 日志级别的指定通常都是在应用程序的配置文件中进行指定的。 不同的应用程序所定义的日志等级会有所差别,根据实际需求来决定。
⑻ python常用的数据库有哪些
主流的关系型数据库:
1. MySQL:目前使用最广泛的开源、多平台的关系型数据库,支持事务、符合ACID、支持多数SQL规范。
2. SQL Server:支持事务、符合ACID、支持多数SQL规范,属于商业软件,需要注意版权和licence授权费用。
3. Oracle:支持事务,符合关系型数据库原理,符合ACID,支持多数SQL规范,功能最强大、最复杂、市场占比最高的商业数据库。
4. Postgresql:开源、多平台、关系型数据库,功能最强大的开源数据库,需要Python环境,基于postgresql的time
scaleDB,是目前比较火的时序数据库之一。
非关系型数据库
Redis:开源、Linux平台、key-value键值型nosql数据库,简单稳定,非常主流的、全数据in-momory,定位于快的键值型nosql数据库。
Memcaced:一个开源的、高性能的、具有分布式内存对象的缓存系统,通过它可以减轻数据库负载,加速动态的web应用。
面向文档数据库以文档的形式存储,每个文档是一系列数据项的集合,每个数据项有名称与对应的值,主要产品有:
MongoDB:开源、多平台、文档型nosql数据库,最像关系型数据库,定位于灵活的nosql数据库。适用于网站后台数据库、小文件系统、日志分析系统。
⑼ python 分析系统日志
这个不用做计划任务。直接用tail -f 文件名|grep executing too slow
这样就可以了。然后wc统计行数。
如果你一定要用python做。就使用文件对象中的seek方法,移到上次处理的位置。
⑽ python脚本分析/var/log/secure登录日志并处理
因为自己有服务器,发现/var/log/secure 日志中最近出现大量验证失败的日志,故找了个脚本跑了下,具体如下
创建成功后给脚本加执行权限后即可运行,默认将失败IP错误次数达到50次以上的就会加入到/etc/hosts.deny中进行拒绝连接处理。
建议将脚本增加crontab 定时任务自动处理,间隔10分钟处理一次