python操作es
❶ python-ES即时刷新file system cache
概要
原理
解决
对于需要写入后实时查询的数据,可以通过手动 refresh 操作将 memory buffer 的数据立即写入到 File system cache 。当然,该解决方案的代价就是降低了ES的写性能。
源码提供的方法支持refresh参数,默认False,可传True,wait_for。
wait_for:只影响当前用户处理的请求,其他用户并发的操作并不影响;
true:影响所有用户正在处理的请求,会更新所有分片,效率最低;
false:更新数据之后不立刻刷新,在返回结果之后的某个时间点会自动刷新,也就是随机的;
实时性要求较高,牺牲效率满足。
应用场景,根据自己项目需求来。
❷ python查询ES
注意:elasticsearch 的版本不能太高,建议安装7.13.0
pip install elasticsearch ==7.13.0
from elasticsearch import Elasticsearch
import logging
logger = logging.getLogger("inquiry_es")
logging.basicConfig(filename="logs/logging.txt",
level=logging.INFO,
format='{"time":"%(asctime)s","script":"%(name)s","thread":"%(thread)d",'
'"threadName":"%(threadName)s","loglevel":"%(levelname)s"} - %(message)s')
class search_es:
def __init__(self,host,port="9200",user=None,passwd=None):
self.host = host
self.user = user
self.passwd = passwd
self.port = port
self.es = Elasticsearch([f"{self.host}:{self.port}"]) if user is None else \
Elasticsearch([f"{self.host}:{self.port}"],http_auth=(self.user, self.passwd))
# 获取所有的index
def get_indices(self):
# for index in self.es.indices.get('*'):
# print(index)
# indices = self.es.indices.get('*')
indices = self.es.indices.get_alias().keys()
indices = sorted(indices)
# print(indices)
return indices
# 查询index
def get_es(self,index,body={"size":10000,"query": {"match_all":{}}}):
"""
提交查询参数,返回结果
:return: es_data
"""
try:
logger.info(f"开始查询:{index}")
# print(self.es.index)
es_data = self.es.search(index=index, body=body)
logger.info(es_data)
return es_data
except Exception as e:
logger.error(f"error:{e}", exc_info=True, stack_info=True)
return {}
❸ espython索引保存到文件
、es库连接
from elasticsearch import Elasticsearch
es = Elasticsearch(["x.x.x.x: 9200"])
2、将文档(txt、word、excel)内容存入到es库
存储思路:不同类型的文档设置不同的额索引名称,从es库中查询文档时相对比较方便,将文件名称、文件内容处理成字符串存入到es库
文件内容读取方式:
word文档使用 Document() 方法;txt文档使用open()方法;excel使用 xlrd.open_workbook()方法
3、根据关键字从es库获取到相关文档
将关键字参数放在es.search()方法中即可查询到在哪些文档中出现过该关键字
es.search(index="XX", doc_type="XX", body={"query": {"match": {"word_info": "关键字参数"}}}, filter_path=['hits.hits._source'])
❹ pythones关闭连接
在try中进行ssh连接及sftp连接,并进行连接后的操作,except中捕获异常,finally中无论两个连接对象获取是否成功都会执行,关闭ssh及sftp连接。
先使用hasattr方法及callable判断对象是否存在close方法且是否可调用,再调用close方法关闭连接对象,避免某个连接失败时调用close方法出现错误。
以上方式同样适用于其他连接,比如MySQL的连接对象及游标对象的关闭。
❺ python3种数据类型
Python3 中有六个标准的数据类型:Number(数字) + String(字符串) + List(列表) + Tuple(元组) + Sets(集合) + Dictionary(字典)。
Number(数字)
数字类型是顾名思义是用来存储数值的,需要记住的是,有点和Java的字符串味道差不多,如果改变了数字数据类型的值,将重新分配内存空间。
可以使用del语句删除一些数字对象的引用:del var1[,var2[,var3[....,varN]]]]。
Python 支持三种不同的数值类型:
1.整型(Int) - 通常被称为是整型或整数,是正或负整数,不带小数点。Python3 整型是没有限制大小的,可以当作 Long 类型使用,所以 Python3 没有 Python2 的 Long 类型。
2.浮点型(float) - 浮点型由整数部分与小数部分组成,浮点型也可以使用科学计数法表示(2.5e2 = 2.5 x 102 = 250)
3.复数( (complex)) - 复数由实数部分和虚数部分构成,可以用a + bj,或者complex(a,b)表示, 复数的实部a和虚部b都是浮点型。
数字类型转换
1.int(x) 将x转换为一个整数。
2.float(x) 将x转换到一个浮点数。
3.complex(x) 将x转换到一个复数,实数部分为 x,虚数部分为 0。
4.complex(x, y) 将 x 和 y 转换到一个复数,实数部分为 x,虚数部分为 y。x 和 y 是数字表达式。
额外说明
和别的语言一样,数字类型支持各种常见的运算,不过python的运算比别的大多数常见语言都更加丰富,此外,还有大量丰富的方法,提供更高效的开发。
String(字符串)
创建字符串
创建字符串可以使用单引号、双引号、三单引号和三双引号,其中三引号可以多行定义字符串,有点类似ES6中的反引号。
Python 不支持单字符类型,单字符也在Python也是作为一个字符串使用。
访问字符串中的值
和ES一样,可以使用方括号来截图字符串,例子如下:
val_str='yelloxing'
print(val_str[0]) #y
print(val_str[1:3]) #el
print(val_str[:3]) #yel
print(val_str[:5]) #yello
字符串运算符
除了上面已经说明的方括号,还有一些别的字符串运算,具体查看文档。
字符串格式化
temp="我叫 %s 今年 %d 岁!" % ('心叶', 7)
print('['+temp+']') #[我叫 心叶 今年 7 岁!]
如上所示,字符串支持格式化,当然,出来上面用到的%s和%d以外,还有一些别的,具体看文档;是不是感觉有点C语言的味道。
额外说明
所有的字符串都是Unicode字符串(针对python3),有很多有用的方法,真的很有ES和C结合体的味道。
List(列表)
序列是Python中最基本的数据结构。序列中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推。
Python有6个序列的内置类型(列表、元组、字符串、Unicode字符串、buffer对象和xrange对象)。
列表其实类似数组,具体的一些操作就很像字符串(类似ES中数组和字符串的关系)。
常见运算
下面用一个例子来展示一些常见的运算:
val_arr=['Made','in','China']
del val_arr[1]
print(val_arr) #['Made', 'China']
print(len(val_arr)) #2
val_newarr=val_arr+[':information']
print(val_newarr) #['Made', 'China', ':information']
val_arr=val_arr*2
print(val_arr) #['Made', 'China', 'Made', 'China']
print('in' in val_arr) #False
print('Made' in val_arr) #True
for row in val_newarr:
print(row, end=" - ") #Made - China - :information -
print(val_newarr[-1]) #:information
print(val_newarr[1:]) #['China', ':information']
再来看一个有用的例子:
cols=3
rows=2
list_2d = [[0 for col in range(cols)] for row in range(rows)]
print(list_2d) #[[0, 0, 0], [0, 0, 0]]
嵌套列表
使用嵌套列表即在列表里创建其它列表,例如:
loop_arr=['yelloxing','心叶']
result_arr=[loop_arr,'同级别']
print(result_arr) #[['yelloxing', '心叶'], '同级别']
列表的嵌套就很灵活,此外随便提一下:和前面说的一样,也有很多方法提供高效的开发。
Tuple(元组)
元组与列表类似,不同之处在于元组的元素不能修改,元组使用小括号,列表使用方括号。
创建
元组中只包含一个元素时,需要在元素后面添加逗号,否则括号会被当作运算符使用
tup1 = ('Google', 'Runoob', 1997, 2000);
tup2 = (1, 2, 3, 4, 5 );
tup3 = "a", "b", "c", "d";
print(tup1) #('Google', 'Runoob', 1997, 2000)
print(tup2) #(1, 2, 3, 4, 5)
print(tup3) #('a', 'b', 'c', 'd')
基本操作
和列表的操作很相似,下面说一个几天特殊的地方:
1.del可以删除某个元组,不过不可以删除元组的某个条目。
2.不可以修改,或许元组会更快,感觉的,没有实际测试。
3.由于元组不可以修改,虽然同样有一些方法,不过和修改相关的方法就没有了。
Sets(集合)
回想一下数学里面的集合,合、交、差、补等运算是不是一下子回想起来了,这里的集合也有这些方法。
和Java的集合类似,一个无序不重复元素集(与列表和元组不同,集合是无序的,也无法通过数字进行索引)。
更具体的说明,如果必要会在单独说明。
Dictionary(字典)
字典是另一种可变容器模型,且可存储任意类型对象。
字典的每个键值(key=>value)对用冒号(:)分割,每个对之间用逗号(,)分割,整个字典包括在花括号({})中,键必须是唯一的,但值则不必。
和ES中的JSON的差不多,操作也很像,不过区别也很大,内置方法很多,具体还是一样,看文档去。
删除字典元素
可以用del删除一个条目或字典,也可以用clear()方法清空字典(比如现在有字段dict,就是:dict.clear())。
❻ python自带及pandas、numpy数据结构(一)
1.python自带数据结构:序列(如list)、映射(如字典)、集合(set)。
以下只介绍序列中的list:
创建list:
list1 = []
list1 = [1,2,3,4,5,6,7,8,9] #逗号隔开
list2 = [[1,2],[3,4],[5,6],[7,8]] #list2长度(len(list2))为2,list2[0] = [1,2]
liststring = list(“thisisalist”) #只用于创建字符串行表
索引list:
e = list1[0] #下标从零开始,用中括号
分片list:
es = list1[0:3]
es = list1[0:9:2] #步长在第二个冒号后
list拼接(list1.append(obj)、加运算及乘运算):
list长度:
list每个元素乘一个数值:
list2 = numpy.dot(list2,2)
list类似矩阵相乘(每个元素对应相乘取和):
list3 = numpy.dot(list1,list1)
#要求相乘的两个list长度相同
list3 = numpy.dot(list2,list22)
#要求numpy.shape(list2)和numpy.shape(list22)满足“左行等于右列”的矩阵相乘条件,相乘结果numpy.shape(list3)满足“左列右行”
2.numpy数据结构:
Array:
产生array:
data=np.array([[1, 9, 6], [2, 8, 5], [3, 7, 4]])
data=np.array(list1)
data1 = np.zeros(5) #data1.shape = (5,),5列
data1 = np.eye(5)
索引array:
datacut = data[0,2] #取第零行第二列,此处是6
切片array:
datacut = data[0:2,2] # array([6, 5])
array长度:
data.shape
data.size
np.shape(data)
np.size(data)
len(data)
array拼接:
#括号内也有一个括号(中括号或者小括号)!
d = np.concatenate((data,data))
d = np.concatenate((data,data),axis = 1) #对应行拼接
array加法:逐个相加
array乘法:
d = data data #逐个相乘
d = np.dot(data,data) #矩阵相乘
d = data 3 #每个元素乘3
d = np.dot(data,3) #每个元素乘3
array矩阵运算:
取逆 : np.linalg.inv(data)
转置:data.T
所有元素求和 : np.sum(data)
生成随机数:np.random.normal(loc=0, scale=10, size=None)
生成标准正态分布随机数组:np.random.normal(size=(4,4))
生成二维随机数组:
np.random.multivariate_normal([0,0],np.eye(2))
生成范围在0到1之间的随机矩阵(M,N):
np.random.randint(0,2,(M,N))
Matrix:
创建matrix:
mat1 = np.mat([[1, 2, 3], [4, 5, 6]])
mat1 = np.mat(list)
mat1 = np.mat(data)
matrix是二维的,所有+,-,*都是矩阵操作。
matrix索引和分列:
mat1[0:2,1]
matrix转置:
np.transpose(mat1)
mat1.transpose()
matrix拼接:
np.concatenate([mat1,mat1])
np.concatenate([mat1,mat1],axis = 1)
numpy数据结构总结:对于numpy中的数据结构的操作方法基本相同:
创建:np.mat(list),np.array(list)
矩阵乘:np.dot(x,y)
转置:x.T or np.transpose(x)
拼接:np.concatenate([x,y],axis = 1)
索引:mat[0:1,4],ary[0:1,4]
3.pandas数据结构:
Series:
创建series:
s = pd.Series([[1,2,3],[4,5,6]],index = [‘a’,‘b’])
索引series:
s1 = s[‘b’]
拼接series:
pd.concat([s1,s1],axis = 1) #也可使用s.append(s)
DataFrame:
创建DaraFrame:
df = pd.DataFrame([[1,2,3],[1,2,3]],index = ['a','b'],columns = ['x','y','z'])
df取某一列:
dfc1 =df.x
dfc1 = df[‘x’]
dfc2 = df.iloc[:,0] #用.iloc方括号里是数字而不是column名!
dfc2 = df.iloc[:,0:3]
df取某一行:
dfr1 = df.iloc[0]
df1 = df.iloc[0:2]
df1 = df[0:2] #这种方法只能用于取一个区间
df取某个值:
dfc2 = df.iloc[0,0]
dfc2 = df.iloc[0:2,0:3]