python索引排序
㈠ python倒排索引(Inverted index)
s=raw_input()
lines=s.split(' ')
dictlines=lines[:100]
mydict={}
#read
fori,lineinenumerate(dictlines):
forwordinline.split():
mydict.setdefault(word,[]).append(i+1)
#printindices
forwordinmydict.keys():
print"%s:%s"%(word,",".join(map(str,sorted(mydict[word]))))
defandSearch(words_list):
globalmydict
a=set(range(1,101))
forwordinwords_list:
a=a.intersection(set(mydict[word]))
returna
deforSearch(words_list):
globalmydict
a=set([])
forwordinwords_list:
a=a.union(set(mydict[word]))
returna
#Query
index=100
u=lines[index]
whileindex<len(lines):
words_list=u.split()
if":"inu:
ifwords_list[0]=="OR:":
a=orSearch(words_list)
else:
ifwords_list[0]=='AND:':
words_list=words_list[1:]
a=andSearch(words_list)
ifnota:
print",".join(map(str,list(a)))
else:
print"None"
index+=1
大致思想就是这样。。。。。。。。
㈡ python 中sort—values函数
一、sort_values()函数用途
pandas中的sort_values()函数原理类似于SQL中的order by,可以将数据集依照某个字段中的数据进行排序,该函数即可根据指定列数据也可根据指定行的数据排序。
二、sort_values()函数的具体参数
用法:
1DataFrame.sort_values(by=‘##',axis=0,ascending=True, inplace=False, na_position=‘last')
参数说明
by指定列名(axis=0或'index')或索引值(axis=1或'columns')
axis若axis=0或'index',则按照指定列中数据大小排序;若axis=1或'columns',则按照指定索引中数据大小排序,默认axis=0
ascending是否按指定列的数组升序排列,默认为True,即升序排列
inplace是否用排序后的数据集替换原来的数据,默认为False,即不替换
na_position{‘first',‘last'},设定缺失值的显示位置
三、sort_values用法举例
创建数据框
#利用字典dict创建数据框
import numpy as np
import pandas as pd
㈢ python几种经典排序方法的实现
class SortMethod:
'''
插入排序的基本操作就是将一个数据插入到已经排好序的有序数据中,从而得到一个新的、个数加一的有序数据,算法适用于少量数据的排序,时间复杂度为O(n^2)。是稳定的排序方法。
插入算法把要排序的数组分成两部分:
第一部分包含了这个数组的所有元素,但将最后一个元素除外(让数组多一个空间才有插入的位置)
第二部分就只包含这一个元素(即待插入元素)。
在第一部分排序完成后,再将这个最后元素插入到已排好序的第一部分中。
'''
def insert_sort(lists):
# 插入排序
count = len(lists)
for i in range(1, count):
key = lists[i]
j = i - 1
while j >= 0:
if lists[j] > key:
lists[j + 1] = lists[j]
lists[j] = key
j -= 1
return lists
'''
希尔排序 (Shell Sort) 是插入排序的一种。也称缩小增量排序,是直接插入排序算法的一种更高效的改进版本。希尔排序是非稳定排序算法。该方法因 DL.Shell 于 1959 年提出而得名。
希尔排序是把记录按下标的一定增量分组,对每组使用直接插入排序算法排序;随着增量逐渐减少,每组包含的关键词越来越多,当增量减至 1 时,整个文件恰被分成一组,算法便终止。
'''
def shell_sort(lists):
# 希尔排序
count = len(lists)
step = 2
group = count / step
while group > 0:
for i in range(0, group):
j = i + group
while j < count:
k = j - group
key = lists[j]
while k >= 0:
if lists[k] > key:
lists[k + group] = lists[k]
lists[k] = key
k -= group
j += group
group /= step
return lists
'''
冒泡排序重复地走访过要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。
'''
def bubble_sort(lists):
# 冒泡排序
count = len(lists)
for i in range(0, count):
for j in range(i + 1, count):
if lists[i] > lists[j]:
temp = lists[j]
lists[j] = lists[i]
lists[i] = temp
return lists
'''
快速排序
通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据都比另外一部分的所有数据都要小,然后再按此方法对这两部分数据分别进行快速排序,整个排序过程可以递归进行,以此达到整个数据变成有序序列
'''
def quick_sort(lists, left, right):
# 快速排序
if left >= right:
return lists
key = lists[left]
low = left
high = right
while left < right:
while left < right and lists[right] >= key:
right -= 1
lists[left] = lists[right]
while left < right and lists[left] <= key:
left += 1
lists[right] = lists[left]
lists[right] = key
quick_sort(lists, low, left - 1)
quick_sort(lists, left + 1, high)
return lists
'''
直接选择排序
第 1 趟,在待排序记录 r[1] ~ r[n] 中选出最小的记录,将它与 r[1] 交换;
第 2 趟,在待排序记录 r[2] ~ r[n] 中选出最小的记录,将它与 r[2] 交换;
以此类推,第 i 趟在待排序记录 r[i] ~ r[n] 中选出最小的记录,将它与 r[i] 交换,使有序序列不断增长直到全部排序完毕。
'''
def select_sort(lists):
# 选择排序
count = len(lists)
for i in range(0, count):
min = i
for j in range(i + 1, count):
if lists[min] > lists[j]:
min = j
temp = lists[min]
lists[min] = lists[i]
lists[i] = temp
return lists
'''
堆排序 (Heapsort) 是指利用堆积树(堆)这种数据结构所设计的一种排序算法,它是选择排序的一种。
可以利用数组的特点快速定位指定索引的元素。堆分为大根堆和小根堆,是完全二叉树。大根堆的要求是每个节点的值都不大于其父节点的值,即 A[PARENT[i]] >= A[i]。
在数组的非降序排序中,需要使用的就是大根堆,因为根据大根堆的要求可知,最大的值一定在堆顶。
'''
# 调整堆
def adjust_heap(lists, i, size):
lchild = 2 * i + 1
rchild = 2 * i + 2
max = i
if i < size / 2:
if lchild < size and lists[lchild] > lists[max]:
max = lchild
if rchild < size and lists[rchild] > lists[max]:
max = rchild
if max != i:
lists[max], lists[i] = lists[i], lists[max]
adjust_heap(lists, max, size)
# 创建堆
def build_heap(lists, size):
for i in range(0, (size/2))[::-1]:
adjust_heap(lists, i, size)
# 堆排序
def heap_sort(lists):
size = len(lists)
build_heap(lists, size)
for i in range(0, size)[::-1]:
lists[0], lists[i] = lists[i], lists[0]
adjust_heap(lists, 0, i)
'''
归并排序是建立在归并操作上的一种有效的排序算法,该算法是采用分治法 (Divide and Conquer) 的一个非常典型的应用。将已有序的子序列合并,得到完全有序的序列;即先使每个子序列有序,再使子序列段间有序。若将两个有序表合并成一个有序表,称为二路归并。
归并过程为:
比较 a[i] 和 a[j] 的大小,若 a[i]≤a[j],则将第一个有序表中的元素 a[i] 复制到 r[k] 中,并令 i 和 k 分别加上 1;
否则将第二个有序表中的元素 a[j] 复制到 r[k] 中,并令 j 和 k 分别加上 1,如此循环下去,直到其中一个有序表取完,然后再将另一个有序表中剩余的元素复制到 r 中从下标 k 到下标 t 的单元。归并排序的算法我们通常用递归实现,先把待排序区间 [s,t] 以中点二分,接着把左边子区间排序,再把右边子区间排序,最后把左区间和右区间用一次归并操作合并成有序的区间 [s,t]。
'''
def merge(left, right):
i, j = 0, 0
result = []
while i < len(left) and j < len(right):
if left[i] <= right[j]:
result.append(left[i])
i += 1
else:
result.append(right[j])
j += 1
result += left[i:]
result += right[j:]
return result
def merge_sort(lists):
# 归并排序
if len(lists) <= 1:
return lists
num = len(lists) / 2
left = merge_sort(lists[:num])
right = merge_sort(lists[num:])
return merge(left, right)
'''
基数排序 (radix sort) 属于“分配式排序” (distribution sort),又称“桶子法” (bucket sort) 或 bin sort,顾名思义,它是透过键值的部份资讯,将要排序的元素分配至某些“桶”中,借以达到排序的作用,基数排序法是属于稳定性的排序。
其时间复杂度为 O (nlog(r)m),其中 r 为所采取的基数,而 m 为堆数,在某些时候,基数排序法的效率高于其它的稳定性排序法。
'''
import math
def radix_sort(lists, radix=10):
k = int(math.ceil(math.log(max(lists), radix)))
bucket = [[] for i in range(radix)]
for i in range(1, k+1):
for j in lists:
bucket[j/(radix**(i-1)) % (radix**i)].append(j)
del lists[:]
for z in bucket:
lists += z
del z[:]
return lists
---------------------
作者:CRazyDOgen
来源:CSDN
原文:https://blog.csdn.net/jipang6225/article/details/79975312
版权声明:本文为博主原创文章,转载请附上博文链接!
㈣ index在python中的用法
语法:list.index(x[,start[,end]])。index() 函数用于从列表中找出某个值第一个匹配项的索引位置。
x-- 查找的对象。
start-- 可选,查找的起始位置。
end-- 可选,查找的结束位置。
返回值:该方法返回查找对象的索引位置,如果没有找到对象则抛出异常。
实例代码:
str1 = "this is string example....wow!!!"
str2 = "exam"
print(str1.index(str2))
如果要对数据库表中一列或多列的值进行排序,使用索引可快速访问数据库表中的特定信息。例如想按特定职员的姓来查找他或她,则与在表中搜索所有的行相比,索引有助于更快地获取信息。如果没有索引,必须遍历整个表,就会很麻烦。在python中,也有对列表做索引的函数,就是index() 函数。
excel中的 INDEX
INDEX(array, row_num, [column_num])
返回表格或数组中的元素值,此元素由行号和列号的索引值给定。当函数 INDEX 的第一个参数为数组常量时,使用数组形式。
Array必需。单元格区域或数组常量。
如果数组只包含一行或一列,则相对应的参数 row_num 或 column_num 为可选参数。
如果数组有多行和多列,但只使用 row_num 或 column_num,函数 INDEX 返回数组中的整行或整列,且返回值也为数组。
Row_num必需。选择数组中的某行,函数从该行返回数值。如果省略 row_num,则必须有 column_num。
Column_num可选。选择数组中的某列,函数从该列返回数值。如果省略 column_num,则必须有 row_num。
㈤ 面试官常问十大经典算法排序(用Python实现)
算法是一种与语言无关的东西,更确切地说就算解决问题的思路,就是一个通用的思想的问题。代码本身不重要,算法思想才是重中之重
我们在面试的时候总会被问到一下算法,虽然算法是一些基础知识,但是难起来也会让人非常头疼。
排序算法应该算是一些简单且基础的算法,但是我们可以从简单的算法排序锻炼我们的算法思维。这里我就介绍经典十大算法用python是怎么实现的。
十大经典算法可以分为两大类:
比较排序: 通过对数组中的元素进行比较来实现排序。
非比较排序: 不通过比较来决定元素间的相对次序。
算法复杂度
冒泡排序比较简单,几乎所有语言算法都会涉及的冒泡算法。
基本原理是两两比较待排序数据的大小 ,当两个数据的次序不满足顺序条件时即进行交换,反之,则保持不变。
每次选择一个最小(大)的,直到所有元素都被输出。
将第一个元素逐个插入到前面的有序数中,直到插完所有元素为止。
从大范围到小范围进行比较-交换,是插入排序的一种,它是针对直接插入排序算法的改进。先对数据进行预处理,使其基本有序,然后再用直接插入的排序算法排序。
该算法是采用 分治法 对集合进行排序。
把长度为n的输入序列分成两个长度为n/2的子序列,对这两个子序列分别采用归并排序,最终合并成序列。
选取一个基准值,小数在左大数在在右。
利用堆这种数据结构所设计的一种排序算法。
堆是一个近似完全二叉树的结构,并同时满足堆积的性质:即子结点的键值或索引总是小于(或者大于)它的父节点。利用最大堆和最小堆的特性。
采用字典计数-还原的方法,找出待排序的数组中最大和最小的元素,统计数组中每个值为i的元素出现的次数,对所有的计数累加,将每个元素放在新数组依次排序。
设置一个定量的数组当作空桶;遍历输入数据,并且把数据一个一个放到对应的桶里去;对每个不是空的桶进行排序;从不是空的桶里把排好序的数据拼接起来。
元素分布在桶中:
然后,元素在每个桶中排序:
取得数组中的最大数,并取得位数;从最低位开始取每个位组成新的数组;然后进行计数排序。
上面就是我整理的十大排序算法,希望能帮助大家在算法方面知识的提升。看懂之后可以去试着自己到电脑上运行一遍。最后说一下每个排序是没有调用数据的,大家记得实操的时候要调用。
参考地址:https://www.runoob.com/w3cnote/ten-sorting-algorithm.html
㈥ python中x.sort(key=y.index)的index是什么意思其中x和y都是参数。
不能输入代码,只有截图。
以截图为例,a是乱序列表,b是示例列表,c是排序结果。
c.sort(key=b.index)表示,将c中的元素排序,排序的依据是c中元素在b中的序号。
㈦ Python对数据进行排序-中英文
sort_values(by,axis=0,ascending=True,inplace=False,kind='quicksort',na_position='last')
参数说明:
by: 可以填入字符串或者字符串组成的列表。也就是说, 如果axis=0,那么by="列名";如果axis=1,那么by="行名"。
axis: {0 or ‘index’, 1 or ‘columns’}, default 0,意思就是如果 axis=0,就按照索引排序,即纵向排序;如果axis=1,则按列排序,即横向排序。默认是axis=0 。
ascending: 输入布尔型, True是升序 , False是降序 ,也可以可以是[True,False],即第一个字段升序,第二个字段降序 。
inplace : 输入布尔型,是否用排序后的数据框替换现有的数据框
kind: 排序的方法,{‘quicksort’, ‘mergesort’, ‘heapsort’},默认是使用‘quicksort’。这个参数用的比较少,大家可以试一试。
na_position : {‘first’, ‘last’}, 缺失值的排序 ,也就说决定将缺失值放在数据的最前面还是最后面 。first是排在前面,last是排在后面,默认是用last 。
例子:
scores= pd.DataFrame([[87,56,85],[46,87,97],[34,65,86]],columns=['jack', 'rose', 'mike'])
scores
1.对‘rose’这一列进行降序排序:
df_sc=scores.sort_values(by='rose',ascending=False)
df_sc
2.对第0行进行升序排序:
scores.sort_values(by=0,axis=1,ascending=True)
3.第1行进行升序,第0行进行降序:
scores.sort_values(by=[1,0],axis=1,ascending=[True,False]
4.观察数据
data.head:
查看数据的前五行。
data.tail:
查看数据的后五行。
data.shape :
查看矩阵或数组的维数,或者是说数据表的结构(有几行几列)。
data.info :
查看数据的基本信息,如:数据类型、缺失值数量等。
#brand目标:中文-中英-英文
2.1 包含中文,纯英文
for i in range(0,len(file1)):
result = re.compile(u'[\u4e00-\u9fa5]')
contents = file1['brand'][i]
match = result.search(contents)
if match:
file1.loc[i,['index1']]=0 #0为包含中文
else:
file1.loc[i,['index1']]=1 #1为纯英文
2.1 包含英文,纯中文
for i in range(0,len(file1)):
file1.loc[i,['index2']]=len(re.findall('[a-zA-Z]+', file1['brand'][i]) ) #0为纯中文,1为包含英文