当前位置:首页 » 编程语言 » python的heap

python的heap

发布时间: 2023-09-15 10:04:19

‘壹’ python堆和栈的区别有哪些

堆(Heap)与栈(Stack)是开发人员必须面对的两个概念,在理解这两个概念时,需要放到具体的场景下,因为不同场景下,堆与栈代表不同的含义。一般情况下,有两层含义:
(1)程序内存布局场景下,堆与栈表示的是两种内存管理方式;
(2)数据结构场景下,堆与栈表示两种常用的数据结构。
相关推荐:《Python教程》
堆与栈实际上是操作系统对进程占用的内存空间的两种管理方式,主要有如下几种区别:
(1)管理方式不同。栈由操作系统自动分配释放,无需我们手动控制;堆的申请和释放工作由程序员控制,容易产生内存泄漏;
(2)空间大小不同。每个进程拥有的栈的大小要远远小于堆的大小。理论上,程序员可申请的堆大小为虚拟内存的大小,进程栈的大小 64bits 的 Windows 默认 1MB,64bits 的 Linux 默认 10MB;
(3)生长方向不同。堆的生长方向向上,内存地址由低到高;栈的生长方向向下,内存地址由高到低。
(4)分配方式不同。堆都是动态分配的,没有静态分配的堆。栈有2种分配方式:静态分配和动态分配。静态分配是由操作系统完成的,比如局部变量的分配。动态分配由alloca函数进行分配,但是栈的动态分配和堆是不同的,他的动态分配是由操作系统进行释放,无需我们手工实现。
(5)分配效率不同。栈由操作系统自动分配,会在硬件层级对栈提供支持:分配专门的寄存器存放栈的地址,压栈出栈都有专门的指令执行,这就决定了栈的效率比较高。堆则是由C/C++提供的库函数或运算符来完成申请与管理,实现机制较为复杂,频繁的内存申请容易产生内存碎片。显然,堆的效率比栈要低得多。
(6)存放内容不同。栈存放的内容,函数返回地址、相关参数、局部变量和寄存器内容等。当主函数调用另外一个函数的时候,要对当前函数执行断点进行保存,需要使用栈来实现,首先入栈的是主函数下一条语句的地址,即扩展指针寄存器的内容(EIP),然后是当前栈帧的底部地址,即扩展基址指针寄存器内容(EBP),再然后是被调函数的实参等,一般情况下是按照从右向左的顺序入栈,之后是被调函数的局部变量,注意静态变量是存放在数据段或者BSS段,是不入栈的。出栈的顺序正好相反,最终栈顶指向主函数下一条语句的地址,主程序又从该地址开始执行。堆,一般情况堆顶使用一个字节的空间来存放堆的大小,而堆中具体存放内容是由程序员来填充的。
从以上可以看到,堆和栈相比,由于大量malloc()/free()或new/delete的使用,容易造成大量的内存碎片,并且可能引发用户态和核心态的切换,效率较低。栈相比于堆,在程序中应用较为广泛,最常见的是函数的调用过程由栈来实现,函数返回地址、EBP、实参和局部变量都采用栈的方式存放。虽然栈有众多的好处,但是由于和堆相比不是那么灵活,有时候分配大量的内存空间,主要还是用堆。
无论是堆还是栈,在内存使用时都要防止非法越界,越界导致的非法内存访问可能会摧毁程序的堆、栈数据,轻则导致程序运行处于不确定状态,获取不到预期结果,重则导致程序异常崩溃,这些都是我们编程时与内存打交道时应该注意的问题。

‘贰’ Python对数据进行排序-中英文

sort_values(by,axis=0,ascending=True,inplace=False,kind='quicksort',na_position='last')

参数说明:

by:  可以填入字符串或者字符串组成的列表。也就是说, 如果axis=0,那么by="列名";如果axis=1,那么by="行名"。

axis:  {0 or ‘index’, 1 or ‘columns’}, default 0,意思就是如果 axis=0,就按照索引排序,即纵向排序;如果axis=1,则按列排序,即横向排序。默认是axis=0 。

ascending:  输入布尔型, True是升序 , False是降序 ,也可以可以是[True,False],即第一个字段升序,第二个字段降序 。

inplace : 输入布尔型,是否用排序后的数据框替换现有的数据框

kind:  排序的方法,{‘quicksort’, ‘mergesort’, ‘heapsort’},默认是使用‘quicksort’。这个参数用的比较少,大家可以试一试。

na_position :  {‘first’, ‘last’}, 缺失值的排序 ,也就说决定将缺失值放在数据的最前面还是最后面 。first是排在前面,last是排在后面,默认是用last 。

例子:

scores= pd.DataFrame([[87,56,85],[46,87,97],[34,65,86]],columns=['jack', 'rose', 'mike'])

scores

1.对‘rose’这一列进行降序排序:

df_sc=scores.sort_values(by='rose',ascending=False)

df_sc

2.对第0行进行升序排序:

scores.sort_values(by=0,axis=1,ascending=True)

3.第1行进行升序,第0行进行降序:

scores.sort_values(by=[1,0],axis=1,ascending=[True,False]

4.观察数据

data.head:

查看数据的前五行。

data.tail:

查看数据的后五行。

data.shape :

查看矩阵或数组的维数,或者是说数据表的结构(有几行几列)。

data.info :

查看数据的基本信息,如:数据类型、缺失值数量等。

#brand目标:中文-中英-英文

2.1 包含中文,纯英文

for i in range(0,len(file1)):

    result = re.compile(u'[\u4e00-\u9fa5]')

    contents = file1['brand'][i]

    match = result.search(contents)

    if match:

        file1.loc[i,['index1']]=0    #0为包含中文

    else:

        file1.loc[i,['index1']]=1    #1为纯英文

2.1 包含英文,纯中文

for i in range(0,len(file1)):

    file1.loc[i,['index2']]=len(re.findall('[a-zA-Z]+', file1['brand'][i]) )  #0为纯中文,1为包含英文

‘叁’ python中有哪些简单的算法

你好:
跟你详细说一下python的常用8大算法:
1、插入排序
插入排序的基本操作就是将一个数据插入到已经排好序的有序数据中,从而得到一个新的、个数加一的有序数据,算法适用于少量数据的排序,时间复杂度为O(n^2)。是稳定的排序方法。插入算法把要排序的数组分成两部分:第一部分包含了这个数组的所有元素,但将最后一个元素除外(让数组多一个空间才有插入的位置),而第二部分就只包含这一个元素(即待插入元素)。在第一部分排序完成后,再将这个最后元素插入到已排好序的第一部分中。
2、希尔排序
希尔排序(Shell Sort)是插入排序的一种。也称缩小增量排序,是直接插入排序算法的一种更高效的改进版本。希尔排序是非稳定排序算法。该方法因DL.Shell于1959年提出而得名。 希尔排序是把记录按下标的一定增量分组,对每组使用直接插入排序算法排序;随着增量逐渐减少,每组包含的关键词越来越多,当增量减至1时,整个文件恰被分成一组,算法便终止。
3、冒泡排序
它重复地走访过要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。
4、快速排序
通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据都比另外一部分的所有数据都要小,然后再按此方法对这两部分数据分别进行快速排序,整个排序过程可以递归进行,以此达到整个数据变成有序序列。
5、直接选择排序
基本思想:第1趟,在待排序记录r1 ~ r[n]中选出最小的记录,将它与r1交换;第2趟,在待排序记录r2 ~ r[n]中选出最小的记录,将它与r2交换;以此类推,第i趟在待排序记录r[i] ~ r[n]中选出最小的记录,将它与r[i]交换,使有序序列不断增长直到全部排序完毕。
6、堆排序
堆排序(Heapsort)是指利用堆积树(堆)这种数据结构所设计的一种排序算法,它是选择排序的一种。可以利用数组的特点快速定位指定索引的元素。堆分为大根堆和小根堆,是完全二叉树。大根堆的要求是每个节点的值都不大于其父节点的值,即A[PARENT[i]] >= A[i]。在数组的非降序排序中,需要使用的就是大根堆,因为根据大根堆的要求可知,最大的值一定在堆顶。
7、归并排序
归并排序是建立在归并操作上的一种有效的排序算法,该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。将已有序的子序列合并,得到完全有序的序列;即先使每个子序列有序,再使子序列段间有序。若将两个有序表合并成一个有序表,称为二路归并。
归并过程为:比较a[i]和a[j]的大小,若a[i]≤a[j],则将第一个有序表中的元素a[i]复制到r[k]中,并令i和k分别加上1;否则将第二个有序表中的元素a[j]复制到r[k]中,并令j和k分别加上1,如此循环下去,直到其中一个有序表取完,然后再将另一个有序表中剩余的元素复制到r中从下标k到下标t的单元。归并排序的算法我们通常用递归实现,先把待排序区间[s,t]以中点二分,接着把左边子区间排序,再把右边子区间排序,最后把左区间和右区间用一次归并操作合并成有序的区间[s,t]。
8、基数排序
基数排序(radix sort)属于“分配式排序”(distribution sort),又称“桶子法”(bucket sort)或bin sort,顾名思义,它是透过键值的部分资讯,将要排序的元素分配至某些“桶”中,借以达到排序的作用,基数排序法是属于稳定性的排序,其时间复杂度为O (nlog(r)m),其中r为所采取的基数,而m为堆数,在某些时候,基数排序法的效率高于其它的稳定性排序法。

‘肆’ Python headq模块浅析

参考:
heapq Documentation
浅析Python heapq模块 堆数据结构

在Python中也对堆这种数据结构进行了模块化,我们可以通过调用heapq模块来建立堆这种数据结构,同时heapq模块也提供了相应的方法来对堆做操作。

heap = [] #创建了一个空堆

item = heap[0] #查看堆中最小值,不弹出

heappush(heap,item) #往堆中插入一条新的值

item = heappop(heap) #从堆中弹出最小值, 如果堆为空报 IndexError 异常

heappushpop() #1.将值插入到堆中 2.弹出堆中的最小值。
P.S. 1. 可以保证弹出最小元素 2. 效率比先heappush再heappop快

heapify(x) #以线性时间讲一个列表转化为堆

item = heapreplace(heap,item) #弹出并返回最小值,然后将heapqreplace方法中item的值插入到堆中,堆的整体结构不会发生改变。如果堆为空报 IndexError 异常。 在需要保证堆大小不变的适合使用
P.S. 1. 弹出的元素可能比加入的item大 2. 效率比先heappop再heappush快

merge(*iterables, key=None, reverse=False) #合并多个堆然后输出

nlargest(n , iterbale, key=None) #从堆中找出做大的N个数,key的作用和sorted( )方法里面的key类似,用列表元素的某个属性和函数作为关键字

nsmallest(n, iterable, key=None) #找到堆中最小的N个数用法同上

该段为heapq Documentation里节选的翻译
堆作为数据结构在内存和二级缓存中充当了重要的角色。优先队列中也会经常使用堆,这也就给堆数据结构提出了很多挑战。例如内存中存放了数多个计划任务的时候我们可以定义一个数列list(priority,task)来保存在堆结构中。但是这样就出现了很多问题 :
1.排序的稳定性:当任务加入到堆中时,如果两个任务有同等的优先级,两个任务实际上在列表里是没什么区别的,那我怎么得到返回值?
2.在Python3以后的版本中,如果元组(priority,task)priority是一样的,而且task没有一个默认的比较参照值,那这样我们其实是没有办法来比较的。
3.如果一个任务的优先级发生了改变,那么我们如何来处理该任务在相应堆中优先级的变化,堆中位置肯定会改变。
4.如果一个任务因为要等待其他的任务(最简单的比方,等待父进程)而照成悬挂状态,我们如何在堆中去找到它并且做相应的操作(降低优先级或者删除该任务)

解决前两个问题的方法我们可以采用三元数组的方法。设置一个优先级,一个条目值,一个任务值。即使当两个任务有相同优先级的时候,因为条目值不一样可以帮助cpu来裁决它们被加载的顺序。
剩下需要解决的问题是如何找到被悬挂而推迟的任务,然后尝试去修改优先级或者永久删除这个任务。我们可以使用字典,来指向堆中某个任务的条目值。
最后就是删除操作,删除会改变堆的结构。为了保证堆结构的特性,我们可以标记已有将被删除的任务的条目值,然后将该任务重新打标加入到堆中。

‘伍’ Python高级数据结构——堆

在一个 最小堆 (min heap) 中,如果 P 是 C 的一个父级节点,那么 P 的 key(或 value) 应小于或等于 C 的对应值。 正因为此,堆顶元素一定是最小的,我们会利用这个特点求最小值或者第 k 小的值。

在一个 最大堆 (max heap) 中,P 的 key(或 value) 大于或等于 C 的对应值。

以python为例,说明堆的几个常见操作,这里需要用到一个内置的包:heapq

python中使用堆是通过传入一个数组,然后调用一个函数,在原地让传入的数据具备堆的特性

需要注意的是,heapify默认构造的是小顶堆(min heap),如果要构造大顶堆,思路是把所有的数值倒转,既* -1,例如:

使用heapq提供的函数: heappop 来实现

具体使用方式参考 初始化Heapify

使用heapq提供的函数: heappush 来实现

同时heapq还提供另外一个函数: heappushpop ,能够在一个函数实现push&pop两个操作;顺序是:先push再pop

根据官方文档的描述,这个函数会比先在外围先调用heappush,再调用heappop,效率更高

先pop数据再push数据,和heappushpop的顺序是反着的; 同样的,这样调用的性能也会比先调用heappop再调用heappush更好

如果pop的时候队列是空的,会抛出一个异常

可以通过 heapq.merge 将多个 已排序 的输入合并为一个已排序的输出,这个本质上不是堆;其实就是用两个指针迭代

对于这个问题,有一个算法题可以实现相同的功能

从 iterable 所定义的数据集中返回前 n 个最大/小元素组成的列表。

函数为: heapq.nlargest() | heapq.nsmallest()

heapq - Heap queue algorithm - Python 3.10.4 documentation

热点内容
滑板鞋脚本视频 发布:2025-02-02 09:48:54 浏览:432
群晖怎么玩安卓模拟器 发布:2025-02-02 09:45:23 浏览:557
三星安卓12彩蛋怎么玩 发布:2025-02-02 09:44:39 浏览:743
电脑显示连接服务器错误 发布:2025-02-02 09:24:10 浏览:536
瑞芯微开发板编译 发布:2025-02-02 09:22:54 浏览:146
linux虚拟机用gcc编译时显示错误 发布:2025-02-02 09:14:01 浏览:232
java驼峰 发布:2025-02-02 09:13:26 浏览:651
魔兽脚本怎么用 发布:2025-02-02 09:10:28 浏览:532
linuxadobe 发布:2025-02-02 09:09:43 浏览:212
sql2000数据库连接 发布:2025-02-02 09:09:43 浏览:726