pythonsetget
① python里怎麼區分get和getall
看返回。python里區分get和getall看返回,getall返回的是QuerySet,get返回的是模型對象,從QuerySet中獲取對象可通過forin的形式遍歷,之後通過對象獲取對象的具體值,get返回的是對象,直接調用訪問對象成員即可。
② Python中tkinter包如何提取文本框文字到函數之外
這個要看你的代碼上下文,也就是具體的語境。
1、拿鍵你可以用一個全局的變數,get到的內容寫進這變數。外部函數直接訪枯衡問這個變數即可。
2、也可以用一個全局的變數來接收你的文本框對象。那麼就可以再外邊函沒敏做數,通過這個引用,來調用文本框的get方法
③ 如何用Python做爬蟲
1)首先你要明白爬蟲怎樣工作。
想像你是一隻蜘蛛,現在你被放到了互聯「網」上。那麼,你需要把所有的網頁都看一遍。怎麼辦呢?沒問題呀,你就隨便從某個地方開始,比如說人民日報的首頁,這個叫initial pages,用$表示吧。
在人民日報的首頁,你看到那個頁面引向的各種鏈接。於是你很開心地從爬到了「國內新聞」那個頁面。太好了,這樣你就已經爬完了倆頁面(首頁和國內新聞)!暫且不用管爬下來的頁面怎麼處理的,你就想像你把這個頁面完完整整抄成了個html放到了你身上。
突然你發現, 在國內新聞這個頁面上,有一個鏈接鏈回「首頁」。作為一隻聰明的蜘蛛,你肯定知道你不用爬回去的吧,因為你已經看過了啊。所以,你需要用你的腦子,存下你已經看過的頁面地址。這樣,每次看到一個可能需要爬的新鏈接,你就先查查你腦子里是不是已經去過這個頁面地址。如果去過,那就別去了。
好的,理論上如果所有的頁面可以從initial page達到的話,那麼可以證明你一定可以爬完所有的網頁。
那麼在python里怎麼實現呢?
很簡單
import Queue
initial_page = "初始化頁"
url_queue = Queue.Queue()
seen = set()
seen.insert(initial_page)
url_queue.put(initial_page)
while(True): #一直進行直到海枯石爛
if url_queue.size()>0:
current_url = url_queue.get() #拿出隊例中第一個的url
store(current_url) #把這個url代表的網頁存儲好
for next_url in extract_urls(current_url): #提取把這個url里鏈向的url
if next_url not in seen:
seen.put(next_url)
url_queue.put(next_url)
else:
break
寫得已經很偽代碼了。
所有的爬蟲的backbone都在這里,下面分析一下為什麼爬蟲事實上是個非常復雜的東西——搜索引擎公司通常有一整個團隊來維護和開發。
2)效率
如果你直接加工一下上面的代碼直接運行的話,你需要一整年才能爬下整個豆瓣的內容。更別說Google這樣的搜索引擎需要爬下全網的內容了。
問題出在哪呢?需要爬的網頁實在太多太多了,而上面的代碼太慢太慢了。設想全網有N個網站,那麼分析一下判重的復雜度就是N*log(N),因為所有網頁要遍歷一次,而每次判重用set的話需要log(N)的復雜度。OK,OK,我知道python的set實現是hash——不過這樣還是太慢了,至少內存使用效率不高。
通常的判重做法是怎樣呢?Bloom Filter. 簡單講它仍然是一種hash的方法,但是它的特點是,它可以使用固定的內存(不隨url的數量而增長)以O(1)的效率判定url是否已經在set中。可惜天下沒有白吃的午餐,它的唯一問題在於,如果這個url不在set中,BF可以100%確定這個url沒有看過。但是如果這個url在set中,它會告訴你:這個url應該已經出現過,不過我有2%的不確定性。注意這里的不確定性在你分配的內存足夠大的時候,可以變得很小很少。一個簡單的教程:Bloom Filters by Example
注意到這個特點,url如果被看過,那麼可能以小概率重復看一看(沒關系,多看看不會累死)。但是如果沒被看過,一定會被看一下(這個很重要,不然我們就要漏掉一些網頁了!)。 [IMPORTANT: 此段有問題,請暫時略過]
好,現在已經接近處理判重最快的方法了。另外一個瓶頸——你只有一台機器。不管你的帶寬有多大,只要你的機器下載網頁的速度是瓶頸的話,那麼你只有加快這個速度。用一台機子不夠的話——用很多台吧!當然,我們假設每台機子都已經進了最大的效率——使用多線程(python的話,多進程吧)。
3)集群化抓取
爬取豆瓣的時候,我總共用了100多台機器晝夜不停地運行了一個月。想像如果只用一台機子你就得運行100個月了...
那麼,假設你現在有100台機器可以用,怎麼用python實現一個分布式的爬取演算法呢?
我們把這100台中的99台運算能力較小的機器叫作slave,另外一台較大的機器叫作master,那麼回顧上面代碼中的url_queue,如果我們能把這個queue放到這台master機器上,所有的slave都可以通過網路跟master聯通,每當一個slave完成下載一個網頁,就向master請求一個新的網頁來抓取。而每次slave新抓到一個網頁,就把這個網頁上所有的鏈接送到master的queue里去。同樣,bloom filter也放到master上,但是現在master只發送確定沒有被訪問過的url給slave。Bloom Filter放到master的內存里,而被訪問過的url放到運行在master上的Redis里,這樣保證所有操作都是O(1)。(至少平攤是O(1),Redis的訪問效率見:LINSERT – Redis)
考慮如何用python實現:
在各台slave上裝好scrapy,那麼各台機子就變成了一台有抓取能力的slave,在master上裝好Redis和rq用作分布式隊列。
代碼於是寫成
#slave.py
current_url = request_from_master()
to_send = []
for next_url in extract_urls(current_url):
to_send.append(next_url)
store(current_url);
send_to_master(to_send)
#master.py
distributed_queue = DistributedQueue()
bf = BloomFilter()
initial_pages = "www.renmingribao.com"
while(True):
if request == 'GET':
if distributed_queue.size()>0:
send(distributed_queue.get())
else:
break
elif request == 'POST':
bf.put(request.url)
好的,其實你能想到,有人已經給你寫好了你需要的:darkrho/scrapy-redis · GitHub
4)展望及後處理
雖然上面用很多「簡單」,但是真正要實現一個商業規模可用的爬蟲並不是一件容易的事。上面的代碼用來爬一個整體的網站幾乎沒有太大的問題。
但是如果附加上你需要這些後續處理,比如
有效地存儲(資料庫應該怎樣安排)
有效地判重(這里指網頁判重,咱可不想把人民日報和抄襲它的大民日報都爬一遍)
有效地信息抽取(比如怎麼樣抽取出網頁上所有的地址抽取出來,「朝陽區奮進路中華道」),搜索引擎通常不需要存儲所有的信息,比如圖片我存來幹嘛...
及時更新(預測這個網頁多久會更新一次)
如你所想,這里每一個點都可以供很多研究者十數年的研究。雖然如此,
「路漫漫其修遠兮,吾將上下而求索」。
所以,不要問怎麼入門,直接上路就好了:)
④ Python語言GetValue()什麼意思 Set Value()什麼意思
getvalue
獲取值
set value
假定值,設定值
⑤ python一個對象有多少個屬性(python對象的三個特性)
今天首席CTO筆記來給各位分享關於python一個對象有多少個屬性的相關內容,其中也會對python對象的三個特性進行詳細介紹,如果能碰巧解決你現在面臨的問題,別忘了關注本站,現在開始吧!
所說所有的變數都是對象。對象在python里,其實是一個指針,指向一個數據結構,數據結構里有屬性,有方法。x0dx0ax0dx0a對象通常就是指變數。從面向對象OO的概念來講,對象是類的一個實例。在python里很簡單,對象就是變數。x0dx0ax0dx0aclassA:x0dx0amyname="classa"x0dx0a上面就是一個類。不是對象x0dx0aa=A()x0dx0a這里變數a就是一個對象。x0dx0a它有一個屬性(類屬性),myname,你可以顯示出來x0dx0aprinta.mynamex0dx0ax0dx0a所以,你看到一個變數後面跟點一個小數點。那麼小數點後面就是它的屬性或者是方法。帶括弧的方法。不帶就是屬性。
python類的屬性有哪幾種?如何訪問它們?屬性的訪問機制
一般情況下,屬性訪問的默認行為是從對象的字典中獲取,並當獲取不到時會沿著一定的查找鏈進行查找。例如?a.x?的查找鏈就是,從?a.__dict__['x']?,然後是?type(a).__dict__['x']?,再通過?type(a)?的基類開始查找。
若查找鏈都獲取不到屬性,則拋出?AttributeError?異常。
一、__getattr__?方法
這個方法是當對象的屬性不存在是調用。如果通過正常的機制能找到對象屬性的話,不會調用?__getattr__?方法。
class?A:
a?=?1
def?__getattr__(self,?item):
print('__getattr__?call')
return?item
t?=?A()
print(t.a)
print(t.b)
#?output
1
__getattr__?call
b
二、__getattribute__?方法
這個方法會被無條件調用。不管屬性存不存在。如果類中還定義了?__getattr__?,則不會調用?__getattr__()方法,除非在?__getattribute__?方法中顯示調用__getattr__()?或者拋出了?AttributeError?。
class?A:
a?=?1
def?__getattribute__(self,?item):
print('__getattribute__?call')
raise?AttributeError
def?__getattr__(self,?item):
print('__getattr__?call')
return?item
t?=?A()
print(t.a)
print(t.b)
所以一般情況下,為了保留?__getattr__?的作用,__getattribute__()?方法中一般返回父類的同名方法:
def?__getattribute__(self,?item):
return?object.__getattribute__(self,?item)
使用基類的方法來獲取屬性能避免在方法中出現無限遞歸的情況。
三、__get__?方法
這個方法比較簡單說明,它與前面的關系不大。
如果一個類中定義了?__get__(),?__set__()?或?__delete__()?中的任何方法。則這個類的對象稱為描述符。
class?Descri(object):
def?__get__(self,?obj,?type=None):
print("call?get")
def?__set__(self,?obj,?value):
print("call?set")
class?A(object):
x?=?Descri()
a?=?A()
a.__dict__['x']?=?1??#?不會調用?__get__
a.x??????????????????#?調用?__get__
如果查找的屬性是在描述符對象中,則這個描述符會覆蓋上文說的屬性訪問機制,體現在查找鏈的不同,而這個行文也會因為調用的不同而稍有不一樣:
如果調用是對象實例(題目中的調用方式),a.x?則轉換為調用:。type(a).__dict__['x'].__get__(a,type(a))
如果調用的是類屬性,?A.x?則轉換為:A.__dict__['x'].__get__(None,A)
其他情況見文末參考資料的文檔
四、__getitem__?方法
這個調用也屬於無條件調用,這點與?__getattribute__?一致。區別在於?__getitem__?讓類實例允許?[]?運算,可以這樣理解:
__getattribute__適用於所有.運算符;
__getitem__適用於所有?[]?運算符。
class?A(object):
????a?=?1
????def?__getitem__(self,?item):
????????print('__getitem__?call')
????????return?item
t?=?A()
print(t['a'])
print(t['b'])
如果僅僅想要對象能夠通過?[]?獲取對象屬性可以簡單的:
def?__getitem(self,?item):
????return?object.__getattribute__(self,?item)
總結
當這幾個方法同時出現可能就會擾亂你了。我在網上看到一份示例還不錯,稍微改了下:
class?C(object):
????a?=?'abc'
????def?__getattribute__(self,?*args,?**kwargs):
????????print("__getattribute__()?is?called")
????????return?object.__getattribute__(self,?*args,?**kwargs)
????#????????return?"haha"
????def?__getattr__(self,?name):
????????print("__getattr__()?is?called?")
????????return?name?+?"?from?getattr"
????def?__get__(self,?instance,?owner):
????????print("__get__()?is?called",?instance,?owner)
????????return?self
????def?__getitem__(self,?item):
????????print('__getitem__?call')
????????return?object.__getattribute__(self,?item)
????def?foo(self,?x):
????????print(x)
class?C2(object):
????d?=?C()
if?__name__?==?'__main__':
????c?=?C()
????c2?=?C2()
????print(c.a)
????print(c.zzzzzzzz)
????c2.d
????print(c2.d.a)
????print(c['a'])
可以結合輸出慢慢理解,這里還沒涉及繼承關系呢。總之,每個以?__get?為前綴的方法都是獲取對象內部數據的鉤子,名稱不一樣,用途也存在較大的差異,只有在實踐中理解它們,才能真正掌握它們的用法。
python如何根據一個對象的屬性值查詢該對象其他某個屬性值?在Chrom類中新增一個類函數,遍歷存儲列表並返回匹配的對象
大概寫了個樣例
運行結果
python定義一個學生類,包含三個屬性
classstudent():
#構造函數
#對當前對象的實例的初始化
def__init__(self,name,age,score):
self.name=name
self.age=age
self.score=score
#isinstance函數判斷一個對象是否是一個已知的類型,類似type
defget_name(self):
ifisinstance(self.name,str):
returnself.name
defget_age(self):
ifisinstance(self.age,int):
returnself.age
defget_course(self):
a=max(self.score)
ifisinstance(a,int):
returna
zm=student('zhangming',20,[69,88,100])
print(zm.get_name())
print(zm.get_age())
print(zm.get_course())
Python對象眾所周知,Python是一門面向對象的語言,在Python無論是數值、字元串、函數亦或是類型、類,都是對象。
對象是在堆上分配的結構,我們定義的所有變數、函數等,都存儲於堆內存,而變數名、函數名則是一個存儲於棧中、指向堆中具體結構的引用。
要想深入學習Python,首先需要知道Python對象的定義。
我們通常說的Python都是指CPython,底層由C語言實現,源碼地址:cpython[GitHub]
Python對象的定義位於Include/object.h,是一個名為PyObject的結構體:
Python中的所有對象都繼承自PyObejct,PyObject包含一個用於垃圾回收的雙向鏈表,一個引用計數變數ob_refcnt和一個類型對象指針ob_type
從PyObejct的注釋中,我們可以看到這樣一句:每個指向可變大小Python對象的指針也可以轉換為PyVarObject*(可變大小的Python對象會在下文中解釋)。PyVarObejct就是在PyObject的基礎上多了一個ob_size欄位,用於存儲元素個數:
在PyObject結構中,還有一個類型對象指針ob_type,用於表示Python對象是什麼類型,定義Python對象類型的是一個PyTypeObject介面體
實際定義是位於Include/cpython/object.h的_typeobject:
在這個類型對象中,不僅包含了對象的類型,還包含了如分配內存大小、對象標准操作等信息,主要分為:
以Python中的int類型為例,int類型對象的定義如下:
從PyObject的定義中我們知道,每個對象的ob_type都要指向一個具體的類型對象,比如一個數值型對象100,它的ob_type會指向int類型對象PyLong_Type。
PyTypeObject結構體第一行是一個PyObject_VAR_HEAD宏,查看宏定義可知PyTypeObject是一個變長對象
也就是說,歸根結底類型對象也是一個對象,也有ob_type屬性,那PyLong_Type的ob_type是什麼呢?
回到PyLong_Type的定義,第一行PyVarObject_HEAD_INIT(PyType_Type,0),查看對應的宏定義
由以上關系可以知道,PyVarObject_HEAD_INIT(PyType_Type,0)={{_PyObject_EXTRA_INIT1,PyType_Type}0},將其代入PyObject_VAR_HEAD,得到一個變長對象:
這樣看就很明確了,PyLong_Type的類型就是PyType_Typ,同理可知,Python類型對象的類型就是PyType_Type,而PyType_Type對象的類型是它本身
從上述內容中,我們知道了對象和對象類型的定義,那麼根據定義,對象可以有以下兩種分類
Python對象定義有PyObject和PyVarObject,因此,根據對象大小是否可變的區別,Python對象可以劃分為可變對象(變長對象)和不可變對象(定長對象)
原本的對象a大小並沒有改變,只是s引用的對象改變了。這里的對象a、對象b就是定長對象
可以看到,變數l仍然指向對象a,只是對象a的內容發生了改變,數據量變大了。這里的對象a就是變長對象
由於存在以上特性,所以使用這兩種對象還會帶來一種區別:
聲明s2=s,修改s的值:s='newstring',s2的值不會一起改變,因為只是s指向了一個新的對象,s2指向的舊對象的值並沒有發生改變
聲明l2=l,修改l的值:l.append(6),此時l2的值會一起改變,因為l和l2指向的是同一個對象,而該對象的內容被l修改了
此外,對於字元串對象,Python還有一套內存復用機制,如果兩個字元串變數值相同,那它們將共用同一個對象:
對於數值型對象,Python會默認創建0~28以內的整數對象,也就是0~256之間的數值對象是共用的:
按照Python數據類型,對象可分為以下幾類:
Python創建對象有兩種方式,泛型API和和類型相關的API
這類API通常以PyObject_xxx的形式命名,可以應用在任意Python對象上,如:
使用PyObjecg_New創建一個數值型對象:
這類API通常只能作用於一種類型的對象上,如:
使用PyLong_FromLong創建一個數值型對象:
在我們使用Python聲明變數的時候,並不需要為變數指派類型,在給變數賦值的時候,可以賦值任意類型數據,如:
從Python對象的定義我們已經可以知曉造成這個特點的原因了,Python創建對象時,會分配內存進行初始化,然後Python內部通過PyObject*變數來維護這個對象,所以在Python內部各函數直接傳遞的都是一種泛型指針PyObject*,這個指針所指向的對象類型是不固定的,只能通過所指對象的ob_type屬性動態進行判斷,而Python正是通過ob_type實現了多態機制
Python在管理維護對象時,通過引用計數來判斷內存中的對象是否需要被銷毀,Python中所有事物都是對象,所有對象都有引用計數ob_refcnt。
當一個對象的引用計數減少到0之後,Python將會釋放該對象所佔用的內存和系統資源。
但這並不意味著最終一定會釋放內存空間,因為頻繁申請釋放內存會大大降低Python的執行效率,因此Python中採用了內存對象池的技術,是的對象釋放的空間會還給內存池,而不是直接釋放,後續需要申請空間時,優先從內存對象池中獲取。
Python查看對象屬性的幾種方式:__dict__,dir(),vars(),locals()為了方便用戶查看類中包含哪些屬性,Python類提供了__dict__屬性。需要注意的一點是,該屬性可以用類名或者類的實例對象來調用,用類名直接調用__dict__,會輸出該由類中所有類屬性組成的字典;而使用類的實例對象調用__dict__,會輸出由類中所有實例屬性組成的字典。
先來看一下Python類的__dict__屬性和類實例對象的__dict__屬性,例子如下:
從以上的測試結果中可以得出以下結論:
看幾個小例子:
如果沒傳入參數,就列印當前調用位置的屬性和屬性值,類似於下面的locals()。
locals()返回調用者當前局部名稱空間的字典。在一個函數內部,局部名稱空間代表在函數執行時候定義的所有名字,locals()函數返回的就是包含這些名稱的字典。
結語:以上就是首席CTO筆記為大家整理的關於python一個對象有多少個屬性的全部內容了,感謝您花時間閱讀本站內容,希望對您有所幫助,更多關於python對象的三個特性、python一個對象有多少個屬性的相關內容別忘了在本站進行查找喔。
⑥ 關於Python:get語句的問題
r.get(i,0) 就是,取i鍵的值,如果鍵不存在返回0。
r.setdefault(i,0) 則是,取i鍵的值,如果鍵不存在返回0,並且創建一個i:0的鍵值對。
所以,你的這個例子,兩種寫法,效果是一樣的。沒有區別,你看下面的例子,就很明顯。
get完,字典沒有變化,setdefault則新增了一個鍵值對