學習Scrapy的過程中碰到 yeild
這個關鍵字,我使用Python快半年了,還真的是第一次遇到這個關鍵字,於是我花了點時間研究後,終於明白它的作用了,怕下次看到時忘記,所以用這篇文將yield這個關鍵字重點整理一下。
如果想要印出0~100的平方時,我們可能會這樣寫。
powers = [x**2 for x in range(100)]
for x in powers:
print(x)
但這樣有一個致命問題在於,必須把整個list都存放在記憶體中,100個元素可能還不成問題,但如果今天的對象是一百萬筆資料,記憶體可能會承受不了,程式就崩潰了。
接下來就會說明yield要如何節省記憶體,但在此之前,先來談談Python的生成器(generator)。
生成器是一個可迭代的物件,可以放在for迴圈的in前面,或者使用next()函數呼叫執行下一次迭代。
和列表的差別在於,生成器會保存上次紀錄,並只有在呼叫下一層迭代的時候才載入記憶體執行。
所以將上面的例子改寫成生成器,結果是一樣的,卻可以防止超過記憶體,注意我用的是 (
而不是 [
。
powers = (x**2 for x in range(100))
for x in powers:
print(x)
呼叫函數後,回傳的並非數值,而是函數的生成器物件。
yield和return一樣都會回傳值並中斷在目前位置,但最大不同在於yield在下次迭代時會從上次迭代的下一行接續執行,一直執行到下一個yield出現,如果沒有下一個yield則結束這個生成器。而且接續上一個迭代前的變數不會改變,就是維持上次結束前的模樣。
這部分我們來看下面這個例子:
def yield_test(n):
print("start n =", n)
for i in range(n):
yield i*i
print("i =", i)
print("end")
tests = yield_test(5)
for test in tests:
print("test =", test)
print("--------")
執行結果:
start n = 5
test = 0
--------
i = 0
test = 1
--------
i = 1
test = 4
--------
i = 2
test = 9
--------
i = 3
test = 16
--------
i = 4
end
StopIteration
(這邊沒有印出來),告訴主程序迭代已經結束了。看完上面例子後,應該會從原本朦朦朧朧到有點概念了吧,其實yield有點像偵錯模式的中斷點,只是多了中斷時回傳值而已。
def test():
print("start...")
while True:
throw = yield 10
print("throw:", throw)
p = test()
print(next(p))
print("-----------")
print(next(p))
print("-----------")
print(g.send(7))
print("-----------")
執行結果:
start...
10
-----------
throw: None
10
-----------
throw: 7
10
-----------
順帶一提,第一次迭代不可以send任何數值進去,因為沒有上一個位置可以接收。
在Python 2.X中,有分range和xrange兩種,range就像第一個例子,生成一個[0, 1, 2, ...]的list。xrange則像第二種例子,使用生成器減少記憶體消耗。
但在Python 3.X後range就等於xrange,使用type()檢查會知道已經是range型態了。
print(type(range(10))) # <class 'range'>
如果開始學就是Python3.X,就不必在意這些細節,繼續放心地用range吧!