iT邦幫忙

2023 iThome 鐵人賽

DAY 10
0

均攤分析練習

今天如昨天最後所說,要再帶一個均攤分析的練習,今天要練習的範例相當經典,而且各大程式語言中像陣列的資料結構均是利用了該分析的結論來實作相關的成員函數。

那麼廢話不多說直接開始我們今天的練習吧!

動態陣列擴充

這邊先用 C++ std::vector::push_back() 簡單介紹一下:

其實 std::vector 有兩種大小:vector::size() 目前能使用的大小、vector::capacity() 在記憶體空間的實際容量

那多出來沒用到的空間要幹嘛呢?C++ 的 vector 中有個常用的成員函式叫作 push_back() ,功能是在 https://chart.googleapis.com/chart?cht=tx&chl=%5Cmathcal%7BO%7D%7B%281%29%7D 的時間將一個元素插入到陣列的最後面,如果插入時容量有剩就可以直接放;如果容量用完了就重新分配一塊兩倍大的記憶體區塊,並將整個陣列搬過去。聽起來有夠耗時的對吧?不過它的平均操作時間可是 https://chart.googleapis.com/chart?cht=tx&chl=%5Cmathcal%7BO%7D%7B%281%29%7D ,我們接下來就是要分析這個 https://chart.googleapis.com/chart?cht=tx&chl=%5Cmathcal%7BO%7D%7B%281%29%7D 是怎麼來的?

細節可參考 cplusplus.com 的說明;若不熟悉 vector 的可以去 C++ std::vector 用法與範例 先學一下怎麼用再回來看

為了等下方變分析,這邊再較正式地敘述一次問題:
給定一個初始容量為 1 的陣列 arr,該陣列支援函式 push_back() 在陣列後面插入元素;呼叫 push_back() 時若實際空間還有剩,就花費 https://chart.googleapis.com/chart?cht=tx&chl=1 時間成本直接將放新元素到陣列後面;若陣列可用的容量都已經用完了,假設 https://chart.googleapis.com/chart?cht=tx&chl=len%28arr%29 表示陣列 arr 當下的容量,則花費就是 https://chart.googleapis.com/chart?cht=tx&chl=len%28arr%29%2B1 的時間成本,此操作會先重新分配一個 https://chart.googleapis.com/chart?cht=tx&chl=2%5Ctimes%20len%28arr%29 大小的記憶體回來,再將 arr 整個複製過去。求這個插入操作的均攤時間複雜度。

記憶體分配在這邊可以暫時先看作 https://chart.googleapis.com/chart?cht=tx&chl=%5Cmathcal%7BO%7D%7B%281%29%7D ,因為這個操作在不同系統上皆有不同的行為。而且影響它的變因不單單取決於輸入,還取決於當下空閒記憶體池的量、記憶體碎片化的程度、記憶體管理的演算法等。因此它沒有一個精準的時間複雜度。更深入的討論可以參考: What is the runtime complexity of allocating memory?Time complexity of memory allocation
為此我還在不同平台上實測過記憶體分配的執行時間。使用 Day 4 的測試程式、n 設定到約 https://chart.googleapis.com/chart?cht=tx&chl=10%5E8 大小的 int 陣列 — 大約是 382 MB 左右的連續記憶體、重複次數設定到了一萬的情況下,運行時間也都在 10 「微秒」以下,因此把它當 https://chart.googleapis.com/chart?cht=tx&chl=%5Cmathcal%7BO%7D%7B%281%29%7D 基本上是沒問題的。

(每次呼叫 push_back() 時間成本的長條圖;from 維基百科

Aggregate analysis(聚集法)

首先假設我們 push_back() 被呼叫了 n 次,那這樣 push_back() 會分配多少的記憶體給進來的 n 個元素呢?會是 https://chart.googleapis.com/chart?cht=tx&chl=2%5E%7B%5Clceil%5Clog_2%7B%28n%29%7D%5Crceil%7D 的記憶體。

因此呼叫的 n 次中,有 https://chart.googleapis.com/chart?cht=tx&chl=%5Clceil%5Clog_2%7B%28n%29%7D%5Crceil 次 arr 容量會變大;且變大時的時間成本取決於當下的長度加一,不過因為我們是從 1 開始,因此長度必為 2 的冪次。列式來表示總時間就是:

https://chart.googleapis.com/chart?cht=tx&chl=%28n-%5Clceil%5Clog_2%7B%28n%29%7D%5Crceil%29%2B%5Csum_%7Bi%3D1%7D%5E%7B%5Clceil%5Clog_2%7B%28n%29%7D%5Crceil%7D%7B2%5E%7Bi-1%7D%2B1%7D%3Dn%2B%5Csum_%7Bi%3D1%7D%5E%7B%5Clceil%5Clog_2%7B%28n%29%7D%5Crceil%7D%7B2%5E%7Bi-1%7D%7D%2B%28%5Clceil%5Clog_2%7B%28n%29%7D%5Crceil-%5Clceil%5Clog_2%7B%28n%29%7D%5Crceil%29

https://chart.googleapis.com/chart?cht=tx&chl=%3Dn%2B%5Csum_%7Bi%3D1%7D%5E%7B%5Clceil%5Clog_2%7B%28n%29%7D%5Crceil%7D%7B2%5E%7Bi-1%7D%7D

右邊的求和很明顯是等比級數和,因此用等比級數求和公式來分析:

https://chart.googleapis.com/chart?cht=tx&chl=%5Csum_%7Bi%3D1%7D%5E%7B%5Clceil%5Clog_2%7B%28n%29%7D%5Crceil%7D%7B2%5E%7Bi-1%7D%7D%3D%5Cfrac%7B1%5Ccdot%281-2%5E%7B%5Clceil%5Clog_2%7B%28n%29%7D%5Crceil%7D%29%7D%7B1-2%7D%3D2%5E%7B%5Clceil%5Clog_2%7B%28n%29%7D%5Crceil%7D-1%5Cle2n

再代回原式:

https://chart.googleapis.com/chart?cht=tx&chl=n%2B2n%3D3n%3D%5Cmathcal%7BO%7D%7B%28n%29%7D

因此 push_back() n 次的總時間為 https://chart.googleapis.com/chart?cht=tx&chl=%5Cmathcal%7BO%7D%7B%28n%29%7D ,push_back() 每次的平均操作時間為 https://chart.googleapis.com/chart?cht=tx&chl=%5Cfrac%7B%5Cmathcal%7BO%7D%7B%28n%29%7D%7D%7Bn%7D%3D%5Cmathcal%7BO%7D%7B%281%29%7D

The accounting method(記帳法)

假設每次從剛擴充完畢到要再擴充陣列中間間隔為 t 次 push_back(),且此時的長度為 n,則 https://chart.googleapis.com/chart?cht=tx&chl=t%3D%5Cfrac%7Bn%7D%7B2%7D ,而再度擴充陣列時,複製所花的時間成本正好會是 https://chart.googleapis.com/chart?cht=tx&chl=2t

因此我們可以設計預付成本使中間那 https://chart.googleapis.com/chart?cht=tx&chl=t 次空間足夠時的 push_back() 能為後面擴充的 push_back() 複製時的成本買單,所以預付成本可以設定為 2、再加上本身的實際成本 1,均攤成本等於 3。

均攤成本等於 https://chart.googleapis.com/chart?cht=tx&chl=3%3D%5Cmathcal%7BO%7D%7B%281%29%7D ,因此平均操作時間為 https://chart.googleapis.com/chart?cht=tx&chl=%5Cmathcal%7BO%7D%7B%281%29%7D

The potential method(位能法)

因為位能分析的重點在讓兩種操作一個出現頻率高並逐步累積位能、另一個操作出現頻率低並會急遽消耗位能,如此一來就能順利求得均攤成本。而在這個問題中所謂的「耗時操作」就是擴充時的 push_back();「省時操作」就是平常空間夠的 push_back()。

而它們兩者間會對陣列的什麼狀態造成「相反的影響」呢?可以發現到「省時」的 push_back() 會讓陣列的可用空間變大、實際容量不變;而「耗時」的 push_back() 會讓陣列的可用空間變大、實際容量變兩倍。兩者之間的差距就在於實際容量 - 可用空間的量!

因此我們可以試著將位能函數 https://chart.googleapis.com/chart?cht=tx&chl=%5Cphi%7B%28D_i%29%7D 定義為(目前大小 - 實際容量)。

之所以反過來定義是因為這樣才能造成「耗時」的 push_back() 消耗位能、「省時」的 push_back() 累積位能。

令陣列在 https://chart.googleapis.com/chart?cht=tx&chl=D_i 下的目前大小為 https://chart.googleapis.com/chart?cht=tx&chl=S_i 、實際容量為 https://chart.googleapis.com/chart?cht=tx&chl=L_ihttps://chart.googleapis.com/chart?cht=tx&chl=%5Cphi%7B%28D_0%29%7D%3D1

操作 實際成本 https://chart.googleapis.com/chart?cht=tx&chl=%5Cphi%7B%28D_i%29%7D-%5Cphi%7B%28D_%7Bi-1%7D%29%7D 均攤成本
不需擴充 1 https://chart.googleapis.com/chart?cht=tx&chl=%5Cphi%7B%28D_i%29%7D-%5Cphi%7B%28D_%7Bi-1%7D%29%7D%3D%5B%28S_%7Bi-1%7D%2B1%29-L_%7Bi-1%7D%5D-%28S_%7Bi-1%7D-L_%7Bi-1%7D%29%3D1 https://chart.googleapis.com/chart?cht=tx&chl=1%2B1%3D2
要擴充 https://chart.googleapis.com/chart?cht=tx&chl=L_%7Bi-1%7D%2B1 https://chart.googleapis.com/chart?cht=tx&chl=%5Cphi%7B%28D_i%29%7D-%5Cphi%7B%28D_%7Bi-1%7D%29%7D%3D%5B%28S_%7Bi-1%7D%2B1%29-2%5Ccdot%20L_%7Bi-1%7D%5D-%28S_%7Bi-1%7D-L_%7Bi-1%7D%29%3D-L_%7Bi-1%7D%2B1 https://chart.googleapis.com/chart?cht=tx&chl=L_%7Bi-1%7D%2B1-L_%7Bi-1%7D%2B1%3D2

但是 https://chart.googleapis.com/chart?cht=tx&chl=%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%7B%5Chat%7Bc_i%7D%7D%3D%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%7Bc_i%2B%28%5Cphi%7B%28D_n%29%7D-%5Cphi%7B%28D_%7B0%7D%29%7D%29%7D 之中的 https://chart.googleapis.com/chart?cht=tx&chl=%5Cphi%7B%28D_n%29%7D-%5Cphi%7B%28D_%7B0%7D%29%7D%20%3C%200 是會發生的!只要最後的操作是需要擴充的就會發生,但沒關係我們只要額外補上這個數即可,因為最後一個操作可能造成的負位能差會是 https://chart.googleapis.com/chart?cht=tx&chl=L_%7Bn-1%7D%2B1

因為 https://chart.googleapis.com/chart?cht=tx&chl=D_%7Bn-1%7D 必定是在最後一個操作前 https://chart.googleapis.com/chart?cht=tx&chl=L_%7Bn-1%7D%3DS_%7Bn-1%7D ,不然最後一個操作不會需要擴充,因此此時的 https://chart.googleapis.com/chart?cht=tx&chl=L_%7Bn-1%7D%3Dn-1 ,也就是要再 push_back 一個元素的狀態。

因此 n 個操作的總時間複雜度將會是 https://chart.googleapis.com/chart?cht=tx&chl=%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%7B%5Chat%7Bc_i%7D%7D-(%5Cphi%7B(D_n)%7D-%5Cphi%7B(D_%7B0%7D)%7D)%3D2%5Ccdot%20n%20-%20%5B-(n-1)%2B1%5D%3D3n-2%3D%5Cmathcal%7BO%7D%7B(n)%7D

因此平均操作時間為 https://chart.googleapis.com/chart?cht=tx&chl=%5Cfrac%7B%5Cmathcal%7BO%7D%7B%28n%29%7D%7D%7Bn%7D%3D%5Cmathcal%7BO%7D%7B%281%29%7D

參考資料

以下是我寫這兩篇均攤分析文章所參考的網路資源,若我有講解不清的部分請自行至下列資源食用:

小結

時間複雜度分析技巧的文章到此終於是告一段落了完結撒花

那麼我們接下來要進入什麼新主題呢?嘿嘿各位明天就知道囉,請各位敬請期待!


上一篇
Day 9 不數迴圈就沒辦法分析了?技豈是如此不便之物 其三
下一篇
Day 11 吾心吾行澄如明鏡,所作所為皆為 SPEED 其一
系列文
CS補完計畫—演算法與資料結構的第三次衝擊30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言