[Day02] 現代處理器架構與效能最佳化技術

2024 iThome 鐵人賽

DAY 2

Software Development

16th鐵人賽

1321 瀏覽

是一種處理器架構設計方法，其主要特點是將多個操作打包到一條長指令中，並讓處理器同時執行這些操作。這種架構的目標是通過指令層級平行（ILP）來提高處理器的效能，而不需要動態調整的硬體複雜性。
指令中不同操作之間保證平行性，無需跨操作的 RAW（讀取後寫入）檢查。
保證操作的固定延遲。
VLIW Compiler 的責任：

原始迴圈：
```
for (i=0; i<N; i++)
    B[i] = A[i] + C;
```
這個迴圈逐一處理數組元素，每次執行一次加法操作。
展開後的迴圈：
```
for (i=0; i<N; i+=4) {
    B[i]   = A[i] + C;
    B[i+1] = A[i+1] + C;
    B[i+2] = A[i+2] + C;
    B[i+3] = A[i+3] + C;
}
```
將內部迴圈展開一次處理 4 次迭代，這樣做可以減少迴圈控制（如比較、跳轉指令）的頻率，從而提升整體運行效率。

以下展示了展開後的迴圈 code 是如何在硬體中被調整執行的。

展開 4 次：
展開的 code 包含 4 次迭代被分配到不同的硬體資源上進行並行執行，每次執行載入（load）、加法（add）、存儲（store）等操作。
硬體調整：
調整圖表中展示了指令如何分配到不同的資源（如整數單元、浮點加法單元）：
- fld 指令（浮點載入）在 M1 和 M2 週期中執行。
- fadd 指令（浮點加法）在 FP+ 和 FPx 單元中執行。
- fsd 指令（浮點存儲）安排在後面的週期中執行。
效能計算：
- 計算浮點運算每週期數量（FLOPS/Cycle）：
  - 4 次浮點加法（fadd）在 11 個時鐘週期內完成。
  - 這導致 FLOPS/週期 = ( \frac{4}{11} \approx 0.36 )。

透過迴圈展開和有效的指令調整，可以顯著提升處理器的平行性和 throughput。且需要編譯器或開發者仔細安排指令，以避免數據危險和資源衝突。

NUMA, Non-Uniform Memory Access（共享記憶體架構）：
- 此架構使用共享記憶體模型，其中每個處理器都能通過載入和存儲指令訪問共享的記憶體。
- 利用分佈式目錄來跟踪哪些處理器正在共享記憶體，以保持一致性。
- e.g. Stanford 的 DASH/FLASH（1992-2000 年）。
Message Passing Cluster（訊息傳遞叢集）：
- 使用訊息傳遞（如 RPC 或 MPI）在每個處理器擁有獨立地址空間的集群系統中通信。
- 獨立的計算機通過局域網路交換機相互連接，以提供共同的服務。
- e.g. Berkeley 的 Network of Workstations（1993-1998 年）。

SGI Origin 2800 NUMA：
- 可以擴展到 128 個 CPU，適用於需要高可擴展性帶寬的科學計算。
- 使用 Numalink2 連接，提供 12 Gbit/s 的帶寬。
NOW-2（Network of Workstations）：
- 包含 105 台 Sun 工作站，每台配有 2 個硬碟，並使用 Myrinet 交換系統區域網絡，每個鏈接速度為 1 Gbit/s。
- 適用於搜索和科學計算應用。

管理成本：
- 管理 N 台機器的叢集，成本接近於管理 N 台獨立機器，而管理一個具有共享地址空間的多處理器系統相當於管理一台大機器，通常較為簡便。
連接方式的不同：
- 叢集通常使用 I/O 匯流排連接，而多處理器系統通常使用內存匯流排連接，這可能導致效能瓶頸。
內存與操作系統的複製：
- 叢集中的每台機器都有獨立的內存和操作系統，這意味著有 N 份內存和操作系統的複製。相比之下，共享地址空間的多處理器系統允許單一程序幾乎使用所有的內存。

兩種不同的可擴展多處理器系統架構：共享記憶體（NUMA）和訊息傳遞叢集（Cluster）。NUMA 提供了高效的記憶體訪問，但建設和維護成本較高；而訊息傳遞叢集利用更低成本的硬體實現了擴展性，適合更大規模和更分散的計算需求。每種架構都有其優勢和適用場景，取決於應用需求和成本考量。