完全看懂 HD 7970 新架構，GPU 如何跑出更高的效能？

圖解編譯器指令集排程

編譯器Wavefront時程序列

假設有A～O共15條Wavefront，順序是由A到O，且部分Wavefront存在相依性。其中C必須依賴B，也就是Wavefront C必須等到Wavefront B運算完畢之後，才能算Wavefront C。有點類似B+2=4，B+C=6，必須先求得B的解才能解第二個方程式。其餘E與F、F與G、L與K都是相同情況。

VLIW 4

在VLIW 4架構中缺乏動態調度功能，某些環境使用率相當低。在週期一當中，由於Wavefront C必須依賴Wavefront B，因此SIMD的第三與第四組ALU處在閒置狀態。同樣的情況在週期二、三、五都出現，特別是週期三與五效率特差，只有執行1組Wavefront。理想中的高效率滿載狀態，只有週期四與六可達到。

▲Wavefront B與C的相依性並未解決，加上缺乏動態調度，只能讓第三與第四組ALU閒置。

▲上個週期未處理的Wavefront C，被留到這個週期運算。由於Wavefront E與F又存在相依性，因此F不能在這個週期處理，使得第四組ALU閒置。

▲這個週期依序處理Wavefront F，由於Wavefront G依賴Wavefront F，因此Wavefront G、H、I只能延後處理。

▲由於此週期沒有相依性，因此能依序處理Wavefront G、H、I、J。這也是VLIW 4架構最理想的狀態。

▲依序處理Wavefront K，但是Wavefront K與L又有相依性，週期五只能單獨處理Wavefront K。

▲剩下的Wavefront L、M、N、O都沒有相依性，因此能執行4個Wavefront。VLIW 4架構處理15個Wavefront總計花費6個週期。

Compute Unit

透過GCN的CU運算，由於具備動態調度功能，因此在允許的行況下，可先執行順位較低的Wavefront。像是週期一當中，可先略過依賴 Wavefront B的Wavefront C，先執行Wavefront D與E。如此一來，15條Wavefront只需要1組CU花費4個週期就能處理完畢，足足比VLIW 4少了2個週期。

▲由於Wavefront B與C存在相依性，透過動態調度功能，可讓排程在後面的Wavefront D與E先行運算，讓CU的SIMD陣列滿載。

▲週期二接著處理Wavefront C，其中依照順序應該接著處理Wavefront F、G、H，不過Wavefront G與F有相依性，因此捨棄Wavefront G先行處理Wavefront I。

▲週期三繼續運算Wavefront G，Wavefront L跟K有相依性，因此先處理順位中的Wavefront M。

▲最後一個週期將剩下的Wavefront處理完畢，一共花費4個週期就處理完畢。其中週期一、二與三都是滿載。

（下一頁：GCN：率先使用新規格）

#零組件 #電腦王 #顯示卡 #NVIDIA #ati #AMD #gpu #directx 11 #fermi #radeon #pci-e 3.0 #radeon hd #hd 7970

1. PCABC （發表於 2012年4月01日 15:18）

引用回覆

看了這篇之後我更想了解開普勒的架構了

真不知道是怎樣弄得竟然功耗降著麼多

680還可以把7970壓在地上打

3人給推

2. Shinwill （發表於 2012年4月01日 15:20）

引用回覆

真希望 M01 那些整天 N/A 大戰的人來看看這篇文章
<(￣︶￣)>

3. Charlie Chou （發表於 2012年4月01日 17:36）

引用回覆

"...即使是X79用的四通道記憶體頻寬（memory bandwidth）不過30～50GB/s左右，HD 7970上的GDDR5記憶體頻寬可高達264GB/s，是系統記憶體的數倍，有助於通用運算與少部分遊戲。"

問題是就算是PCI-E 3.0的極限頻寬也才32GB/s(應該是雙向各16GB/s沒錯吧...)
然後加上延遲應該會比系統記憶體更高...
這樣真的會有用嗎?

4. PCABC （發表於 2012年4月01日 20:04）

引用回覆

※ 引述《Charlie20083》的留言：
> "...即使是X79用的四通道記憶體頻寬（memory bandwidth）不過30～50GB/s左右，HD 7970上的GDDR5記憶體頻寬可高達264GB/s，是系統記憶體的數倍，有助於通用運算與少部分遊戲。"
>
> 問題是就算是PCI-E 3.0的極限頻寬也才32GB/s(應該是雙向各16GB/s沒錯吧...)
> 然後加上延遲應該會比系統記憶體更高...
> 這樣真的會有用嗎?
>

記憶體是雙向的阿

對主板那邊當然是夠但對GPU那裡當然是要更快才行啦

CPU的快取也是相同道理一樣快的話何須另加記憶體

資料全部暫存在主機板的記憶體就好啦還比較便宜咧

╮(╯_╰)╭

1人給推

5. Shinwill （發表於 2012年4月01日 20:47）

引用回覆

※ 引述《Charlie20083》的留言：
> 問題是就算是PCI-E 3.0的極限頻寬也才32GB/s(應該是雙向各16GB/s沒錯吧...)
> 然後加上延遲應該會比系統記憶體更高...
> 這樣真的會有用嗎?

一般顯示卡所稱的記憶體頻寬
是指 GPU 與 VRAM 間溝通的頻寬

6. 00351 （發表於 2012年4月01日 21:10）

引用回覆

難怪AMD一直都有驅動程式的包袱
每出一批新遊戲
都必須一一改版來修正遊戲特效BUG
或效能低落的問題

1人給推

7. 魯蛇實驗室（發表於 2012年4月02日 10:11）

引用回覆

※ 引述《PCABC》的留言：
> 看了這篇之後我更想了解開普勒的架構了
>
> 真不知道是怎樣弄得竟然功耗降著麼多
>
> 680還可以把7970壓在地上打
>
>
28nm是主因，再者，kepler持續改良兩代的fermi架構
架構上更完善，電力效率自然表現更好

8. PCABC （發表於 2012年4月02日 14:18）

引用回覆

※ 引述《tandee》的留言：
> ※ 引述《PCABC》的留言：
> > 看了這篇之後我更想了解開普勒的架構了
> >
> > 真不知道是怎樣弄得竟然功耗降著麼多
> >
> > 680還可以把7970壓在地上打
> >
> >
> 28nm是主因，再者，kepler持續改良兩代的fermi架構
> 架構上更完善，電力效率自然表現更好

這期雜誌講的還蠻詳細的

Shader的部分更證實了我的疑慮拿掉後核心頻率終於上的來了

若真有GK110 GTX685我想應該就像是460跟465的差距一樣吧

通用運算效能大增但遊戲效能沒增多少

GPU面積大增結果超吃電 ╮(╯_╰)╭

9. 散彈槍（發表於 2012年4月02日 20:19）

引用回覆

※ 引述《PCABC》的留言：
> ※ 引述《tandee》的留言：
> > ※ 引述《PCABC》的留言：
> > > 看了這篇之後我更想了解開普勒的架構了
> > >
> > > 真不知道是怎樣弄得竟然功耗降著麼多
> > >
> > > 680還可以把7970壓在地上打
> > >
> > >
> > 28nm是主因，再者，kepler持續改良兩代的fermi架構
> > 架構上更完善，電力效率自然表現更好
>
>
>
> 這期雜誌講的還蠻詳細的
>
> Shader的部分更證實了我的疑慮拿掉後核心頻率終於上的來了
>
> 若真有GK110 GTX685我想應該就像是460跟465的差距一樣吧
>
> 通用運算效能大增但遊戲效能沒增多少
>
> GPU面積大增結果超吃電 ╮(╯_╰)╭
>
> 很難講喔，以規格來說，基本上可以把兩家目前的雙核卡王打趴，而且可能跟580差不多耗電而已，跟460和465是完全不一樣的狀況阿，畢竟GK110比GK104較像是GTX580比上GTX460才對(所以我覺得GK110相當有可能是7系列的)，不過因為良率問題，所以要等到8月才會出來。
>

10. 方（發表於 2012年4月04日 11:07）

引用回覆

其實打趴這句話言過其實了╯-__-)╯ ╩╩
兩者拉距肯定在玩遊戲時看不太出來
為求爽度而已

7970輸在兩點
1. 價格還不降?
2. 不CP求爽度時~我若有錢想買只買老大 ~說白點680也不夠看

謹慎發言，尊重彼此。按此展開留言規則