天天操天天干天天,芲井空αv无码一区二区三区,在线99视频,91北条麻妃在线,日韩素人的搜索结果

前言

DeepMind 最近在 Nature 發(fā)表了一篇論文 AlphaDev[2, 3]，一個利用強化學(xué)習(xí)來探索更優(yōu)排序算法的AI系統(tǒng)。

AlphaDev 系統(tǒng)直接從 CPU 匯編指令的層面入手去探索更優(yōu)的排序算法，因為相對于高級編程語言來說，在匯編指令層級對存儲和寄存器的操作可以更加的靈活，所以能發(fā)現(xiàn)更多潛在的調(diào)優(yōu)策略。

在 AlphaDev 的論文中，只關(guān)注探索短序列排序：

定長序列排序（比如 sort3 算法只能對長度為3的序列進(jìn)行排序）
變長序列排序（比如 ?variable sort5 算法可以對長度為1~5的變長序列進(jìn)行排序）

而對于長序列的排序，可以被分解為短序列的排序。

DeepMind 通過 AlphaDev 發(fā)現(xiàn)了比目前人工調(diào)優(yōu)算法更優(yōu)的定長短序列排序算法 sort3，sort4 和 sort5 ，并且已經(jīng)將代碼提交到了 LLVM 標(biāo)準(zhǔn) C++ 庫[4] 。

簡單來說，AlphaDev 將探索更高效排序算法的過程，建模為一個單玩家的匯編游戲（single-player game， AssemblyGame）。

游戲的過程就是玩家從 CPU 匯編指令集合中，選取一系列的指令組合得到一個新的排序算法。不過這個過程是非常有挑戰(zhàn)的，玩家需要考慮，匯編指令的組合空間并最終得得到一個正確和高效的算法。

該游戲主要包括以下難點：

匯編游戲的搜索空間和圍棋類似（10^700）
只要有一條指令沒弄對，可能就會導(dǎo)致整個算法錯誤

AlphaDev 系統(tǒng)詳解

將排序算法表示為 CPU 匯編指令

首先來看一個簡單的變長（variable sort2）短排序函數(shù)的 C 代碼實現(xiàn)，排序結(jié)果從小到大：

void?variable_sort_2(int?length,?int?*a)?{
????switch?(length)?{
????case?0:
????case?1:
????????return;
????case?2:
????????int?tmp?=?a[0];
????????//?a[0]?保存兩者之間的最小值
????????a[0]?=?(a[1]?0])???a[1]?:?a[0];
????????//?a[1]?保存兩者之間的最大值
????????a[1]?=?(a[1]?1];
????????return;
????}
}

通過 gcc 生成對應(yīng)的匯編代碼，我用的 gcc 版本是 11.3.0，命令 gcc -S -O1 -o sort2.s sort2.c

匯編代碼只保留了核心部分，生成的結(jié)果和論文中的示例有些許不同但是原理是一致的：

variable_sort_2:  
.LFB0:
	; %edi 寄存器保存參數(shù) length 的值
	; cmpl 指令對比 %edi 和 常量 2
	cmpl	$2, %edi 
	; 相等就跳轉(zhuǎn)到 .L3 標(biāo)簽處，
        ; 對應(yīng) C 代碼的 case 2
	je	.L3
.L1:
	; 不等于 2 就直接返回，
        ; 對應(yīng) C 代碼 case 0 和 1
	ret 
.L3:
	; 將 a[0] 賦值給寄存器 %edx 
	movl	(%rsi), %edx
	; 將 a[1] 賦值給寄存器 %eax 
	movl	4(%rsi), %eax
	; 對比 %edx 和 %eax
	cmpl	%edx, %eax
	; 將 %edx 賦值給 %ecx
	movl	%edx, %ecx
	; cmov 是條件移動指令根據(jù) cmpl 
	; 指令的結(jié)果判斷是否執(zhí)行
	; 如果 %eax <= %edx 
	; 則將 %eax 賦值給 %ecx
	cmovle	%eax, %ecx
	; 此時 %ecx 保存了最小值
	; 將 %ecx 賦值給 a[0]
	movl	%ecx, (%rsi)
	; 如果 %eax 小于 %edx
	; 則將 %edx 賦值給 %eax
	cmovl	%edx, %eax
	; 此時 %eax 保存了最大值
	; 將 %eax 賦值給 a[1]
	movl	%eax, 4(%rsi)
	jmp	.L1

一般來說匯編程序所做的事情基本都是，將內(nèi)存的值復(fù)制到寄存器，然后對寄存器的值作修改，再將寄存器的值寫回到內(nèi)存中。

而 AlphaDev 系統(tǒng)只關(guān)注 x86 處理器架構(gòu)所支持的匯編指令集合的一個子集。

每條匯編指令的格式均為：操作碼<操作數(shù)A, 操作數(shù)B> 比如：

mov ? ? 移動指令，表示將 A 的值賦值給 B
cmp ? ? 比較指令，相當(dāng)于執(zhí)行 A - B 操作，但是不會對 A 和 B 做修改，而是根據(jù)相減的結(jié)果設(shè)置特殊的 flag 寄存器，更多內(nèi)容可以參考[5]
cmovX 條件移動指令，根據(jù) X 和 flag 寄存器的值判斷是否執(zhí)行將 A 賦值給 B 的操作，一般都是出現(xiàn)在 cmp 指令之后。X 可以是 L （是否滿足小于條件）， G （是否滿足大于條件），LE （是否滿足小于或等于條件），GE （是否滿足大于等于條件）。
jX ? ? ? ? ? ?條件跳轉(zhuǎn)指令，根據(jù) X 和 flag 寄存器的值判斷是否執(zhí)行跳轉(zhuǎn)到指定標(biāo)記位置操作，A 可以是匯編程序代碼中的標(biāo)記位置，如上面所示匯編代碼的 .L1 和 .L3。X 可以是 NE （是否不等于），E （是否等于）或者可以填表示無條件跳轉(zhuǎn)。