手把手教你|攔截系統(tǒng)調(diào)用
一、什么是系統(tǒng)調(diào)用
系統(tǒng)調(diào)用?是內(nèi)核提供給應(yīng)用程序使用的功能函數(shù),由于應(yīng)用程序一般運(yùn)行在?用戶態(tài),處于用戶態(tài)的進(jìn)程有諸多限制(如不能進(jìn)行 I/O 操作),所以有些功能必須由內(nèi)核代勞完成。而內(nèi)核就是通過(guò)向應(yīng)用層提供?系統(tǒng)調(diào)用,來(lái)完成一些在用戶態(tài)不能完成的工作。
說(shuō)白了,系統(tǒng)調(diào)用其實(shí)就是函數(shù)調(diào)用,只不過(guò)調(diào)用的是內(nèi)核態(tài)的函數(shù)。但與普通的函數(shù)調(diào)用不同,系統(tǒng)調(diào)用不能使用?call?指令來(lái)調(diào)用,而是需要使用?軟中斷?來(lái)調(diào)用。在 Linux 系統(tǒng)中,系統(tǒng)調(diào)用一般使用?int 0x80?指令(x86)或者?syscall?指令(x64)來(lái)調(diào)用。
下面我們以?int 0x80?指令(x86)調(diào)用方式為例,來(lái)說(shuō)明系統(tǒng)調(diào)用的原理。
二、系統(tǒng)調(diào)用原理
在 Linux 內(nèi)核中,使用?sys_call_table?數(shù)組來(lái)保存所有系統(tǒng)調(diào)用,sys_call_table?數(shù)組每一個(gè)元素代表著一個(gè)系統(tǒng)調(diào)用的入口,其定義如下:
typedef?void?(*sys_call_ptr_t)(void);
const?sys_call_ptr_t?sys_call_table[__NR_syscall_max+1]?=?{
????...
};
當(dāng)應(yīng)用程序需要調(diào)用一個(gè)系統(tǒng)調(diào)用時(shí),首先需要將要調(diào)用的系統(tǒng)調(diào)用號(hào)(也就是系統(tǒng)調(diào)用所在?sys_call_table?數(shù)組的索引)放置到?eax?寄存器中,然后通過(guò)使用?int 0x80?指令觸發(fā)調(diào)用?0x80?號(hào)軟中斷服務(wù)。
0x80?號(hào)軟中斷服務(wù),會(huì)通過(guò)以下代碼來(lái)調(diào)用系統(tǒng)調(diào)用,如下所示:
...
call *sys_call_table(,%eax,8)
...
上面的代碼會(huì)根據(jù)?eax?寄存器中的值來(lái)調(diào)用正確的系統(tǒng)調(diào)用,其過(guò)程如下圖所示:

三、系統(tǒng)調(diào)用攔截
了解了系統(tǒng)調(diào)用的原理后,要攔截系統(tǒng)調(diào)用就很簡(jiǎn)單了。那么如何攔截呢?
做法就是:我們只需要把?sys_call_table?數(shù)組的系統(tǒng)調(diào)用換成我們自己編寫的函數(shù)入口即可。比如,我們想要攔截?write()?系統(tǒng)調(diào)用,那么只需要將?sys_call_table?數(shù)組的第一個(gè)元素?fù)Q成我們編寫好的函數(shù)(因?yàn)?write()?系統(tǒng)調(diào)用在?sys_call_table?數(shù)組的索引為1)。
要修改?sys_call_table?數(shù)組元素的值,步驟如下:
1. 獲取?sys_call_table?數(shù)組的地址
要修改?
sys_call_table?數(shù)組元素的值,一般需要通過(guò)內(nèi)核模塊來(lái)完成。因?yàn)橛脩魬B(tài)程序由于內(nèi)存保護(hù)機(jī)制,不能改寫內(nèi)核態(tài)的數(shù)據(jù)。而內(nèi)核模塊運(yùn)行在內(nèi)核態(tài),所以能夠跳過(guò)這個(gè)限制。
要修改?sys_call_table?數(shù)組元素的值,首先要獲取?sys_call_table?數(shù)組的虛擬內(nèi)存地址(由于?sys_call_table?變量不是一個(gè)導(dǎo)出符號(hào),所以內(nèi)核模塊不能直接使用)。
要獲取?sys_call_table?數(shù)組的虛擬內(nèi)存地址有兩種方法:
第一種方法:從?System.map?文件中讀取
System.map?是一份內(nèi)核符號(hào)表,包含了內(nèi)核中的變量名和函數(shù)名地址,在每次編譯內(nèi)核時(shí),自動(dòng)生成。獲取?sys_call_table?數(shù)組的虛擬地址使用如下命令:
sudo?cat?/boot/System.map-`uname?-r`?|?grep?sys_call_table
結(jié)果如下圖所示:

從上圖可知,sys_call_table?數(shù)組的虛擬地址為:ffffffff818001c0。
第二種方法:通過(guò)?kallsyms_lookup_name()?函數(shù)來(lái)獲取
從?System.map?文件中讀取的方法不是很優(yōu)雅,所以內(nèi)核提供了一個(gè)名為?kallsyms_lookup_name()?的函數(shù)來(lái)獲取內(nèi)核變量和內(nèi)核函數(shù)的虛擬內(nèi)存地址。
kallsyms_lookup_name()?函數(shù)的使用很簡(jiǎn)單,只需要傳入要獲取虛擬內(nèi)存地址的變量名即可,如下代碼所示:
#include?
void?func()?{
????...
????unsigned?long?*sys_call_table;
????//?獲取?sys_call_table?的虛擬內(nèi)存地址
????sys_call_table?=?(unsigned?long?*)kallsyms_lookup_name("sys_call_table");
????...
}
2. 設(shè)置 sys_call_table 數(shù)組為可寫狀態(tài)
是不是獲取到?sys_call_table?數(shù)組的虛擬地址就可以修改其元素的值呢?沒(méi)那么簡(jiǎn)單。
由于?sys_call_table?數(shù)組處于寫保護(hù)區(qū)域,并不能直接修改其內(nèi)容。但有兩種方法可以將寫保護(hù)暫時(shí)關(guān)閉,如下:
第一種方法:將?cr0?寄存器的第 16 位設(shè)置為零
cr0?控制寄存器的第 16 位是寫保護(hù)位,若設(shè)置為零,則允許超級(jí)權(quán)限往內(nèi)核中寫入數(shù)據(jù)。這樣我們可以在修改?sys_call_table?數(shù)組的值前,將?cr0?寄存器的第 16 位清零,使其可以修改?sys_call_table?數(shù)組的內(nèi)容。當(dāng)修改完后,又將那一位復(fù)原即可。
代碼如下:
/*
?*?設(shè)置cr0寄存器的第16位為0
?*/
unsigned?int?clear_and_return_cr0(void)
{
????unsigned?int?cr0?=?0;
????unsigned?int?ret;
????/*?將cr0寄存器的值移動(dòng)到rax寄存器中,同時(shí)輸出到cr0變量中?*/
????asm?volatile?("movq?%%cr0,?%%rax"?:?"=a"(cr0));
????ret?=?cr0;
????cr0?&=?0xfffeffff;??/*?將cr0變量值中的第16位清0,將修改后的值寫入cr0寄存器?*/
????/*?讀取cr0的值到rax寄存器,再將rax寄存器的值放入cr0中?*/
????asm?volatile?("movq?%%rax,?%%cr0"?::?"a"(cr0));
????return?ret;
}
/*
?*?還原cr0寄存器的值為val
?*/
void?setback_cr0(unsigned?int?val)
{
????asm?volatile?("movq?%%rax,?%%cr0"?::?"a"(val));
}
第二種方法:設(shè)置虛擬地址對(duì)應(yīng)頁(yè)表項(xiàng)的讀寫屬性
由于?x86 CPU?的內(nèi)存保護(hù)機(jī)制是通過(guò)虛擬內(nèi)存頁(yè)表來(lái)實(shí)現(xiàn)的(可以參考這篇文章:漫談內(nèi)存映射),所以我們只需要把?sys_call_table?數(shù)組的虛擬內(nèi)存頁(yè)表項(xiàng)中的保護(hù)標(biāo)志位清空即可,代碼如下:
/*
?*?把虛擬內(nèi)存地址設(shè)置為可寫
?*/
int?make_rw(unsigned?long?address)
{
????unsigned?int?level;
????//查找虛擬地址所在的頁(yè)表地址
????pte_t?*pte?=?lookup_address(address,?&level);
????if?(pte->pte?&?~_PAGE_RW)??//設(shè)置頁(yè)表讀寫屬性
????????pte->pte?|=??_PAGE_RW;
????return?0;
}
/*
?*?把虛擬內(nèi)存地址設(shè)置為只讀
?*/
int?make_ro(unsigned?long?address)
{
????unsigned?int?level;
????pte_t?*pte?=?lookup_address(address,?&level);
????pte->pte?&=?~_PAGE_RW;??//設(shè)置只讀屬性
????return?0;
}
3. 修改?sys_call_table?數(shù)組的內(nèi)容
萬(wàn)事俱備,只欠東風(fēng)。前面我們把準(zhǔn)備工作都做完了,現(xiàn)在只需要把?sys_call_table?數(shù)組中的系統(tǒng)調(diào)用入口替換成我們編寫的函數(shù)入口即可。
我們可以在內(nèi)核模塊初始化函數(shù)修改?sys_call_table?數(shù)組的值,然后在內(nèi)核模塊退出函數(shù)改回成原來(lái)的值即可,完整代碼如下:
/*
?*?File:?syscall.c
?*/
#include?
#include?
#include?
#include?
#include?
#include?
#include?
#include?
unsigned?long?*sys_call_table;
unsigned?int?clear_and_return_cr0(void);
void?setback_cr0(unsigned?int?val);
static?int?sys_hackcall(void);
unsigned?long?*sys_call_table?=?0;
/*?定義一個(gè)函數(shù)指針,用來(lái)保存原來(lái)的系統(tǒng)調(diào)用*/
static?int?(*orig_syscall_saved)(void);
/*
?*?設(shè)置cr0寄存器的第16位為0
?*/
unsigned?int?clear_and_return_cr0(void)
{
????unsigned?int?cr0?=?0;
????unsigned?int?ret;
????/*?將cr0寄存器的值移動(dòng)到rax寄存器中,同時(shí)輸出到cr0變量中?*/
????asm?volatile?("movq?%%cr0,?%%rax"?:?"=a"(cr0));
????ret?=?cr0;
????cr0?&=?0xfffeffff;??/*?將cr0變量值中的第16位清0,將修改后的值寫入cr0寄存器?*/
????/*?讀取cr0的值到rax寄存器,再將rax寄存器的值放入cr0中?*/
????asm?volatile?("movq?%%rax,?%%cr0"?::?"a"(cr0));
????return?ret;
}
/*
?*?還原cr0寄存器的值為val
?*/
void?setback_cr0(unsigned?int?val)
{
????asm?volatile?("movq?%%rax,?%%cr0"?::?"a"(val));
}
/*
?*?自己編寫的系統(tǒng)調(diào)用函數(shù)
?*/
static?int?sys_hackcall(void)
{
????printk("Hack?syscall?is?successful!!!\n");
????return?0;
}
/*
?*?模塊的初始化函數(shù),模塊的入口函數(shù),加載模塊時(shí)調(diào)用
?*/
static?int?__init?init_hack_module(void)
{
????int?orig_cr0;
????printk("Hack?syscall?is?starting...\n");
????/*?獲取?sys_call_table?虛擬內(nèi)存地址?*/
????sys_call_table?=?(unsigned?long?*)kallsyms_lookup_name("sys_call_table");
????/*?保存原始系統(tǒng)調(diào)用?*/
????orig_syscall_saved?=?(int(*)(void))(sys_call_table[__NR_perf_event_open]);
????orig_cr0?=?clear_and_return_cr0();?/*?設(shè)置cr0寄存器的第16位為0?*/
????sys_call_table[__NR_perf_event_open]?=?(unsigned?long)&sys_hackcall;?/*?替換成我們編寫的函數(shù)?*/
????setback_cr0(orig_cr0);?/*?還原cr0寄存器的值?*/
????return?0;
}
/*
?*?模塊退出函數(shù),卸載模塊時(shí)調(diào)用
?*/
static?void?__exit?exit_hack_module(void)
{
????int?orig_cr0;
????orig_cr0?=?clear_and_return_cr0();
????sys_call_table[__NR_perf_event_open]?=?(unsigned?long)orig_syscall_saved;?/*?設(shè)置為原來(lái)的系統(tǒng)調(diào)用?*/
????setback_cr0(orig_cr0);
????printk("Hack?syscall?is?exited....\n");
}
module_init(init_hack_module);
module_exit(exit_hack_module);
MODULE_LICENSE("GPL");
在上面代碼中,我們將?perf_event_open()?系統(tǒng)調(diào)用替換成了我們自己實(shí)現(xiàn)的函數(shù)。
注意:測(cè)試時(shí)最好使用冷門的系統(tǒng)調(diào)用,否則可能會(huì)導(dǎo)致系統(tǒng)崩潰。
4. 編寫 Makefile 文件
為了編譯方便,我們編寫一個(gè) Makefile 文件來(lái)進(jìn)行編譯,如下所示:
obj-m:=syscall.o
PWD:=?$(shell?pwd)
KERNELDIR:=?/lib/modules/$(shell?uname?-r)/build
EXTRA_CFLAGS=?-O0
all:
????make?-C?$(KERNELDIR)??M=$(PWD)?modules
clean:
????make?-C?$(KERNELDIR)?M=$(PWD)?clean
要注意添加?EXTRA_CFLAGS= -O0?關(guān)閉 gcc 優(yōu)化選項(xiàng),避免插入模塊出錯(cuò)。
5. 測(cè)試程序
現(xiàn)在,我們編寫一個(gè)測(cè)試程序來(lái)測(cè)試一下系統(tǒng)調(diào)用攔截是否成功,代碼如下:
#include?
#include?
#include?
int?main(void)
{
????unsigned?long?ret?=?syscall(__NR_perf_event_open,?NULL,?0,?0,?0,?0);
????printf("%d\n",?(int)ret);
????return?0;
}
6. 運(yùn)行結(jié)果
第一步:安裝攔截內(nèi)核模塊
使用以下命令安裝內(nèi)核模塊:
root# insmod syscall.ko
然后通過(guò)?dmesg?命令來(lái)觀察系統(tǒng)日志,可以看到以下輸出:
...
[ 133.564652] Hack syscall is starting...
這說(shuō)明我們的內(nèi)核模塊安裝成功。
第二步:運(yùn)行測(cè)試程序
接著,我們運(yùn)行剛才編寫的測(cè)試程序,然后觀察系統(tǒng)日志,輸出如下:
...
[ 532.243714] Hack syscall is successful!!!
這說(shuō)明攔截系統(tǒng)調(diào)用成功了。
