↑ 點(diǎn)擊藍(lán)字?關(guān)注極市平臺(tái)你是否已經(jīng)受夠了NeurIPS,ICLR,ICML等會(huì)議的審稿意見(jiàn)?
你是否有過(guò)最好的論文被拒稿,但是相對(duì)差的論文反而被接收的經(jīng)歷?
相信對(duì)眾多機(jī)器學(xué)習(xí)、人工智能領(lǐng)域的從業(yè)者來(lái)說(shuō),這種現(xiàn)象已經(jīng)見(jiàn)怪不怪了。

人工智能專家Ian Goodfellow在Twitter上抱怨同行評(píng)審(peer review)
機(jī)器學(xué)習(xí)的成功依賴于大型會(huì)議,這一領(lǐng)域發(fā)展非常迅速。而期刊審稿周期相對(duì)較長(zhǎng),因此大部分最新的工作都首先發(fā)表在會(huì)議上,像NeurIPS,ICLR,ICML等,這對(duì)機(jī)器學(xué)習(xí)的發(fā)展壯大起了很重要的作用。
一般來(lái)說(shuō),學(xué)術(shù)會(huì)議會(huì)邀請(qǐng)某一領(lǐng)域的專家審稿 - 即通過(guò)同行評(píng)審制度 - 決定論文是否值得發(fā)表??梢哉f(shuō),頂會(huì)現(xiàn)在的成功,很大程度上也要?dú)w功于同行評(píng)審制度。
反之,如果研究工作不經(jīng)過(guò)可靠的同行評(píng)審就發(fā)表,可能會(huì)帶來(lái)許多問(wèn)題:大多數(shù)人,即非專家,無(wú)法分辨研究結(jié)果的好壞對(duì)錯(cuò);也會(huì)對(duì)研究造成混亂,后人可能會(huì)引用錯(cuò)誤的結(jié)果、結(jié)論,這無(wú)疑也會(huì)阻礙機(jī)器學(xué)習(xí)領(lǐng)域研究的進(jìn)步。
因此,隨著研究人員及論文的數(shù)量成倍增加,同行評(píng)審的可靠性在今天變得更加重要。對(duì)這一制度可靠性的分析和相關(guān)的改進(jìn)方法,也漸漸成為一個(gè)熱門話題,并引起學(xué)術(shù)界和業(yè)界的關(guān)注。
如何改進(jìn)同行評(píng)審的機(jī)制,提高審稿流程的可靠性呢?
近日,賓夕法尼亞大學(xué)沃頓商學(xué)院和計(jì)算機(jī)系的蘇煒杰教授在今年NeurIPS上發(fā)表的一篇文章為改進(jìn)同行評(píng)審提供了新的思路,提出一個(gè)簡(jiǎn)單實(shí)用的方法,結(jié)合了統(tǒng)計(jì)和優(yōu)化的思想。
該研究認(rèn)為,既然增加審稿人數(shù),或給每個(gè)審稿人分配更多的論文不現(xiàn)實(shí),那我們可以要求投稿作者提供信息來(lái)協(xié)助我們決策,「人盡其才,物盡其用」。然而,又要保證投稿人不會(huì)為了自身利益提供不實(shí)信息。?那么,?應(yīng)該如何設(shè)計(jì)這一機(jī)制呢??

論文地址:https://arxiv.org/abs/2110.14802
蘇煒杰教授針對(duì)性地提出了一種新機(jī)制:保序機(jī)制(Isotonic Mechanism),并從理論上保證了該機(jī)制既能激勵(lì)投稿人提供真實(shí)的信息,又能增加審稿結(jié)果的可靠性。
正所謂「成也蕭何,敗也蕭何」,同行評(píng)審本應(yīng)是高質(zhì)量、高影響力研究的過(guò)濾器。然而,隨著近年來(lái)人工智能和機(jī)器學(xué)習(xí)會(huì)議大火,投稿數(shù)量激增,同行評(píng)審制度似乎有一點(diǎn)變味了。例如,在2014年著名的NeurIPS實(shí)驗(yàn)中,人們觀察到評(píng)審分?jǐn)?shù)具有驚人的高度隨意性。從理論上講,如果重新審稿,NeurIPS 2014年錄用的一半以上的文章將被拒稿!2014NeurIPS實(shí)驗(yàn)中第二組委員會(huì)對(duì)第一組委員會(huì)評(píng)審意見(jiàn)的結(jié)果,隨機(jī)選擇的被第一組接受的論文中,50.9%被第二組拒絕究其原因,是海量的投稿導(dǎo)致專業(yè)審稿人員數(shù)量不足,會(huì)議不得不讓很多沒(méi)發(fā)過(guò)論文的新手來(lái)審。以及人均審稿數(shù)目增加,使得審稿人員在每篇論文上花費(fèi)的時(shí)間大大減少,一篇論文往往幾分鐘時(shí)間就被判了死刑!?像NeurIPS這一機(jī)器學(xué)習(xí)頂會(huì)的投稿量已經(jīng)從2014年的1673篇增長(zhǎng)到今年的9122篇,很多研究人員個(gè)人就提交了10篇甚至更多,然而合格的審稿人增長(zhǎng)數(shù)量根本不可能這么快。這導(dǎo)致同行評(píng)審的質(zhì)量直線下降,飽受詬病,無(wú)法達(dá)到它的初衷。如果不改革同行評(píng)審制度,從長(zhǎng)遠(yuǎn)來(lái)看,勢(shì)必會(huì)削弱公眾對(duì)機(jī)器學(xué)習(xí)的信心,也會(huì)阻礙人工智能的發(fā)展。ML/AI會(huì)議論文的爆炸式增長(zhǎng)海報(bào)地址:http://www-stat.wharton.upenn.edu/~suw/paper/iso_poster.pdf當(dāng)然,學(xué)術(shù)界早已注意到同行評(píng)審制度的相關(guān)缺陷,也提出了一些改進(jìn)的舉措:從志愿審稿改為雇傭?qū)徃?,或者更加公開(kāi)的評(píng)審(如ICLR在OpenReview上進(jìn)行審稿),等等。然而,它們要么不切實(shí)際,要么會(huì)帶來(lái)新的問(wèn)題。同行評(píng)審仍然是「可用的最差系統(tǒng)」。保序機(jī)制(Isotonic Mechanism)簡(jiǎn)介
假設(shè)投稿人投出了n篇論文,其真實(shí)分?jǐn)?shù)為R1, R2, …, Rn,假設(shè)投稿人知道這些真實(shí)分?jǐn)?shù)的排序(數(shù)學(xué)上表示為1, 2, …, n的置換)。那么,機(jī)制要求投稿人匯報(bào)自己對(duì)這n篇論文打分的排序π,再結(jié)合審稿人給出的原始平均分?jǐn)?shù)y1, y2, …, yn,解一個(gè)凸問(wèn)題并給出最終分?jǐn)?shù)。形式上,這個(gè)凸優(yōu)化問(wèn)題為:另外,該機(jī)制還假設(shè)投稿人是理性的。即投稿人匯報(bào)排序π的最終目的是讓自己的利益最大化。數(shù)學(xué)上,表現(xiàn)為投稿人希望機(jī)制得出的最終分?jǐn)?shù)可以最大化如下效用函數(shù):這里假設(shè)U是一個(gè)不減凸函數(shù)。我們先將對(duì)假設(shè)的介紹和對(duì)合理性的討論稍稍后放,以便于突出文章的主要結(jié)果,也就是保序機(jī)制相對(duì)于原始分?jǐn)?shù)在理論上的優(yōu)越性:1. 投稿人的最佳策略是如實(shí)報(bào)告他/她的論文原始分?jǐn)?shù)的真實(shí)排序;甚至在投稿人不能完全確定所有真實(shí)分?jǐn)?shù)排序時(shí),報(bào)告所知道的所有真實(shí)信息也是其最優(yōu)選擇。2. 機(jī)制所提供的調(diào)整后的最終分?jǐn)?shù)確實(shí)嚴(yán)格地比審稿人提供的原始分?jǐn)?shù)要準(zhǔn)確。僅僅是匯報(bào)分?jǐn)?shù)的排序,就會(huì)提高準(zhǔn)確度,其實(shí)用性不言而喻。不僅如此,文章作者還進(jìn)一步對(duì)更一般的情況做了推廣,文章對(duì)投稿人只知道真實(shí)分?jǐn)?shù)的分塊排序、機(jī)制的穩(wěn)健性(魯棒性)、效用函數(shù)不能表示成n個(gè)論文各自效用之和的三種情況進(jìn)行拓展討論,充分的展示了保序機(jī)制強(qiáng)大的校正功能,以及豐富的現(xiàn)實(shí)意義。到這里,我們?cè)倩仡^看一下假設(shè)。除了對(duì)函數(shù)U的要求,還要求投稿人自己對(duì)真實(shí)信息必須有一定的了解(這樣才能進(jìn)行協(xié)助),以及審稿人打分相對(duì)真實(shí)分?jǐn)?shù)的噪聲在置換下的分布是不變的(可交換性)。這些假設(shè)也都是比較實(shí)際的。需要格外注意函數(shù)U是凸的假設(shè),對(duì)以上結(jié)論的成立是至關(guān)重要的。這似乎與傳統(tǒng)經(jīng)濟(jì)學(xué)理論中的邊際效益遞減矛盾。但這里效用衡量的不是「量」的大小,而是決定了論文是否會(huì)被作為海報(bào)、口頭報(bào)告,甚至是全會(huì)報(bào)告的分?jǐn)?shù)。對(duì)很多研究者,追求會(huì)議論文更大的影響力反映了他們真實(shí)的需求,因此效用函數(shù)的凸性有其合理性。保序機(jī)制(Isotonic Mechanism)命名的由來(lái)是因?yàn)閷?duì)應(yīng)的凸問(wèn)題正是統(tǒng)計(jì)學(xué)中「保序回歸(Isotonic Regression)」的問(wèn)題形式。保序回歸在觀念上是尋找一組非遞減的片段連續(xù)線性函數(shù),即保序函數(shù),使其與樣本盡可能的接近。保序回歸:https://en.wikipedia.org/wiki/Isotonic_regression另一方面,這篇文章寫完提交NeurlPS后不久,大會(huì)組織者要求所有作者對(duì)他們的文章做一個(gè)質(zhì)量排序,這與保序機(jī)制不謀而合。這篇文章非?!讣皶r(shí)」,盡管最后并沒(méi)有用它在今年NeurIPS來(lái)做決定。文章與NeurIPS 2021會(huì)議的巧合
值得注意的是,提出該機(jī)制的蘇煒杰教授差不多有半數(shù)文章發(fā)表在統(tǒng)計(jì)、優(yōu)化和信息論等領(lǐng)域的期刊,也有大量論文發(fā)表在機(jī)器學(xué)習(xí)頂會(huì)上,對(duì)二者的審稿質(zhì)量以及錄用文章質(zhì)量的差異深有體會(huì)。一般來(lái)說(shuō),擁有巨量投稿數(shù)量的機(jī)器學(xué)習(xí)頂會(huì)的錄用文章平均質(zhì)量要比期刊差很多。同時(shí)機(jī)器學(xué)習(xí)的一個(gè)特點(diǎn)是一個(gè)作者或研究組經(jīng)常一次提交多篇論文,比如強(qiáng)化學(xué)習(xí)研究員Sergey Levine向ICLR 2020一次就提交了32篇論文!而保序機(jī)制的理論也表明文章數(shù)目n越大,提升也越大。值得注意的是,保序機(jī)制的理論證明用到了凸函數(shù)和優(yōu)超不等式等不少數(shù)學(xué)技巧,熟悉數(shù)學(xué)競(jìng)賽的同學(xué)想必不會(huì)陌生。本文提出了通過(guò)利用投稿人提供的信息改進(jìn)同行評(píng)審制度的「保序機(jī)制」,即激勵(lì)投稿人報(bào)告真實(shí)的排序,從而獲得更好的決策。該機(jī)制便于實(shí)施,且具有理論的最優(yōu)性保證,如果能在現(xiàn)實(shí)中使用該機(jī)制,很有希望在一定程度上緩解當(dāng)前的機(jī)器學(xué)習(xí)頂會(huì)的低質(zhì)量評(píng)審問(wèn)題。然而,利用額外的作者信息來(lái)改善同行評(píng)審是一個(gè)新型的研究方向,在投入實(shí)際應(yīng)用前還需要一定的努力。對(duì)保序機(jī)制而言,未來(lái)還有一些工作需要完成:雖然效用函數(shù)為凸一定程度上符合研究者的偏好,但是對(duì)于一些追求中稿數(shù)量的研究者,效用函數(shù)可能是一些特殊的非凸函數(shù)(例如階梯狀的函數(shù))。如何改進(jìn)技巧應(yīng)用到這種問(wèn)題上?
當(dāng)前改進(jìn)同行評(píng)審已經(jīng)有一些初見(jiàn)成效的工作,如何將他們結(jié)合進(jìn)來(lái)?
保序機(jī)制的準(zhǔn)確性是使用L2誤差來(lái)衡量的。有沒(méi)有更符合實(shí)際情況的誤差函數(shù)?
如何應(yīng)對(duì)投稿人策略性地利用保序機(jī)制,例如故意提交低質(zhì)量論文變相抬高分?jǐn)?shù)?
在跨學(xué)科評(píng)審和多個(gè)審稿人多個(gè)作者的情況下,如何保證噪聲的可交換性,如何對(duì)應(yīng)修改保序機(jī)制?
保序機(jī)制要求提供論文質(zhì)量的排序是否有附帶好處?比如要求作者對(duì)自身論文質(zhì)量有更清楚的認(rèn)識(shí),或許會(huì)減少會(huì)議論文常見(jiàn)的「guest authorship」。
無(wú)論如何,該機(jī)制針對(duì)的是一個(gè)有關(guān)機(jī)器學(xué)習(xí)領(lǐng)域前途的重大問(wèn)題。如果該問(wèn)題能解決,將產(chǎn)生巨大的影響力,甚至可以將這種評(píng)級(jí)制度出圈應(yīng)用到各種評(píng)價(jià)環(huán)節(jié),具有十分重大的現(xiàn)實(shí)意義。文章作者蘇煒杰是賓夕法尼亞大學(xué)沃頓商學(xué)院統(tǒng)計(jì)與數(shù)據(jù)科學(xué)系和工學(xué)院計(jì)算機(jī)系助理教授。任賓大機(jī)器學(xué)習(xí)研究中心聯(lián)合主任。分別于北京大學(xué)和斯坦福大學(xué)獲得本科和博士學(xué)位。曾獲得NSF CAREER Award和斯隆研究獎(jiǎng)。
參考資料:
https://arxiv.org/pdf/2110.14802.pdf
https://www.toutiao.com/i7039916197835506209/?timestamp=1639147753&app=news_article&group_id=7039916197835506209&use_new_style=1&req_id=202112102249130101310380762754C599&wid=1639647590857
https://arxiv.org/pdf/2109.09774.pdf
https://www.reddit.com/r/MachineLearning/comments/r24rp7/d_peer_review_is_still_broken_the_neurips_2021/
https://hub.baai.ac.cn/view/10481
https://zhuanlan.zhihu.com/p/90666675
https://cloud.tencent.com/developer/article/1172713
http://eprints.rclis.org/39332/
如果覺(jué)得有用,就請(qǐng)分享到朋友圈吧!
△點(diǎn)擊卡片關(guān)注極市平臺(tái),獲取最新CV干貨
公眾號(hào)后臺(tái)回復(fù)“transformer”獲取最新Transformer綜述論文下載~
備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測(cè)-深圳)
即可申請(qǐng)加入極市目標(biāo)檢測(cè)/圖像分割/工業(yè)檢測(cè)/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群
每月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競(jìng)賽、干貨資訊匯總、與?10000+來(lái)自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺(jué)開(kāi)發(fā)者互動(dòng)交流~
覺(jué)得有用麻煩給個(gè)在看啦~??