<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          摘要拒稿、直接拒稿都太粗暴:近萬篇論文,AAAI、IJCAI、ICML都是怎么審的?

          共 5385字,需瀏覽 11分鐘

           ·

          2022-03-15 21:17

          ↑ 點擊藍字?關注極市平臺

          來源丨機器之心
          編輯丨極市平臺

          極市導讀

          ?

          面對逐年增長的論文數(shù)量,AAAI、IJCAI、ICML 都是怎么審的??>>加入極市CV技術交流群,走在計算機視覺的最前沿

          近年來,各大著名人工智能會議提交的論文數(shù)量一直在穩(wěn)步增長。以 AAAI 為例,該會議前 33 年 (1980-2012 年) 收到的提交材料都不足 1000 份,到 2015 年收到的提交材料不足 2000 份,到 2018 年收到的提交材料不足 4000 份。但到了 AAAI 2021,已經(jīng)有超過 9000 份提交。

          為了跟上日益增長的提交數(shù)量,AAAI 程序委員會也做出了相對調(diào)整,比如近 10000 名審稿人參與了 AAAI 2021 的會議審稿。鑒于這種大型會議的規(guī)模和緊迫的時間安排,分配審稿人并提供高質(zhì)量的 review 正成為一個越來越具有挑戰(zhàn)性的問題。

          其中一些關鍵的問題包括:評估既有的審稿人如何審閱一篇論文;如何確定好的審稿人 - 論文匹配關系;確定哪些論文可能在沒有完整 review 的情況下被拒稿;以及鑒定參與 bid、review 或評分等影響論文結果的審稿人。


          論文鏈接:https://arxiv.org/abs/2202.12273

          在 AAAI 2021 的論文匹配過程中,官方組委會解決了這些挑戰(zhàn),并提出了一個新穎的自動化 pipeline 審稿人。pipeline 由三個關鍵特征組成:

          (1)收集和處理輸入數(shù)據(jù),以識別有問題的匹配項,并產(chǎn)生審稿人的評審分數(shù);?
          (2)描述和解決了受限制的匹配問題;?
          (3)將評審過程分為兩個階段,以便更好地將評審資源分配給 borderline paper。

          這項研究引入了一種新穎的方法來替代摘要拒稿(summary rejection),稱為兩階段評審(two-phase reviewing)。不僅 AAAI 2022 延續(xù)了這一方法,IJCAI 2022 和 ICML 2022 也采用了這一方法。

          大致而言,對于一篇投稿,最初只分配兩個 review,而不是分配三個 review。如果這兩個 review 一致認為一篇論文應該被拒稿,那么它就不會得到進一步的 review。審稿的第二階段是為剩下的論文分配兩個額外的 review。這種方法的意義在于:

          a)將 review 重新分配給 borderline paper,同時保證給了第一階段被拒稿的論文作者提供有意義的反饋(兩次全面的 review) ;?
          b)避免了單獨摘要拒稿階段的以同樣方式處理所有論文的成本;?
          c)作為獎勵,它會給程序主席第二次機會,為確定有問題或第一階段審稿人誤判的論文分配額外的審稿人。

          在 AAAI 2021 的投稿中,2615 篇論文 (37%) 收到了兩個「建議拒稿」的 high-confidence 評論,因此在第一階段被拒稿了。這提供了剩余的 2615 個 review 可供第二階段的 borderline paper 中使用。

          當然,一個關鍵的問題是,第一階段被拒稿的論文如果得到了 4 個完整 review,是否最終會被接收?因此這項研究也提供了一個對照組,對照組里的論文不需要經(jīng)過兩階段評審,即那些在第一階段沒有經(jīng)過兩次完整 review 的文件。通過對這些論文最終收到的大量 review 進行二次抽樣,研究者估計,第一階段被拒稿的論文最終被 AAAI 2021 接收的概率只有 2.9% 。

          研究的其余部分結構如下:第 2 部分描述了數(shù)據(jù)收集和處理方法的細節(jié);第 3 部分提出了審稿人 - 論文匹配問題的混合整數(shù)規(guī)劃公式;第 4 部分描述了兩階段評審方案;第 5 部分包括了 AAAI 2021 部署該方法后的詳盡實驗分析數(shù)據(jù);最后,第 6 部分總結了該方法的貢獻。在此之前,許多相關的工作已經(jīng)研究了審稿人與論文匹配問題的不同方面,研究者也在相應的部分討論了相關的工作。

          數(shù)據(jù)收集與處理

          在論文中,研究者介紹了用于收集和處理有關審稿人及論文原始數(shù)據(jù),并將其轉(zhuǎn)化為審稿人 - 論文匹配度總分的技術。

          首先要關注的是「利益沖突」問題,如果審稿人由于與論文的一個或多個作者的關系而無法對論文提供公正的 review,那么審稿人和論文之間就存在利益沖突(COI,Conflict of Interest),這些審稿人可能對論文的接收或拒稿更感興趣,甚至會超出期望看到高質(zhì)量論文發(fā)表的愿望。例如,假如一篇論文的作者是之前的導師,我們中的大多數(shù)人很難提供一個完全沒有偏見的意見。顯然,審稿人不應該與他們擁有利益沖突的論文相匹配。?

          此外,bid 中包含了關于審稿人偏好的重要信息。研究者認為,將它們考慮在內(nèi)將大大有助于審稿人對分配的滿意度。但審稿人可能惡意誤報 bid,以確保論文的接收或拒稿 [Noothigattu et al., 2021]。過去的大多數(shù)會議都試圖通過區(qū)域主席(AC) 監(jiān)督、抽查討論和告密者舉報來發(fā)現(xiàn)這種不當行為。但是這些方法是勞動密集型的,也是不可擴展的。

          還有一個審稿人 - 論文自動匹配中的關鍵問題是,如何量化將審稿人與提交的論文進行匹配的價值。簡而言之,如果審稿人對論文的主題有專業(yè)知識并且對論文感興趣,那么我們認為,這次匹配就是好的。這項研究通過聚合三個互補的信號來評估專業(yè)知識: 多倫多論文匹配系統(tǒng) (TPMS) 分數(shù); ACL 匹配分數(shù); 論文主要和次要主題領域關鍵詞與審稿人關鍵詞的匹配程度。

          研究者通過 bid 來評估審稿人對論文的興趣程度,先假設一個對論文感興趣的基線水平,對于這些論文,預計審稿人具備專業(yè)知識,而且審稿人沒有提交任何明確 (正面或負面) 的 bid。

          兩階段審稿人分配

          2014 NeurIPS 的組織者曾做過一個很有影響力的實驗 [Lawrence and Cortes, 2014] ,讓兩個獨立的項目委員會各自 review 10% 的提交材料。研究發(fā)現(xiàn),最強的論文(一小部分) 和最弱的論文 (更多的一部分) 能被可靠地識別出來,但是許多靠近決策邊界(decision boundary)的論文,可能被一個項目委員會接收,卻被另一個項目委員會拒稿。自那時以來,會議組織者一直設法將幾乎肯定會被拒稿的論文的 review 資源重新分配給有現(xiàn)實機會被接收的文件,以提高后一類論文的 review 質(zhì)量。

          其中一個比較受歡迎的方法是,采用簡單的啟發(fā)式設計來檢測低質(zhì)量的論文,這個過程被稱為「摘要拒稿(summary rejection)」或「直接拒稿(desk rejection)」。例如在 IJCAI 2020 中,區(qū)域主席被要求花費一小段時間瀏覽每篇論文,以決定它是否值得更仔細的 review[Bessiere,2020]。Neurips 2020 采用了一個類似的系統(tǒng): 在三個星期內(nèi),區(qū)域主席瀏覽了 9000 多份論文,以確定明確拒稿和高級區(qū)域主席交叉 review 等進一步選擇,而 11% 的提交收到了摘要拒稿[Yuan, 2020]。

          考慮到人工智能會議的規(guī)模,這樣的摘要拒稿程序?qū)τ趨^(qū)域主席來說是非常耗時的。此外,它們很可能是有噪聲的,也可能反映出對論文表面性質(zhì)的無意識偏見,這意味著它們可能不夠可靠,不足以拒掉相對較小的論文部分。最后,這樣的程序往往不受作者歡迎,沒有人喜歡他們的論文通過一個不透明的過程被拒稿,甚至沒有產(chǎn)生任何評論。基于這些原因,NeurIPS 大會在 2020 年收到的負面反饋的基礎上,決定在 2021 年不采用這種方法。

          他們提出了一種新的的提前拒稿方法,同時滿足幾點要求:將會議的審查預算集中在接近決策邊界的論文上,為提前拒稿論文的作者提供有意義的反饋,減少提前拒稿最終可能被接收的論文。

          該方法將審稿分成兩個階段。在第一階段,每篇論文分配兩名審稿人,那些收到了兩份 high-confidence ?review 建議拒稿的論文會被拒稿,作者會立即收到這些全面的 review,并且沒有機會提出 rebuttal。然后,審稿過程進入第二階段,為剩下的每篇論文分配兩個或兩個以上的額外審稿人。

          在第二輪 review 之后,作者會進行 rebuttal,兩個階段的審稿人都會被要求閱讀 rebuttal 和彼此的 review,參與由 SPCs 和 ACs 的討論,并最終相應地修改他們的 review。然后,項目主席根據(jù)委員會的建議作出決定。

          評估

          匹配質(zhì)量分析

          在 AAAI 2021 會議中,部署了這項研究中的審稿人 - 論文匹配方法。研究者分析了來自主會議 8072 個審稿人的 6729 個提交文件及其評論的數(shù)據(jù)集。受限于現(xiàn)實因素,此處不能公布用于任何分析的數(shù)據(jù),因為關于會議審查過程的數(shù)據(jù)本質(zhì)上是敏感的,研究者將發(fā)現(xiàn)總結如下:

          一個問題是,評分機制是否充分考慮到了審稿人的專業(yè)度?如圖 1 所示,越 confident 的審稿人傾向于給出的論文分數(shù)分布越廣(更少給出臨界的 5 分和 6 分)??紤]到 higher confidence 的 review 信息量更大,研究者研究了評分機制和報告的審稿人 confidence 程度之間的關系。如圖 2 所示,評分函數(shù)與 confidence 呈正相關: 隨著 confidence 的增加,評分的第 25、50 和 75 百分比也增加了。

          圖 1: 審稿人 confidence 的論文分數(shù)分布。

          圖 2:在 AAAI 2021 上匹配的所有審稿人 - 論文中,最終 review 的 confidence vs. 預測總分。

          此外,研究者還評估了這一方法的 COI 檢測效果。這里將自我報告的沖突、明確給定的沖突以及提交給 AAAI 2021 的論文合著者之間的沖突視為「微不足道的」。研究者發(fā)現(xiàn),在檢測出的總共 2674372 個沖突中,96.4% 都屬于此類。

          其余 3.6% 的沖突中,2.8% 是由于未報告的合作關系,隨后通過 DBLP 驗證。其余 0.8% 的沖突發(fā)生在被預測到的學生 - 導師組合或同一導師的學生之間。總的來說,該系統(tǒng)在大多數(shù) (78.8%) 的提交中檢測到了至少一個重要的沖突。

          關于兩階段評審方法的評估

          在第一階段拒掉論文最大的風險是,這篇論文如果有另一次審查、rebuttal 和討論的機會,能否被接收?

          要估計這些論文最終被接收的概率,最簡單的方法就是隨機推廣一部分在第一階段被拒稿的論文,并觀察結果。研究者沒有進行這個實驗,但是用真實的數(shù)據(jù)提供了一個非常相似的自然實驗。具體來說,可以考慮所有因為一個或多個 review 或?qū)徃迦?confidence 不足而被提升到第二階段的論文,并檢查最終被接收的這些論文的子集??偣灿?231 份論文以這種方式推廣,其中 16 份最終被接收。

          這些論文最終都得到了四次或更多的高 confidence 的 review,這樣就可以計算出兩次隨機選擇的 review 都是負評價的概率,也就是說,基于這些 review,論文在第一階段就會被拒。

          在本文實驗的數(shù)據(jù)中,這個概率大約是 2.9% ,這表明第一階段的拒稿的假陰性概率是很低的。

          最后,研究者也評估了額外 review 的重要性,并將結果展示在圖 7 中。每一個點相當于一篇論文的 3 次 review。X 軸給出論文在 AAAI 2021 會議上的得分(在那里它收到了超過 3 個 review) ; y 軸給出了 3 個 review 得分的范圍。雖然許多低于這個門檻的論文被接收,而且許多高于這個門檻的論文被拒稿,但決策邊界的錄取通過率降到了 6.4 左右。

          圖 7:Confidence 權重的平均得分,第二階段中論文 vs.3 次 review 的組合。

          感興趣的讀者可以閱讀論文原文,了解更多細節(jié)。


          公眾號后臺回復“數(shù)據(jù)集”獲取50+深度學習數(shù)據(jù)集下載~

          △點擊卡片關注極市平臺,獲取最新CV干貨
          極市干貨
          數(shù)據(jù)集資源匯總:10個開源工業(yè)檢測數(shù)據(jù)集匯總21個深度學習開源數(shù)據(jù)集分類匯總
          算法trick目標檢測比賽中的tricks集錦從39個kaggle競賽中總結出來的圖像分割的Tips和Tricks
          技術綜述:一文弄懂各種loss function工業(yè)圖像異常檢測最新研究總結(2019-2020)


          #?CV技術社群邀請函?#

          △長按添加極市小助手
          添加極市小助手微信(ID : cvmart4)

          備注:姓名-學校/公司-研究方向-城市(如:小極-北大-目標檢測-深圳)


          即可申請加入極市目標檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強/OCR/視頻理解等技術交流群


          每月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~


          覺得有用麻煩給個在看啦~??
          瀏覽 99
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  男操女视频网站 | 日韩欧美豆花视频 | 在线一区二区三区四区五区 | 中文字幕一区第一页 | 伊人激情在线 |