解答思路

每個 URL 占 64B，那么 50 億個 URL占用的空間大小約為 320GB。

5, 000, 000, 000 * 64B ≈ 5GB * 64 = 320GB

由于內存大小只有 4G，因此，我們不可能一次性把所有 URL 加載到內存中處理。對于這種類型的題目，一般采用分治策略，即：把一個文件中的 URL 按照某個特征劃分為多個小文件，使得每個小文件大小不超過 4G，這樣就可以把這個小文件讀到內存中進行處理了。

思路如下?

首先遍歷文件 a，對遍歷到的 URL 求 hash(URL) % 1000 ，根據計算結果把遍歷到的 URL 存儲到 a0, a1, a2, ..., a999，這樣每個大小約為 300MB。使用同樣的方法遍歷文件 b，把文件 b 中的 URL 分別存儲到文件 b0, b1, b2, ..., b999 中。

這樣處理過后，所有可能相同的 URL 都在對應的小文件中，即 a0 對應 b0, ..., a999 對應 b999，不對應的小文件不可能有相同的 URL。那么接下來，我們只需要求出這 1000 對小文件中相同的 URL 就好了。

接著遍歷 ai( i∈[0,999] )，把 URL 存儲到一個 HashSet 集合中。然后遍歷 bi 中每個 URL，看在 HashSet 集合中是否存在，若存在，說明這就是共同的 URL，可以把這個 URL 保存到一個單獨的文件中。

方法總結

分而治之，進行哈希取余；
對每個子文件進行 HashSet 統(tǒng)計。

回復下方「關鍵詞」，獲取優(yōu)質資源

回復關鍵詞「簡明python」，立即獲取入門必備書籍《簡明python教程》電子版

回復關鍵詞「爬蟲」，立即獲取爬蟲學習資料

推薦閱讀

騰訊牛逼，把特朗普整懵逼了！
Docker 禁止美國“實體清單”主體使用，Docker 開源項目應不受影響
6 款超好用的 Python 時間庫
中國程序員最容易發(fā)音錯誤的單詞
安利下這個庫，解放你左手

請拼命點贊

面試：如何從 100 億 URL 中找出相同的 URL？

解答思路

方法總結