點(diǎn)擊「閱讀原文」查看良許原創(chuàng)精品視頻。
來(lái)源：twt社區(qū)
整理：大數(shù)據(jù)肌肉猿

1.背景

工作中使用MapReduce任務(wù)導(dǎo)出一批含有路徑的文件，共計(jì)行數(shù)300W+，需要檢測(cè)文件是否在對(duì)應(yīng)的服務(wù)器中存在，而文件所在的服務(wù)器并非hadoop集群的服務(wù)器，因此打算采用bash腳本進(jìn)行。具體的方法如下(可直接看方法2,方法1效率較低)：

2. 采用的方法

a. 方法1

原本打算使用如下腳本，進(jìn)行簡(jiǎn)單驗(yàn)證：

!/bin/bashcount=0cat oriTest.txt | while read datadocount=$(( $count+1 ))echo $countdir=echo "$data" | awk -F "\t" '{print $5}'if [ -e $dir ];thenecho "$data" >> exist.txtelseecho "$data" >> noexist.txtfidone

原始數(shù)據(jù)格式如下：

name mark id dir

運(yùn)行時(shí)發(fā)現(xiàn)處理5000行需要將近4、5分鐘的時(shí)間(機(jī)器為8核)，果斷不行啊，隨后打算采用多進(jìn)程的方法來(lái)執(zhí)行，見(jiàn)方法2

b. 方法2

主要是通過(guò)將大文件分為小文件，然后對(duì)小文件進(jìn)行后臺(tái)遍歷讀取，腳本如下：

!/bin/bashsource ~/.bashrc

判斷路徑是否存在

readdata(){cat $1 | while read datadodir=echo "$data" | awk -F "\t" '{print $5}'if [ -e $dir ];thenecho "$data" >> "exist_$1.txt"elseecho "$data" >> "noexist_$1.txt"fidone}

大文件切分為小文件，生成文件名為xaa,axb等(可以自己命名文件)

split -l 10000 oriTest.txt

declare -a files # 聲明數(shù)組

files=($(ls x*)) # 分割后的小文件名保存數(shù)組

遍歷，并后臺(tái)執(zhí)行

for i in ${files[@]};doecho $ireaddata $i &done

良許個(gè)人微信

添加良許個(gè)人微信即送3套程序員必讀資料

→ 精選技術(shù)資料共享
→ 高手如云交流社群

本公眾號(hào)全部博文已整理成一個(gè)目錄，請(qǐng)?jiān)诠娞?hào)里回復(fù)「m」獲??！
推薦閱讀：
牛逼的Linux性能剖析—perf
2.5 億！華為成立新公司！
這能忍？阿里、騰訊、京東、百度聯(lián)合出手了！！

5T技術(shù)資源大放送！包括但不限于：C/C++，Linux，Python，Java，PHP，人工智能，單片機(jī)，樹(shù)莓派，等等。在公眾號(hào)內(nèi)回復(fù)「1024」，即可免費(fèi)獲?。?！

大數(shù)據(jù)場(chǎng)景下，如何快速將Linux 大文件處理小

點(diǎn)擊「閱讀原文」查看良許原創(chuàng)精品視頻。來(lái)源：twt社區(qū)整理：大數(shù)據(jù)肌肉猿

整理：大數(shù)據(jù)肌肉猿

判斷路徑是否存在

大文件切分為小文件，生成文件名為xaa,axb等(可以自己命名文件)

遍歷，并后臺(tái)執(zhí)行

大數(shù)據(jù)場(chǎng)景下，如何快速將Linux 大文件處理小

點(diǎn)擊「閱讀原文」查看良許原創(chuàng)精品視頻。
來(lái)源：twt社區(qū)
整理：大數(shù)據(jù)肌肉猿

大文件切分為小文件，生成文件名為xaa,axb等(可以自己命名文件)

遍歷，并后臺(tái)執(zhí)行