乱伦引绣视频网站,AV成人在线乌鸦,99热手机在线精品,欧美老熟妇性色XXXXx,午夜激情亚洲无码,亚洲午夜成人精品,十八禁成人网站,久久性爱视频

一、大數(shù)據(jù)時代的現(xiàn)狀

當前我們正處于大數(shù)據(jù)時代，每天我們會通過手機、電腦等設(shè)備不斷的將自己的數(shù)據(jù)傳到互聯(lián)網(wǎng)上。據(jù)統(tǒng)計，YouTube上每分鐘就會增加500多小時的視頻，面對如此海量的數(shù)據(jù)，如何高效的存儲與處理它們就成了當前最大的挑戰(zhàn)。

但在這個對硬件要求越來越高的時代，CPU卻似乎并不這么給力了。自2013年以來，處理器頻率的增長速度逐漸放緩了，目前CPU的頻率主要分布在3~4GHz。

這個也是可以理解的，畢竟摩爾定律都生效了50年了，如果它老人家還如此給力，那我們以后就只要靜等處理器頻率提升，什么計算問題在未來那都不是話下了。

實際上CPU與頻率是于能耗密切相關(guān)的，我們之前可以通過加電壓來提升頻率，但當能耗太大，散熱問題就無法解決了，所以頻率就逐漸穩(wěn)定下來了，而Intel與AMD等大制造商也將目標轉(zhuǎn)向了多核芯片，目前普通桌面PC也達到了4~8核。

二、面對挑戰(zhàn)的方法

咱們有了多核CPU，以及大量計算設(shè)備，那我們怎么來用它們應(yīng)對大數(shù)據(jù)時代的挑戰(zhàn)了。那就要提到下面的方法了。

2.1 并行計算

并行（parallelism）是指程序運行時的狀態(tài)，如果在同時刻有多個“工作單位”運行，則所運行的程序處于并行狀態(tài)。圖一是并行程序的示例，開始并行后，程序從主線程分出許多小的線程并同步執(zhí)行，此時每個線程在各個獨立的CPU進行運行，在所有線程都運行完成之后，它們會重新合并為主線程，而運行結(jié)果也會進行合并，并交給主線程繼續(xù)處理。

圖一、多線程并行

圖二是一個多線程的任務(wù)（沿線為線程時間），但它不是并行任務(wù)。這是因為task1與task2總是不在同一時刻執(zhí)行，這個情況下單核CPU完全可以同時執(zhí)行task1與task2。

方法是在task1不執(zhí)行的時候立即將CPU資源給task2用，task2空閑的時候CPU給task1用，這樣通過時間窗調(diào)整任務(wù)，即可實現(xiàn)多線程程序，但task1與task2并沒有同時執(zhí)行過，所以不能稱為并行。我們可以稱它為并發(fā)（concurrency）程序，這個程序一定意義上提升了單個CPU的使用率，所以效率也相對較高。

圖二、多線程并發(fā)

并行編程模型：

數(shù)據(jù)并行（Data Parallel）模型：將相同的操作同時作用于不同數(shù)據(jù)，只需要簡單地指明執(zhí)行什么并行操作以及并行操作對象。該模型反映在圖一中即是，并行同時在主線程中拿取數(shù)據(jù)進行處理，并線程執(zhí)行相同的操作，然后計算完成后合并結(jié)果。各個并行線程在執(zhí)行時互不干擾。
消息傳遞（Message Passing）模型：各個并行執(zhí)行部分之間傳遞消息，相互通訊。消息傳遞模型的并行線程在執(zhí)行時會傳遞數(shù)據(jù)，可能一個線程運行到一半的時候，它所占用的數(shù)據(jù)或處理結(jié)果就要交給另一個線程處理，這樣，在設(shè)計并行程序時會給我們帶來一定麻煩。該模型一般是分布式內(nèi)存并行計算機所采用方法，但是也可以適用于共享式內(nèi)存的并行計算機。

什么時候用并行計算：

多核CPU——計算密集型任務(wù)。盡量使用并行計算，可以提高任務(wù)執(zhí)行效率。計算密集型任務(wù)會持續(xù)地將CPU占滿，此時有越多CPU來分擔任務(wù)，計算速度就會越快，這種情況才是并行程序的用武之地。
單核CPU——計算密集型任務(wù)。此時的任務(wù)已經(jīng)把CPU資源100%消耗了，就沒必要使用并行計算，畢竟硬件障礙擺在那里。
單核CPU——I/O密集型任務(wù)。I/O密集型任務(wù)在任務(wù)執(zhí)行時需要經(jīng)常調(diào)用磁盤、屏幕、鍵盤等外設(shè)，由于調(diào)用外設(shè)時CPU會空閑，所以CPU的利用率并不高，此時使用多線程程序，只是便于人機交互。計算效率提升不大。
多核CPU——I/O密集型任務(wù)。同單核CPU——I/O密集型任務(wù)。

2.2 改用GPU處理計算密集型程序

GPU即圖形處理器核心（Graphics Processing Unit），它是顯卡的心臟，顯卡上還有顯存，GPU與顯存類似與CPU與內(nèi)存。

GPU與CPU有不同的設(shè)計目標，CPU需要處理所有的計算指令，所以它的單元設(shè)計得相當復(fù)雜；而GPU主要為了圖形“渲染”而設(shè)計，渲染即進行數(shù)據(jù)的列處理，所以GPU天生就會為了更快速地執(zhí)行復(fù)雜算術(shù)運算和幾何運算的。

GPU相比與CPU有如下優(yōu)勢：

強大的浮點數(shù)計算速度。
大量的計算核心，可以進行大型并行計算。一個普通的GPU也有數(shù)千個計算核心。
強大的數(shù)據(jù)吞吐量，GPU的吞吐量是CPU的數(shù)十倍，這意味著GPU有適合的處理大數(shù)據(jù)。

GPU目前在處理深度學習上用得十分多，英偉達（NVIDIA）目前也花大精力去開發(fā)適合深度學習的GPU?，F(xiàn)在上百層的神經(jīng)網(wǎng)絡(luò)已經(jīng)很常見了，面對如此龐大的計算量，CPU可能需要運算幾天，而GPU卻可以在幾小時內(nèi)算完，這個差距已經(jīng)足夠別人比我們多打幾個比賽，多發(fā)幾篇論文了。

3.3 分布式計算

說到分布式計算，我們就先說下下Google的3篇論文，原文可以直接點鏈接去下載：

GFS(The Google File System) :解決數(shù)據(jù)存儲的問題。采用N多臺廉價的電腦，使用冗余的方式，來取得讀寫速度與數(shù)據(jù)安全并存的結(jié)果。
MapReduce(Simplified Data Processing on Large Clusters) :函數(shù)式編程，把所有的操作都分成兩類，map與reduce，map用來將數(shù)據(jù)分成多份，分開處理，reduce將處理后的結(jié)果進行歸并，得到最終的結(jié)果。
BigTable(Bigtable: A Distributed Storage System for Structured Data) :在分布式系統(tǒng)上存儲結(jié)構(gòu)化數(shù)據(jù)的一個解決方案，解決了巨大的Table的管理、負載均衡的問題.

Google在2003~2006年發(fā)表了這三篇論文之后，一時之間引起了轟動，但是Google并沒有將MapReduce開源。在這種情況下Hadoop就出現(xiàn)了，Doug Cutting在Google的3篇論文的理論基礎(chǔ)上開發(fā)了Hadoop，此后Hadoop不斷走向成熟，目前Facebook、IBM、ImageShack等知名公司都在使用Hadoop運行他們的程序。

分布式計算的優(yōu)勢：

可以集成諸多低配的計算機（成千上萬臺）進行高并發(fā)的儲存與計算，從而達到與超級計算機媲美的處理能力。

三、用python寫并行程序

在介紹如何使用python寫并行程序之前，我們需要先補充幾個概念，分別是進程、線程與全局解釋器鎖（Global Interpreter Lock, GIL）。

3.1 進程與線程

進程（process）：

在面向線程設(shè)計的系統(tǒng)（如當代多數(shù)操作系統(tǒng)、Linux 2.6及更新的版本）中，進程本身不是基本運行單位，而是線程的容器。
進程擁有自己獨立的內(nèi)存空間，所屬線程可以訪問進程的空間。
程序本身只是指令、數(shù)據(jù)及其組織形式的描述，進程才是程序的真正運行實例。例如，Visual Studio開發(fā)環(huán)境就是利用一個進程編輯源文件，并利用另一個進程完成編譯工作的應(yīng)用程序。

線程（threading）：

線程有自己的一組CPU指令、寄存器與私有數(shù)據(jù)區(qū)，線程的數(shù)據(jù)可以與同一進程的線程共享。
當前的操作系統(tǒng)是面向線程的，即以線程為基本運行單位，并按線程分配CPU。

進程與線程有兩個主要的不同點，其一是進程包含線程，線程使用進程的內(nèi)存空間，當然線程也有自己的私有空間，但容量小；其二是進程有各自獨立的內(nèi)存空間，互不干擾，而線程是共享內(nèi)存空間。

圖三展示了進程、線程與CPU之間的關(guān)系。在圖三中，進程一與進程二都含有3個線程，CPU會按照線程來分配任務(wù)，如圖中4個CPU同時執(zhí)行前4個線程，后兩個標紅線程處于等待狀態(tài)，在CPU運行完當前線程時，等待的線程會被喚醒并進入CPU執(zhí)行。通常，進程含有的線程數(shù)越多，則它占用CPU的時間會越長。

圖三、進程、線程與CPU關(guān)系=

3.2 全局解釋器鎖GIL：

GIL是計算機程序設(shè)計語言解釋器用于同步線程的一種機制，它使得任何時刻僅有一個線程在執(zhí)行。即便在多核心處理器上，使用 GIL 的解釋器也只允許同一時間執(zhí)行一個線程。Python的Cpython解釋器（普遍使用的解釋器）使用GIL，在一個Python解釋器進程內(nèi)可以執(zhí)行多線程程序，但每次一個線程執(zhí)行時就會獲得全局解釋器鎖，使得別的線程只能等待，由于GIL幾乎釋放的同時就會被原線程馬上獲得，那些等待線程可能剛喚醒，所以經(jīng)常造成線程不平衡享受CPU資源，此時多線程的效率比單線程還要低下。在python的官方文檔里，它是這樣解釋GIL的：

In CPython, the global interpreter lock, or GIL, is a mutex that prevents multiple native threads from executing Python bytecodes at once. This lock is necessary mainly because CPython’s memory management is not thread-safe. (However, since the GIL exists, other features have grown to depend on the guarantees that it enforces.)

可以說它的初衷是很好的，為了保證線程間的數(shù)據(jù)安全性；但是隨著時代的發(fā)展，GIL卻成為了python并行計算的最大障礙，但這個時候GIL已經(jīng)遍布CPython的各個角落，修改它的工作量太大，特別是對這種開源性的語音來說。但幸好GIL只鎖了線程，我們可以再新建解釋器進程來實現(xiàn)并行，那這就是multiprocessing的工作了。

3.3 multiprocessing

multiprocessing是python里的多進程包，通過它，我們可以在python程序里建立多進程來執(zhí)行任務(wù)，從而進行并行計算。官方文檔如下所述：

The multiprocessing package offers both local and remote concurrency, effectively side-stepping the Global Interpreter Lock by using subprocesses instead of threads.

我們接下來介紹下multiprocessing的各個接口：

3.3.1 進程process

multiprocessing.Process(target=None, args=())
 target: 可以被run()調(diào)用的函數(shù)，簡單來說就是進程中運行的函數(shù)
 args: 是target的參數(shù)
process的方法：
 start(): 開始啟動進程，在創(chuàng)建process之后執(zhí)行
 join([timeout])：阻塞目前父進程，直到調(diào)用join方法的進程執(zhí)行完或超時（timeout），才繼續(xù)執(zhí)行父進程
 terminate():終止進程，不論進程有沒有執(zhí)行完，盡量少用。

示例1

from multiprocessing import Process
def f(name):
 print 'hello', name
if __name__ == '__main__':
 p = Process(target=f, args=('bob',)) # p進程執(zhí)行f函數(shù)，參數(shù)為'bob'，注意后面的“,”
 p.start() # 進程開始
 p.join() # 阻塞主線程，直至p進程執(zhí)行結(jié)束

3.3.2 進程池Process Pools

class multiprocessing.Pool([processes])
 processes是進程池中的進程數(shù)，默認是本機的cpu數(shù)量
方法：
 apply(func[, args[, kwds]])進程池中的進程進行func函數(shù)操作，操作時會阻塞進程，直至生成結(jié)果。
 apply_async(func[, args[, kwds[, callback]]])與apply類似，但是不會阻塞進程
 map(func, iterable[, chunksize])進程池中的進程進行映射操作
 map_async(func, iterable[, chunksize[, callback]])
 imap(func, iterable[, chunksize])：返回有序迭代器
 imap_unordered(func, iterable[, chunsize])：返回無序迭代器
 close()：禁止進程池再接收任務(wù)
 terminate()：強行終止進程池，不論是否有任務(wù)在執(zhí)行
 join()：在close()或terminate()之后進行，等待進程退出

示例2

from multiprocessing import Pool
def f(x):
 return x*x
if __name__ == '__main__':
 p = Pool(5) # 創(chuàng)建有5個進程的進程池
 print(p.map(f, [1, 2, 3])) # 將f函數(shù)的操作給進程池

3.3.3 Pipes & Queues

multiprocessing.Pipe([duplex])
 返回兩個連接對象（conn1, conn2），兩個連接對象分別訪問pipe的頭和尾，進行讀寫操作
 Duplex: True(default),創(chuàng)建的pipe是雙向的，也即兩端都可以進行讀寫；若為False，則pipe是單向的，僅可以在一端讀，另一端寫，此時與Queue類似。
multiprocessing.Queue([maxsize])
 qsize()：返回queue中member數(shù)量
 empty()：如果queue是空的，則返回true
 full()：如果queue中member數(shù)量達到maxsize，則返回true
 put(obj)：將一個object放入到queue中
 get()：從隊列中取出一個object并將它從queue中移除，F(xiàn)IFO原則
 close()：關(guān)閉隊列，并將緩存的object寫入pipe

示例

from multiprocessing import Pool
import time
def f(x):
 return x*x
if __name__ == '__main__':
 pool = Pool(processes=4) # start 4 worker processes
 result = pool.apply_async(f, (10,)) # evaluate "f(10)" asynchronously in a single process
 print result.get(timeout=1) # prints "100" unless your computer is *very* slow
 print pool.map(f, range(10)) # prints "[0, 1, 4,..., 81]"
 it = pool.imap(f, range(10))
 print it.next() # prints "0"
 print it.next() # prints "1"
 print it.next(timeout=1) # prints "4" unless your computer is *very* slow
 result = pool.apply_async(time.sleep, (10,))
 print result.get(timeout=1) # raises multiprocessing.TimeoutError

3.3.4 進程鎖multiprocessing.Lock

當一個進程獲得（acquire）鎖之后，其它進程在想獲得鎖就會被禁止，可以保護數(shù)據(jù)，進行同步處理。
 acquire(block=True, timeout=None)：嘗試獲取一個鎖，如果block為true，則會在獲得鎖之后阻止其它進程再獲取鎖。
 release()：釋放鎖

3.3.5 共享內(nèi)存——Value, Array

共享內(nèi)存通常需要配合進程鎖來處理，保證處理的順序相同。

multiprocessing.Value(typecode_or_type, *args[, lock])
 返回一個ctype對象，
 創(chuàng)建c = Value(‘d’, 3.14),調(diào)用c.value()
multiprocessing.Array(typecode_or_type, size_or_initializer, *, lock=True)
 返回一個ctype數(shù)組，只能是一維的
 Array(‘i’, [1, 2, 3, 4])

3.3.6 其它方法

multiprocessing.active_children()：返回當前進程的所有子進程
multiprocessing.cpu_count()：返回本計算機的cpu數(shù)量
multiprocessing.current_process()：返回當前進程

3.3.7 注意事項：

盡量避免共享數(shù)據(jù)
所有對象都盡量是可以pickle的
避免使用terminate強行終止進程，以造成不可預(yù)料的后果
有隊列的進程在終止前隊列中的數(shù)據(jù)需要清空，join操作應(yīng)放到queue清空后
明確給子進程傳遞資源、參數(shù)

windows平臺另需注意：

注意跨模塊全局變量的使用，可能被各個進程修改造成結(jié)果不統(tǒng)一
主模塊需要加上if name == ' main ':來提高它的安全性，如果有交互界面，需要加上freeze_support()

四、multiprocessing實戰(zhàn)

process、lock與value嘗試：

import multiprocessing as mp
import time
def job(v, num, l):
 l.acquire() # 鎖住
 for _ in range(5):
 time.sleep(0.1)
 v.value += num # 獲取共享內(nèi)存
 print(v.value)
 l.release() # 釋放
def multicore():
 l = mp.Lock() # 定義一個進程鎖
 #l = 1
 v = mp.Value('i', 0) # 定義共享內(nèi)存
 p1 = mp.Process(target=job, args=(v,1,l)) # 需要將lock傳入
 p2 = mp.Process(target=job, args=(v,3,l))
 p1.start()
 p2.start()
 p1.join()
 p2.join()
if __name__=='__main__':
 multicore()

上述代碼即對共享內(nèi)存疊加5次，p1進程每次疊加1，p2進程每次疊加3，為了避免p1與p2在運行時搶奪共享數(shù)據(jù)v，在進程執(zhí)行時鎖住了該進程，從而保證了執(zhí)行的順序。我測試了三個案例：

直接運行上述代碼輸出[1, 2, 3, 4, 5, 8, 11, 14, 17, 20]，運行時間為1.037s
在1的基礎(chǔ)上注釋掉鎖（上述注釋了三行），在沒有鎖的情況下，輸出[1, 4, 5, 8, 9, 12, 13, 15, 14, 16],運行時間為0.53s
在2的基礎(chǔ)上將p1.join()調(diào)到p2.start()前面，輸出為[1, 2, 3, 4, 5, 8, 11, 14, 17, 20]，運行時間為1.042s.

可以發(fā)現(xiàn)，沒鎖的情況下調(diào)整join可以取得與加鎖類似的結(jié)果，這是因為join即是阻塞主進程，直至當前進程結(jié)束才回到主進程，若將p1.join（）放到p1.start()后面，則會馬上阻塞主進程，使得p2要稍后才開始，這與鎖的效果一樣。

如果如上述代碼所示，p1.join（）在p2.start()后面，雖然是p1先join()，但這時只是阻塞了主進程，而p2是兄弟進程，它已經(jīng)開始了，p1就不能阻止它了，所以這時如果沒鎖的話p1與p2就是并行了，運行時間就是一半，但因為它們爭搶共享變量，所以輸出就變得不確定了。

pool

import multiprocessing as mp
#import pdb
def job(i):
 return i*i
def multicore():
 pool = mp.Pool()
 #pdb.set_trace()
 res = pool.map(job, range(10))
 print(res)
 res = pool.apply_async(job, (2,))
 # 用get獲得結(jié)果
 print(res.get())
 # 迭代器，i=0時apply一次，i=1時apply一次等等
 multi_res = [pool.apply_async(job, (i,)) for i in range(10)]
 # 從迭代器中取出
 print([res.get() for res in multi_res])
multicore()

pool其實非常好用，特別是map與apply_async。通過pool這個接口，我們只有指定可以并行的函數(shù)與函數(shù)參數(shù)列表，它就可以自動幫我們創(chuàng)建多進程池進行并行計算，真的不要太方便。pool特別適用于數(shù)據(jù)并行模型，假如是消息傳遞模型那還是建議自己通過process來創(chuàng)立進程吧。

總結(jié)

小子這次主要是按自己的理解把并行計算理了下，對進程、線程、CPU之間的關(guān)系做了下闡述，并把python的multiprocessing這個包拎了拎，個人感覺這個里面還大有學問，上次我一個師兄用python的process來控制單次迭代的運行時間（運行超時就跳過這次迭代，進入下一次迭代）也是讓我漲了見識，后面還要多多學習啊。

核桃干貨 | 快速掌握用python寫并行程序，干貨滿滿

核桃干貨 | 快速掌握用python寫并行程序，干貨滿滿