一、基礎(chǔ)概念

1、算法概述

關(guān)聯(lián)規(guī)則挖掘可以讓我們從數(shù)據(jù)集中發(fā)現(xiàn)項(xiàng)與項(xiàng)（item 與 item）之間的關(guān)系，它在我們的生活中有很多應(yīng)用場景，“購物籃分析”就是一個常見的場景，這個場景可以從消費(fèi)者交易記錄中發(fā)掘商品與商品之間的關(guān)聯(lián)關(guān)系，進(jìn)而通過商品捆綁銷售或者相關(guān)推薦的方式帶來更多的銷售量。所以說，關(guān)聯(lián)規(guī)則挖掘是個非常有用的技術(shù)。

關(guān)聯(lián)規(guī)則是反映一個事物與其他事物之間的相互依存性和關(guān)聯(lián)性，常用于實(shí)體商店或在線電商的推薦系統(tǒng)：通過對顧客的購買記錄數(shù)據(jù)庫進(jìn)行關(guān)聯(lián)規(guī)則挖掘，最終目的是發(fā)現(xiàn)顧客群體的購買習(xí)慣的內(nèi)在共性，例如購買產(chǎn)品A的同時也連帶購買產(chǎn)品B的概率，根據(jù)挖掘結(jié)果，調(diào)整貨架的布局陳列、設(shè)計(jì)促銷組合方案，實(shí)現(xiàn)銷量的提升，最經(jīng)典的應(yīng)用案例莫過于<啤酒和尿布>。

關(guān)聯(lián)分析又稱關(guān)聯(lián)挖掘，就是在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中，查找存在于項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu)。能從大量數(shù)據(jù)中發(fā)現(xiàn)項(xiàng)集之間有趣的關(guān)聯(lián)和相關(guān)聯(lián)系。關(guān)聯(lián)分析的一個典型例子是購物籃分析。該過程通過發(fā)現(xiàn)顧客放人其購物籃中的不同商品之間的聯(lián)系，分析顧客的購買習(xí)慣。通過了解哪些商品頻繁地被顧客同時購買，這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營銷策略。其他的應(yīng)用還包括價(jià)目表設(shè)計(jì)、商品促銷、商品的排放和基于購買模式的顧客劃分。

可從數(shù)據(jù)庫中關(guān)聯(lián)分析出形如“由于某些事件的發(fā)生而引起另外一些事件的發(fā)生”之類的規(guī)則。如“67%的顧客在購買啤酒的同時也會購買尿布”，因此通過合理的啤酒和尿布的貨架擺放或捆綁銷售可提高超市的服務(wù)質(zhì)量和效益。又如“C語言課程優(yōu)秀的同學(xué)，在學(xué)習(xí)‘?dāng)?shù)據(jù)結(jié)構(gòu)’時為優(yōu)秀的可能性達(dá)88%”，那么就可以通過強(qiáng)化“C語言”的學(xué)習(xí)來提高教學(xué)效果。

2、應(yīng)用場景

01）互聯(lián)網(wǎng)推薦

個性化推薦：在界面上給用戶推薦相關(guān)商品

組合優(yōu)惠券：給購買過得用戶發(fā)放同時購買組合內(nèi)商品的優(yōu)惠券

捆綁銷售：將相關(guān)商品組合起來銷售

02）線下店鋪分析

商品配置分析：哪些商品可以一起購買,關(guān)聯(lián)商品如何陳列/促銷

客戶需求分析：分析顧客的購買習(xí)慣/顧客購買商品的時間/地點(diǎn)等

3）金融保險(xiǎn)

經(jīng)由購物籃分析能夠設(shè)計(jì)不同的服務(wù)組合以擴(kuò)大利潤；能藉由購物籃分析偵測出可能不尋常的投保組合并作預(yù)防。

4）風(fēng)控領(lǐng)域

分析同時行動的賬號、尋找有效的策略組合

3、幾個概念

關(guān)聯(lián)規(guī)則三個核心概念：支持度、置信度、提升度，用最經(jīng)典的啤酒-尿不濕給大家舉例說明這三個概念，以下是幾名客戶購買的商品列表：

01）支持度

支持度 (Support)：指某個商品組合出現(xiàn)的次數(shù)與總次數(shù)之間的比例。

在這個例子中，我們可以看到“牛奶”出現(xiàn)了 4 次，那么這 5 筆訂單中“牛奶”的支持度就是 4/5=0.8。

同樣“牛奶 + 面包”出現(xiàn)了 3 次，那么這 5 筆訂單中“牛奶 + 面包”的支持度就是 3/5=0.6

這樣理解起來是不是非常簡單了呢，大家可以動動手計(jì)算下 '尿不濕+啤酒'的支持度是多少

02）置信度

置信度 (Confidence)：指的就是當(dāng)你購買了商品 A，會有多大的概率購買商品 B

置信度（牛奶→啤酒）= 3/4=0.75，代表如果你購買了牛奶，有多大的概率會購買啤酒

置信度（啤酒→牛奶）= 3/4=0.75，代表如果你購買了啤酒，有多大的概率會購買牛奶？

置信度（啤酒→尿不濕）= 4/4=1.0，代表如果你購買了啤酒，有多大的概率會買尿不濕

由上面的例子可以看出，置信度是個條件概念，就是說在 A 發(fā)生的情況下，B 發(fā)生的概率是多少。

03）提升度

提升度 (Lift)：我們在做商品推薦或者策略的時候，重點(diǎn)考慮的是提升度，因?yàn)樘嵘却淼氖巧唐?A 的出現(xiàn)，對商品 B 的出現(xiàn)概率提升的程度。

提升度 (A→B) = 置信度 (A→B)/ 支持度 (B)

所以提升度有三種可能：

提升度 (A→B)>1：代表有提升；

提升度 (A→B)=1：代表有沒有提升，也沒有下降；

提升度 (A→B)<1：代表有下降。

提升度 (啤酒→尿不濕) =置信度 (啤酒→尿不濕）/支持度 (尿不濕)=1.0/0.8=1.25

可見啤酒對尿不濕是有提升的，提升度為1.25，其實(shí)可以簡單理解為：在全集的情況下，尿不濕的概率為0.8，而在包含啤酒這個子集中，尿不濕的概率為1，因此，子集的限定，提高了尿不濕的概率。

04）頻繁項(xiàng)集

頻繁項(xiàng)集(frequent itemset) ：就是支持度大于等于最小支持度 (Min Support) 閾值的項(xiàng)集，所以小于最小值支持度的項(xiàng)目就是非頻繁項(xiàng)集，而大于等于最小支持度的的項(xiàng)集就是頻繁項(xiàng)集。項(xiàng)集可以是單個商品，也可以是組合

Apriori算法核心思想：

某個項(xiàng)集是頻繁的，那么它的所有子集也是頻繁的。

{Milk, Bread, Coke} is frequent → {Milk, Coke} is frequent

如果一個項(xiàng)集是非頻繁項(xiàng)集，那么它的所有超集也是非頻繁項(xiàng)集
{Battery} is infrequent → {Milk, Battery} is infrequent

如圖所示，我們發(fā)現(xiàn){A,B}這個項(xiàng)集是非頻繁的，那么{A,B}這個項(xiàng)集的超集，{A,B,C},{A,B,D}等等也都是非頻繁的，這些就都可以忽略不去計(jì)算。

運(yùn)用Apriori算法的思想，我們就能去掉很多非頻繁的項(xiàng)集，大大簡化計(jì)算量。

二、算法介紹

這里用的是Python舉例，用的包是apriori，當(dāng)然R語言等其他語言，也有對應(yīng)的算法包，原來都是一樣的。

#包安裝pip install efficient-apriori#加載包from efficient_apriori import apriori# 構(gòu)造數(shù)據(jù)集data = [('牛奶','面包','尿不濕','啤酒','榴蓮'),        ('可樂','面包','尿不濕','啤酒','牛仔褲'),        ('牛奶','尿不濕','啤酒','雞蛋','咖啡'),        ('面包','牛奶','尿不濕','啤酒','睡衣'),        ('面包','牛奶','尿不濕','可樂','雞翅')]#挖掘頻繁項(xiàng)集和頻繁規(guī)則itemsets, rules = apriori(data, min_support=0.6,  min_confidence=1)#頻繁項(xiàng)集print(itemsets){1: {('啤酒',): 4, ('尿不濕',): 5, ('牛奶',): 4, ('面包',): 4}, 2: {('啤酒', '尿不濕'): 4, ('啤酒', '牛奶'): 3, ('啤酒', '面包'): 3, ('尿不濕', '牛奶'): 4, ('尿不濕', '面包'): 4, ('牛奶', '面包'): 3}, 3: {('啤酒', '尿不濕', '牛奶'): 3, ('啤酒', '尿不濕', '面包'): 3, ('尿不濕', '牛奶', '面包'): 3}}itemsets[1] #滿足條件的一元組合{('啤酒',): 4, ('尿不濕',): 5, ('牛奶',): 4, ('面包',): 4}itemsets[2]#滿足條件的二元組合{('啤酒', '尿不濕'): 4,('啤酒', '牛奶'): 3,('啤酒', '面包'): 3,('尿不濕', '牛奶'): 4,('尿不濕', '面包'): 4,('牛奶', '面包'): 3}itemsets[3]#滿足條件的三元組合{('啤酒', '尿不濕', '牛奶'): 3, ('啤酒', '尿不濕', '面包'): 3, ('尿不濕', '牛奶', '面包'): 3}#頻繁規(guī)則print(rules)[{啤酒} -> {尿不濕}, {牛奶} -> {尿不濕}, {面包} -> {尿不濕}, {啤酒, 牛奶} -> {尿不濕}, {啤酒, 面包} -> {尿不濕}, {牛奶, 面包} -> {尿不濕}]

三、挖掘?qū)嵗?/span>

每個導(dǎo)演都有自己的偏好、比如周星馳有星女郎，張藝謀有謀女郎，且鞏俐經(jīng)常在張藝謀的電影里面出現(xiàn)，因此，每個導(dǎo)演對演員的選擇都有一定的偏愛，我們以寧浩導(dǎo)演為例，分析下選擇演員的一些偏好，沒有找到公開的數(shù)據(jù)集，自己手動扒了一部分，大概如下，有些實(shí)在有點(diǎn)多，于是簡化下進(jìn)行分析

可以看到，我們一共扒了9部電影，計(jì)算的時候，支持度的時候，總數(shù)就是9.

#把電影數(shù)據(jù)轉(zhuǎn)換成列表data = [['葛優(yōu)','黃渤','范偉','鄧超','沈騰','張占義','王寶強(qiáng)','徐崢','閆妮','馬麗'],['黃渤','張譯','韓昊霖','杜江','葛優(yōu)','劉昊然','宋佳','王千源','任素汐','吳京'],['郭濤','劉樺','連晉','黃渤','徐崢','優(yōu)恵','羅蘭','王迅'],['黃渤','舒淇','王寶強(qiáng)','張藝興','于和偉','王迅','李勤勤','李又麟','寧浩','管虎','梁靜','徐崢','陳德森','張磊'],['黃渤','沈騰','湯姆·派福瑞','馬修·莫里森','徐崢','于和偉','雷佳音','劉樺','鄧飛','蔡明凱','王戈','凱特·納爾遜','王硯偉','呲路'],['徐崢','黃渤','余男','多布杰','王雙寶','巴多','楊新鳴','郭虹','陶虹','黃精一','趙虎','王輝'],['黃渤','戎祥','九孔','徐崢','王雙寶','巴多','董立范','高捷','馬少驊','王迅','劉剛','WorapojThuantanon','趙奔','李麒麟','姜志剛','王鷺','寧浩'],['黃渤','徐崢','袁泉','周冬雨','陶慧','岳小軍','沈騰','張儷','馬蘇','劉美含','王硯輝','焦俊艷','郭濤'],['雷佳音','陶虹','程媛媛','山崎敬一','郭濤','范偉','孫淳','劉樺','黃渤','岳小軍','傅亨','王文','楊新鳴']]

#算法應(yīng)用itemsets, rules = apriori(data, min_support=0.5,  min_confidence=1)print(itemsets){1: {('徐崢',): 7, ('黃渤',): 9}, 2: {('徐崢', '黃渤'): 7}}print(rules)[{徐崢} -> {黃渤}]