Lift (data mining)

Nel data mining e, segnatamente, nell'apprendimento di regole di associazione, il lift è una misura delle prestazioni di un regola di associazione^[1]^[2] (modello di targeting) nel predire o classificare casi con risposta migliorata (rispetto alla popolazione nel suo complesso), misurate rispetto a un modello a scelta casuale. Una regola funziona bene se la risposta all'interno del target ( $T$ ) è molto migliore della base di confronto ( $B$ ) mediata sull'intera popolazione. Il lift è semplicemente il rapporto tra questi valori: risposta target divisa per risposta media. Matematicamente,

\operatorname {lift} ={\frac {P(T\mid B)}{P(T)}}={\frac {P(T\wedge B)}{P(T)P(B)}}

Ad esempio, si supponga che una popolazione abbia un tasso di risposta medio del 5%, ma un certo modello o regola abbia identificato un segmento con un tasso di risposta del 20%. In tal caso, quel segmento avrebbe un incremento di 4,0 (20%/5%).

Applicazioni

In genere, il modellatore cerca di suddividere la popolazione in quantili e di classificarli in base al lift. A livello commerciale, si può quindi considerare ciascun quantile e, valutando il tasso di risposta previsto (e il relativo beneficio finanziario) rispetto al costo, si può decidere se commercializzare o meno quel quantile.

La curva di lift può anche essere considerata una variante della curva ROC (caratteristica operativa del ricevitore) ed è nota in econometria anche come curva di Lorenz o di potenza.^[3]

Esempio

Supponiamo che il dataset da cui estrarre le regole sia:

Antecedente	Conseguente
UN	0
UN	0
UN	1
UN	0
B	1
B	0
B	1

dove l'antecedente è la variabile di input che possiamo controllare e il conseguente è la variabile che stiamo cercando di prevedere. I problemi di mining reali in genere presentano antecedenti più complessi, ma solitamente si concentrano su conseguenti a valore singolo.

La maggior parte degli algoritmi di mining troverebbe le seguenti regole:

Regola 1: se A allora 0
Regola 2: se B allora 1

perché questi sono semplicemente gli schemi più comuni riscontrati nei dati. Una rapida scorsa alla tabella precedente dovrebbe convincere dell'ovvietà di queste regole.

Il supporto $P({\text{antecedente}}\land {\text{conseguente}})$ per la Regola 1 è 3/7 perché questo è il numero di elementi nel dataset in cui l'antecedente è A e il conseguente 0. Il supporto per la Regola 2 è 2/7 perché due dei sette record hanno antecedente B e conseguente 1. I supporti possono essere scritti come segue:

\operatorname {supp} (A\Rightarrow 0)=P(A\land 0)=P(A)P(0\mid A)=P(0)P(A\mid 0)

\operatorname {supp} (B\Rightarrow 1)=P(B\land 1)=P(B)P(1\mid B)=P(1)P(B\mid 1)

La confidenza $P({\text{conseguente}}|{\text{antecedente}})$ per la Regola 1 è 3/4 perché tre dei quattro record che hanno antecedente A e conseguente 0. La confidenza per la Regola 2 è 2/3 perché due dei tre record con antecedente B hanno conseguente 1. I valori di confidenza possono essere scritte come segue:

\operatorname {conf} (A\Rightarrow 0)=P(0\mid A)

\operatorname {conf} (B\Rightarrow 1)=P(1\mid B)

Il lift può essere calcolato dividendo la confidenza per la probabilità non condizionata del conseguente oppure dividendo il supporto per la probabilità dell'antecedente moltiplicata per la probabilità del conseguente, quindi:

Il lift per la regola 1 è (3/4)/(4/7) = (3*7)/(4 * 4) = 21/16 ≈ 1,31
Il lift per la regola 2 è (2/3)/(3/7) = (2*7)/(3 * 3) = 14/9 ≈ 1,56

\operatorname {lift} (A\Rightarrow 0)={\frac {P(0\mid A)}{P(0)}}={\frac {P(A\land 0)}{P(A)P(0)}}

\operatorname {lift} (B\Rightarrow 1)={\frac {P(1\mid B)}{P(1)}}={\frac {P(B\land 1)}{P(B)P(1)}}

Se una regola avesse un lift pari a 1, ciò implicherebbe che la probabilità di accadimento dell'antecedente e quella del conseguente sono indipendenti l'una dall'altra. Quando due eventi sono indipendenti l'uno dall'altro, non è possibile trarre alcuna regola che li coinvolga.

Se il lift è > 1, come in questo caso per le regole 1 e 2, ciò consente di sapere in che misura queste due occorrenze dipendono l'una dall'altra e rende tali regole potenzialmente utili per predire il conseguente in futuri dataset.

Si osservi che, sebbene la Regola 1 abbia una confidenza maggiore, essa ha un lift inferiore. Intuitivamente, sembrerebbe che la Regola 1 sia di maggior valore proprio per la sua maggiore confidenza: sembra più accurata (meglio supportata). Tuttavia, l'accuratezza della regola indipendente dal dataset può essere fuorviante. Il valore del lift risiede nel fatto che considera sia la confidenza della regola sia l'intero dataset.

Note

↑ (EN) Charu C. Aggarwal, Data Mining, in SpringerLink, 2015, DOI:10.1007/978-3-319-14142-8.
↑ Ian H. Witten, Eibe Frank e Mark Andrew Hall, Data mining: practical machine learning tools and techniques, collana Morgan Kaufmann series in data management systems, 3rd ed, Morgan Kaufmann, 2011, ISBN 978-0-12-374856-0.
↑ Stéphane Tufféry, Data mining and statistics for decision making, collana Wiley series in computational statistics, Wiley, 2011, ISBN 978-0-470-97928-0.

Voci correlate

[1] (EN) Charu C. Aggarwal, Data Mining, in SpringerLink, 2015, DOI:10.1007/978-3-319-14142-8.

[2] Ian H. Witten, Eibe Frank e Mark Andrew Hall, Data mining: practical machine learning tools and techniques, collana Morgan Kaufmann series in data management systems, 3rd ed, Morgan Kaufmann, 2011, ISBN 978-0-12-374856-0.

[3] Stéphane Tufféry, Data mining and statistics for decision making, collana Wiley series in computational statistics, Wiley, 2011, ISBN 978-0-470-97928-0.

[1]

[2]

[3]