Metoda asocjacyjna

Metoda asocjacyjna (odkrywania asocjacji) – metoda eksploracji danych stosowana w uczeniu maszynowym, bioinformatyce, eksploracji danych oraz w produkcji ciągłej^[1].

Polega ona na analizie zbioru zmiennych w celu znalezienia występujących w nim powtarzających się zależności. Rezultatem tej analizy są reguły asocjacyjne oraz odpowiednie parametry^[2]. W odróżnieniu od wyszukiwania sekwencji, metody asocjacyjne zazwyczaj nie uwzględniają kolejności towarów ani w ramach transakcji, ani w transakcjach. W 1991 Piatetsky-Shapiro opisuje analizę i prezentację silnych reguł odkrytych podczas analiz baz danych za pomocą miar ciekawości (measures of interestingness), na bazie tej koncepcji w 1993 Rakesh Agrawal, Tomasz Imieliński i Arun Swami zastosowali reguły asocjacyjne w celu wykrycia prawidłowości między produktami w dużych transakcjach rejestrowanych przez kasy (point-of-sale) w supermarketach^[3]. Takie dane służą jako podstawa strategii cenowej, oraz rozlokowania produktów. Na podstawie danych transakcyjnych mogą powstaną reguły asocjacyjne:

Przykładowo: ${m a k a r o n, o r e g a n o, p o m i d o r y} \Rightarrow {s p a g h e t t i}$

Po zakupie pomidorów i oregano, klient prawdopodobnie również zakupi makaron, dlatego optymalnym rozwiązaniem byłaby lokalizacja tych produktów blisko siebie. Celem metod asocjacyjnych jest próba naśladownictwa cech ludzkiego mózgu i możliwości asocjacji abstrakcyjnej z nowych nieskategoryzowanych danych przez maszynę, przy założeniu wystarczająco dużego zestawu danych^[4].

Definicja

Bazując na definicji Agrawala, Imielińskiego, Swamiego problem określania reguł asocjacyjnych definiowany jest jako: Niech $I = {i_{1}, i_{2}, \dots, i_{n}}$ będzie zbiorem $n$ atrybutów binarnych nazywanych elementami.

Niech $D = {t_{1}, t_{2}, \dots, t_{m}}$ będzie zbiorem transakcji nazywanych bazą danych.

Każda transakcja w $D$ ma unikalny identyfikator transakcji i zawiera podzbiór elementów w $I .$ Reguła jest zdefiniowana jako implikacja formuły: $X \Rightarrow Y,$ gdzie $X, Y \subseteq I .$

Reguła jest zdefiniowana tylko pomiędzy zestawem a pojedynczym elementem $X \Rightarrow i_{j}$ dla $i_{j} \in I .$

Każda reguła składa się z dwóch różnych zestawów przedmiotów, znanych również jako zestaw danych (itemsets)

$X$ i $Y,$ gdzie $X$ jest nazywane „poprzednikiem” lub „left-hand-side” (LHS) i gdzie $Y$ jest nazywane sekwencją lub „right-hand-side” (RHS). Aby zilustrować te pojęcia, używamy przykładu

supermarketów. Zestaw przedmiotów to $I = {m l e k o, c h l e b, m a s l o, p i w o, p i e l u c h y}$ i w tabeli przedstawiono małą bazę danych zawierającą pozycje, gdzie w każdym wpisie wartość 1 oznacza obecność towaru w odpowiedniej transakcji, a wartość 0 oznacza brak pozycji w tej transakcji.

Przykładową regułą dla supermarketu może być ${m a s l o, c h l e b} \Rightarrow {m l e k o}$ oznacza, że przy zakupie masła i chleba klienci kupują również mleko.

W zastosowaniach praktycznych reguła wymaga wsparcia kilkuset transakcji, zanim będzie można ją uznać za statystycznie istotną, a zestawy danych często zawierają tysiące lub miliony transakcji^[3].

Wskaźniki reguł^[5]

Wsparcie: zbioru jest definiowane jako względna częstotliwość danych transakcji zawierający tę grupę.

$s u p p (X \Rightarrow Y) = \frac{s u p p (X \cup Y)}{N},$ gdzie N jest sumą elementów zbioru. Ponadto, $supp (X \cup Y)$ definiuje wsparcie dla zestawu elementów. Odpowiada to bezwzględnej częstotliwości ilości pozycji w danych całkowitych. W tym momencie używamy sumy dwóch stron reguł $X \cup Y$ aby określić wszystkie elementy danych całkowitych, które zawierają zarówno zestaw elementów zbioru $X$ oraz $Y .$

Zaufanie: względna częstotliwość przykładów, w których reguła jest prawidłowa.

c o n f i d e n c e (X \Rightarrow Y) = \frac{s u p p (X \cup Y)}{s u p p (X)}

Przyrost (lift): Przyrost wskazuje, jak duża wartość ufności dla reguły przekraczającej oczekiwaną wartość, więc pokazuje ogólne znaczenie reguły.

l i f t (X \Rightarrow Y) = \frac{s u p p (X \cup Y)}{s u p p (X) \times s u p p (Y)},

z zastrzeżeniem:

\begin{matrix} lift (X \Rightarrow Y) > 1 & \to X und Y są pozytywnie skorelowane \\ lift (X \Rightarrow Y) < 1 & \to X und Y są negatywnie skorelowane \\ lift (X \Rightarrow Y) = 1 & \to X und Y są niezależne \end{matrix}

Opis procesu

Reguły asocjacyjne muszą spełnić określone przez użytkownika minimalne wsparcie i minimalną pewność określoną przez użytkownika w tym samym czasie. Generowanie reguły asocjacyjnej zwykle dzieli się na dwa osobne etapy:

Minimalny próg wsparcia jest stosowany, aby znaleźć wszystkie częste zestawy przedmiotów w bazie danych. Minimalne ograniczenie zaufania jest stosowane do tych częstych zestawów przedmiotów w celu utworzenia reguł.

Znalezienie wszystkich częstych zestawów przedmiotów w bazie danych jest trudne, ponieważ wymaga przeszukiwania wszystkich możliwych zestawów przedmiotów (kombinacji produktów). Zbiorem możliwych zestawów przedmiotów jest zbiór potęgowy $I$ I i ma rozmiar $2^{n} - 1$ (z wyłączeniem pustego zestawu, który nie jest prawidłowym zbiorem). Chociaż rozmiar zestawu rośnie wykładniczo w liczbie pozycji $n$ w $I$ efektywne wyszukiwanie jest możliwe przy użyciu właściwości zamknięcia w dół wsparcia (zwanego także antymonotonicznością), która gwarantuje, że w przypadku częstego zestawu przedmiotów wszystkie jego podzbiory są również częste, a zatem nieczęsty zestaw przedmiotów może być podzbiorem częstego zestawu przedmiotów. Wykorzystując tę właściwość, wydajne algorytmy mogą znaleźć wszystkie częste zestawy przedmiotów.

Algorytmy^[1]

Istnieje kilka algorytmów, które wykonują wyszukiwania reguł asocjacyjnych w bazach danych. Oto kilka przykładów:

Apriori
Eclat
FP-Growth
Partition

Przypisy

Szablon:Przypisy

[:0-1] 1,0 ^1,1 Szablon:Cytuj

[2] Szablon:Cytuj

[autonazwa1-3] 3,0 ^3,1 Szablon:Cytuj

[4] Szablon:Cytuj

[5] Szablon:Cytuj

[1]

[2]

[3]

[4]

[5]

Metoda asocjacyjna

Spis treści

Definicja

Wskaźniki reguł^[5]

Opis procesu

Algorytmy^[1]

Przypisy

Menu nawigacyjne

Metoda asocjacyjna

Definicja

Wskaźniki reguł[5]

Opis procesu

Algorytmy[1]

Przypisy

Menu nawigacyjne

Szukaj

Wskaźniki reguł^[5]

Algorytmy^[1]