Analiza koszykowa – metoda z zakresu eksploracji danych, tworząca dla zbioru danych zestaw opisujących go przybliżonych reguł asocjacyjnych, tj. powiązań i skojarzeń pomiędzy konkretnymi wartościami zmiennych. Reguły takie przyjmują zasadniczo postać: "Jeżeli poprzednik to zwykle następnik", gdzie poprzednik i następnik to wyrażenia logiczne – dla przykładu:

Jeżeli (typ_samochodu='sportowy' i wiek<25) to zwykle (ryzyko='wysokie' i ubezpieczenie='wysokie')

Analiza koszykowa (asocjacyjna) jest szczególnie przydatna przy operowaniu na dużych zbiorach danych oraz przy przetwarzaniu zmiennych nominalnych i porządkowych, jest więc często stosowana w text mining, gdzie dominują zmienne na skali nominalnej.

Innym częstym zakresem stosowania analizy koszykowej (od której wzięła swoją nazwę) jest badanie preferencji zakupowych klientów (czyli tego, co wkładają do koszyka w sklepie). I tak dla przykładu, analiza koszykowa pozwala uzyskać reguły typu „jeśli klient kupuje pieluchy i kupuje samochodzik, to często kupi niebieskie ubranka”, co pozwala z pewnym prawdopodobieństwem przewidywać jakie produkty zainteresują konsumenta, skoro nabył on kilka innych konkretnych towarów – na podstawie takiego przewidywania można np. zoptymalizować układ towarów w sklepie.

Współczynniki asocjacji

edytuj

Do podstawowych i najważniejszych współczynników w analizie koszykowej zaliczają się:

  • wsparcie reguły – odsetek zdarzeń (np. transakcji), które zawierają wybraną regułę (wsparcie jest liczbą z przedziału [0,1];
  • zaufanie (tzw. pewność reguły) – odsetek zdarzeń (np. transakcji) zawierających analizowaną regułę w zbiorze tych, które spełniają poprzednik danej reguły (zaufanie jest liczbą z przedziału [0,1] – odpowiada bowiem odpowiedniemu prawdopodobieństwu warunkowemu);
  • przyrost – współczynnik określający, czy fakt wystąpienia jednego produktu wpływa na zwiększenie prawdopodobieństwa wystąpienia drugiego w ramach jednego zdarzenia (np. transakcji);
  • korelacja – współczynnik określający wpływ (dodatni/ujemny) wyboru produktu A na prawdopodobieństwo wyboru produkt B.

Wydajnym i popularnym algorytmem analizy koszykowej jest algorytm apriori (Agrawal i Swami, 1993; Agrawal i Srikant, 1994; Han i Lakshmanan, 2001; Witten i Frank, 2000).

Bibliografia

edytuj