Analiza dyskryminacyjna

Ten artykuł od 2018-08 wymaga zweryfikowania podanych informacji.

Należy podać wiarygodne źródła w formie przypisów bibliograficznych.
Część lub nawet wszystkie informacje w artykule mogą być nieprawdziwe. Jako pozbawione źródeł mogą zostać zakwestionowane i usunięte.
Sprawdź w źródłach: Encyklopedia PWN • Google Books • Google Scholar • Federacja Bibliotek Cyfrowych • BazHum • BazTech • RCIN • Internet Archive (texts / inlibrary)
Po wyeliminowaniu niedoskonałości należy usunąć szablon {{Dopracować}} z tego artykułu.

Analiza dyskryminacyjna (ang. discriminant analysis) – zespół metod wielowymiarowej analizy danych. Zawiera metody, które czynią z tej techniki niezwykle efektywne narzędzie do zagadnień klasyfikacyjnych i eksploracji danych. Jej zadaniem jest rozstrzyganie, które zmienne niezależne (predyktory) w najlepszy sposób dzielą dany zbiór przypadków na występujące w naturalny sposób grupy, opisane jakościową zmienną zależną.

W metodzie tej możemy wyróżnić dwa główne etapy:

etap uczenia / budowy modelu – w którym znajdujemy reguły klasyfikacyjne, wykorzystując tak zwany zbiór uczący (próbę statystyczną)
etap klasyfikacji / wykorzystania modelu – w którym dokonujemy klasyfikacji zasadniczego zbioru obiektów, których przynależność jest nam nieznana, na podstawie znalezionych charakterystyk klas.

Sposób budowy modelu najczęściej polega na krokowym (postępująca lub wsteczna analiza krokowa) budowaniu funkcji klasyfikacyjnej, której wartość pozwala przypisać obserwację do danej klasy. Najczęściej wykorzystywane są funkcje liniowe (LDA). W tym podejściu opisowym obiekt przydzielany jest do tej klasy, dla której funkcja dyskryminacyjna osiąga największą wartość.

Zaletą klasycznej analizy dyskryminacyjnej jest prostota jak i wysoka skuteczność na homogenicznych danych, wadą natomiast nieprzenośność i brak skuteczności na niehomogenicznych danych.

Używane są również w podobnych celach m.in. drzewa klasyfikacyjne, klasyfikatory bayesowskie, metoda najbliższych sąsiadów, maszyny wektorów podpierających (SVM).

Przykład zastosowania

Bank chce wiedzieć, czy dany klient składający wniosek o kredyt rokuje nadzieje na to, że go spłaci, czy nie. Zmienna zależna ma charakter jakościowy (kredyt zostanie albo nie zostanie spłacony), zmiennymi niezależnymi mogą być: dochody rodziny, majątek rodziny, liczba lat przepracowanych u obecnego pracodawcy, itp..