Gradacyjna analiza danych
Gradacyjna analiza danych (ang. grade data analysis, grade correspondence analysis) – dział eksploracyjnej analizy danych zapoczątkowany w Instytucie Podstaw Informatyki Polskiej Akademii Nauk.
Celem gradacyjnej analizy danych jest uniknięcie wad tradycyjnego podejścia do testowania hipotez statystycznych, obarczonego ograniczeniami wynikającymi z założeń na temat postaci rozkładu zmiennej losowej oraz pobranej z niego próby losowej.
Gradacyjna analiza danych obejmuje narzędzia analizy wielowymiarowej takie jak analiza skupień, analiza odpowiedniości i analiza regresji dla zmiennych mierzonych na różnych skalach, nie tylko na skali ilorazowej, ale również na skali porządkowej czy skali nominalnej.
Podstawy teoretyczne
edytujGradacyjna analiza danych opiera się na współczynniku Giniego i współczynniku koncentracji, tradycyjnie wykorzystywanych dla rozkładu dwuwymiarowego, ale w przypadku tej metody uogólnionych dla rozkładu wielowymiarowego. Podstawowym narzędziem gradacyjnej analizy danych jest algorytm GCA (gradacyjnej analizy odpowiedniości), poszukujący największej zależności lub regularności w macierzy danych.
Najważniejsze pojęcia gradacyjnej analizy danych zostały opisane w następujących publikacjach:
- T. Kowalczyk, E. Pleszczyńska, F. Ruland: Grade Models and Methods for Data Analysis with Applications for the Analysis of Data Populations. (red.). Berlin Heidelberg New York: Springer Verlag, 2004, seria: Studies in Fuzziness and Soft Computing vol. 151.
- E. Pleszczyńska, W. Szczesny. Grade exploratory methods applied to some medical data sets. „Biocybernetics and Biomedical Engineering”. Vol. 22, 1, s. 17 - 30, 2002.
Wizualizacja
edytujW gradacyjnej analizie danych oprócz standardowych wykresów rozproszenia (ang. scatter-plot) i histogramów wykorzystuje się oryginalne narzędzia wizualizacji: mapy nadreprezentacji i mapy korelacji, przeznaczone w szczególności dla danych wielowymiarowych. Nadreprezentację definiuje się jako stosunek wartości empirycznej do wartości oczekiwanej obliczonej z rozkładu brzegowego danej macierzy.
Zobacz też
edytujLinki zewnętrzne
edytuj- GradeStat. gradestat.ipipan.waw.pl. [zarchiwizowane z tego adresu (2007-07-01)]. - darmowy program implementujący algorytmy gradacyjnej analizy danych
- Wybór prac naukowych związanych z gradacyjną analizą danych