Gradacyjna analiza danych (ang. Grade Data Analysis, Grade Correspondence Analysis) - dział eksploracyjnej analizy danych zapoczątkowany w Instytucie Podstaw Informatyki Polskiej Akademii Nauk.
Celem gradacyjnej analizy danych jest uniknięcie wad tradycyjnego podejścia do testowania hipotez statystycznych, obarczonego ograniczeniami wynikającymi z założeń na temat postaci rozkładu zmiennej losowej oraz pobranej z niego próby losowej.
Gradacyjna analiza danych obejmuje narzędzia analizy wielowymiarowej takie jak analiza skupień, analiza odpowiedniości i analiza regresji dla zmiennych mierzonych na różnych skalach, nie tylko na skali ilorazowej, ale również na skali porządkowej czy skali nominalnej.
Spis treści |
Gradacyjna analiza danych opiera się na współczynniku Giniego i współczynniku koncentracji, tradycyjnie wykorzystywanych dla rozkładu dwuwymiarowego, ale w przypadku tej metody uogólnionych dla rozkładu wielowymiarowego. Podstawowym narzędziem gradacyjnej analizy danych jest algorytm GCA (gradacyjnej analizy odpowiedniości), poszukujący największej zależności lub regularności w macierzy danych.
Najważniejsze pojęcia gradacyjnej analizy danych zostały opisane w następujących publikacjach:
W gradacyjnej analizie danych oprócz standardowych wykresów rozproszenia (ang. scatter-plot) i histogramów wykorzystuje się oryginalne narzędzia wizualizacji: mapy nadreprezentacji i mapy korelacji, przeznaczone w szczególności dla danych wielowymiarowych. Nadreprezentację definiuje się jako stosunek wartości empirycznej do wartości oczekiwanej obliczonej z rozkładu brzegowego danej macierzy.