Bootstrap (statystyka)
Bootstrap (z ang. pull oneself up by one's bootstraps – wydobyć się z opresji własnymi siłami) – w statystyce opracowana przez Bradleya Efrona metoda szacowania rozkładu błędów estymacji, za pomocą wielokrotnego losowania ze zwracaniem z próby. Jest przydatna szczególnie, gdy nie jest znana postać rozkładu zmiennej w populacji. Ponieważ bootstrap w podstawowej wersji nie czyni założeń co do rozkładu w populacji, może być zaliczony do metod nieparametrycznych.
Spis treści |
[edytuj] Próba bootstrap
Próbą bootstrap (lub próbą typu bootstrap) nazywamy n-elementową próbę losową
z rozkładu pewnej ustalonej n-elementowej próby
z populacji
.
Innymi słowy jest to próba powstała przez losowanie ze zwracaniem n elementów z
.
[edytuj] Zasada bootstrap
Niech
będzie pewną statystyką, dającą się przedstawić jako funkcja dystrybuanty:
i w przypadku zastosowania do rozkładu empirycznego jej wynikiem jest estymator
:
Warunki te spełnia szeroka klasa statystyk.
Zasada bootstrap mówi, że rozkład statystyki
przy ustalonej realizacji
, jest bliski rozkładowi statystyki
,
czyli rozkładowi błędów estymacji parametru
w populacji.
[edytuj] Metoda bootstrap
Zgodnie z zasadą bootstrap w celu oszacowania rozkładu błędów estymacji, należy:
- wielokrotnie (k razy) wylosować niezależne próby losowe bootstrap
na postawie jednej realizacji
. - obliczyć dla nich wartości:
Otrzymany rozkład
jest przybliżeniem rozkładu błędów estymacji za pomocą statystyki
zastosowanej do próby n-elementowej parametru
w populacji.
Liczba k powinna być możliwie duża (im większa tym dokładniejsze oszacowanie). W literaturze podawane są coraz większe liczby, w miarę jak rosną możliwości obliczeniowe komputerów.
[edytuj] Błąd standardowy typu bootstrap
Histogram uzyskanego rozkładu błędów można przedstawić na wykresie. Można też obliczyć dla niego rozmaite dalsze statystyki, takie jak błąd standardowy:
gdzie
[edytuj] Przedziały ufności typu bootstrap
Najprostszą metodą stworzenia przedziału ufności estymatora za pomocą rozkładu
jest przybliżenie go rozkładem normalnym. Jest to metoda bardzo prosta, poszukiwany przedział ma postać:
Metoda ta nie zawsze daje się jednak zastosować, gdyż często błąd nie ma rozkładu normalnego. Wymaga ona zatem sprawdzenia normalności rozkładu i arbitralnej decyzji, czy jest on wystarczająco normalny.
Alternatywną metodą jest percentylowy przedział ufności typu bootstrap, który może być stosowany przy dowolnej postaci rozkładu błędów:
gdzie
to kwantyl rzędu
z rozkładu 
Jeszcze inna metoda postuluje najpierw wykonanie studentyzacji rozkładu przed wyliczeniem przedziału percentylowego. To, która metoda daje najdokładniejsze wyniki, zależy od typu rozkładu w populacji (w szczególności obecności obserwacji odstających) oraz założonej metody oceny dokładności.
[edytuj] Testowanie hipotez metodą bootstrap
Metoda bootstrap jest też używana do weryfikacji hipotez statystycznych, o ile da się tę weryfikację sprowadzić do badania błędu estymacji za pomocą statystyki spełniającej warunki bootstrapu.
Na przykład, gdy hipotezą zerową jest wartość oczekiwana w populacji
, a w próbie uzyskaliśmy średnią
wówczas p-wartość jest prawdopodobieństwem, że średnia z próby będzie się różniła od średniej w populacji o co najmniej 10 - 9,23 = 0,77. Prawdopodobieństwo to można oszacować, losując próby bootstrap z
i sprawdzając w jakim odsetku losowań średnia wykracza poza przedział
.
[edytuj] Odmiany metody
Istnieje wiele odmian bootstrapu. W jednej z nich próby bootstrap nie są losowane bezpośrednio z próby
lecz z rozkładu podobnego do rozkładu
z wygładzoną dystrybuantą.
Istnieją też bardziej skomplikowane procedury bootstrapu dla próbkowania bez zwracania, problemów obejmujących dwie próby, regresji, szeregów czasowych, próbkowania hierarchicznego i innych problemów statystycznych.
Odmiana bootstrapu zwana bagging jest stosowana przy konstruowaniu modeli klasyfikacyjnych i regresyjnych, ograniczając zjawisko przeuczenia (Breiman 1984).
[edytuj] Bibliografia
- Jacek Koronacki, Jan Mielniczuk: Statystyka dla studentów kierunków technicznych i przyrodniczych. Warszawa: WNT, 2001, s. 445-454.
- Bradley Efron: The jackknife, the bootstrap, and other resampling plans. Philadelphia: Pa. Society for Industrial and Applied Mathematics, 1982.
- L. Breiman, J. H. Friedman, R. A. Olshen, C. J. Stone: Classification and regression trees. Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software, 1984.
[edytuj] Linki zewnętrzne
- Bootstrap Sampling Tutorial (ang.): wprowadzenie do bootstrapu z użyciem Microsoft Excel
- Bootstrap tutorial from ICASSP 99 (ang.): podręcznik napisany z punktu widzenia przetwarzania sygnałów



,
na postawie jednej realizacji 






