Bank drzew
Bank drzew jest to korpus, w którym każde zdanie zostało sparsowane. Struktura zdania jest zazwyczaj reprezentowana w postaci drzewa. Stąd też pochodzi nazwa. Zdania w banku powinny być autentyczne nie zaś spreparowane sztucznie.
Banki drzew mogą być tworzone ręcznie, gdzie lingwiści oznaczają każde zdanie strukturą syntaktyczną, lub półautomatycznie, gdzie parser oznacza każde zdanie, a lingwiści sprawdzają i ewentualnie je poprawiają. W praktyce budowa banku drzew jest zadaniem bardzo pracochłonnym i może zająć wiele lat.
Bank drzew jest językowym zasobem, który dostarcza przypisów do języka naturalnego na różnych poziomach strukturalnych: na poziomie słowa, frazy, zdania, a czasami także na poziomie struktury funkcja-argument.
Spis treści |
[edytuj] Zastosowania banków drzew
Banki drzew mogą służyć między innymi do analizy zjawisk syntaktycznych i do testowania parserów. Na jego podstawie można analizować częstość występowania różnych form gramatycznych, a także odkrywać nowe.
Można wymienić kilka różnych podejść do zastosowań banków drzew:
- źródła danych dla narzędzi automatycznego przetwarzania języków naturalnych
- źródła danych dla porównywania parserów
- źródła danych do syntaktycznej analizy złożonego tekstu
- dowód poprawności twierdzeń[1]
Mimo, że twórcy większości banków drzew deklarują, że ich banki drzew będą używane do prawie wszystkich wymienionych wyżej celów, głęboka analiza pokazuje, że jest to wyjątkowo trudne, jeśli nie niemożliwe.
[edytuj] Polski Bank Drzew
W chwili obecnej polski bank drzew jest w trakcie tworzenia. Jego tworzeniem zajmuje się Instytut Podstaw Informatyki PAN. Zakończenie projektu planowane jest na 2011 rok.[2]
[edytuj] Zobacz też
Przypisy
- ↑ Takie zastosowanie jest rzadko stwierdzone jawnie, ale często stanowi dodatkową motywację do budowania banków drzew.
Zobacz: http://www.linguateca.pt/documentos/SantosPROPOR2003Timber.rtf (en) - ↑ IPI PAN - Projekty badawcze finansowane z krajowych środków publicznych. [dostęp 2009-01-17].
[edytuj] Bibliografia
- "M. Marciniak, A. Mykowiecka, A. Przepiórkowski & A. Kupść, An HPSG-Annotated test Suite for Polish LREC 2000"