Bank drzew

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacji, szukaj
Struktura drzewiasta dla zdania Janek widzi Marysię
S – Sentence (zdanie)
N – Noun (rzeczownik)
VP – Verb Phrase (fraza czasownikowa)
V – Verb (czasownik)
N – Noun (rzeczownik)

Bank drzew jest to korpus, w którym każde zdanie zostało sparsowane. Struktura zdania jest zazwyczaj reprezentowana w postaci drzewa. Stąd też pochodzi nazwa. Zdania w banku powinny być autentyczne nie zaś spreparowane sztucznie.

Banki drzew mogą być tworzone ręcznie, gdzie lingwiści oznaczają każde zdanie strukturą syntaktyczną, lub półautomatycznie, gdzie parser oznacza każde zdanie, a lingwiści sprawdzają i ewentualnie je poprawiają. W praktyce budowa banku drzew jest zadaniem bardzo pracochłonnym i może zająć wiele lat.

Bank drzew jest językowym zasobem, który dostarcza przypisów do języka naturalnego na różnych poziomach strukturalnych: na poziomie słowa, frazy, zdania, a czasami także na poziomie struktury funkcja-argument.

Spis treści

[edytuj] Zastosowania banków drzew

Banki drzew mogą służyć między innymi do analizy zjawisk syntaktycznych i do testowania parserów. Na jego podstawie można analizować częstość występowania różnych form gramatycznych, a także odkrywać nowe.

Można wymienić kilka różnych podejść do zastosowań banków drzew:

  • źródła danych dla narzędzi automatycznego przetwarzania języków naturalnych
  • źródła danych dla porównywania parserów
  • źródła danych do syntaktycznej analizy złożonego tekstu
  • dowód poprawności twierdzeń[1]

Mimo, że twórcy większości banków drzew deklarują, że ich banki drzew będą używane do prawie wszystkich wymienionych wyżej celów, głęboka analiza pokazuje, że jest to wyjątkowo trudne, jeśli nie niemożliwe.

[edytuj] Polski Bank Drzew

W chwili obecnej polski bank drzew jest w trakcie tworzenia. Jego tworzeniem zajmuje się Instytut Podstaw Informatyki PAN. Zakończenie projektu planowane jest na 2011 rok.[2]

[edytuj] Zobacz też

Przypisy

  1. Takie zastosowanie jest rzadko stwierdzone jawnie, ale często stanowi dodatkową motywację do budowania banków drzew.
    Zobacz: http://www.linguateca.pt/documentos/SantosPROPOR2003Timber.rtf (en)
  2. IPI PAN - Projekty badawcze finansowane z krajowych środków publicznych. [dostęp 2009-01-17].

[edytuj] Bibliografia

  • "M. Marciniak, A. Mykowiecka, A. Przepiórkowski & A. Kupść, An HPSG-Annotated test Suite for Polish LREC 2000"
Osobiste
Przestrzenie nazw

Warianty
Działania
Nawigacja
Dla czytelników
Dla wikipedystów
Narzędzia
Drukuj lub eksportuj
W innych językach

Polecamy: Pozycjonowanie, wózki dziecięce, Kino domowe, Viagra, Kredyty