sobota, 3 listopada 2012

Analiza tekstów w języku polskim

W jednym z ostatnich projektów potrzebowałem narzędzi do prostej analizy tekstów. Niestety okazało się, że nie ma tu nic prostego :-) Nawet próba wydzielenia zdań z tekstu jest kłopotliwa. Na początku myślałem, że wystarczy podzielić tekst w miejscu kropki. Niestety, kropka jest używana w różnych skrótach (jak: np.) i w nazwach stron internetowych. Postanowiłem więc zobaczyć jakie zasoby są dostępne do analizy tekstów w języku polskim na internecie.

Gotowe biblioteki


opennlp.apache.org

Bardzo rozbudowana biblioteka napisana w języku Java. Niestety brak wsparcia dla języka polskiego.


http://nltk.org

Równie bogata biblioteka napisana w Pythonie. Również brak wsparcia dla języka polskiego. biblioteka ma natomiast tą zaletę, że zawiera wiele ciekawych korpusów.


http://morfologik.blogspot.com/

Analizator morfologiczny napisany w Java. Wykorzystuje metodę słownikową. Ciekawy i aktywny projekt.


http://www.getopt.org/stempel/

Algorytmiczny stemmer dla języka polskiego napisany w Java.


Korpusy języka polskiego


http://korpus.pl/

250 milionowy korpus języka polskiego. Dostępny w formie binarnej (ze względu na prawa autorskie tekstów), ale dostępny jest open sourcowy program do przeszukiwania słownika.


http://nkjp.pl

Ręcznie anotowany darmowy milionowy podkorpus  języka polskiego.


http://clip.ipipan.waw.pl/

Dużo ciekawych zasobów tym również korpusy języka polskiego.


http://www.mimuw.edu.pl/polszczyzna/pl196x/index_en.htm

Korpus z tekstami z lat 60 ubiegłego wieku. Zawiera 10 tysięcy próbek tekstu.


http://plwordnet.pwr.wroc.pl/wordnet

Polski wordnet lub jak go autorzy nazywają: Słowosieć. Ja na to mówię: rewelacja :-)


http://pl.wikipedia.org

Wikipedia zawieraj dużą liczbę artykułów w języku polskim. Po ściągnięciu tekstów robi się z tego całkiem duży korpus.


Podsumowanie

Przyznam się, że jestem mile zaskoczony bogactwem materiałów dla przetwarzania języka polskiego. Jednak na swoje potrzeby będę musiał połączyć kilka projektów. Szykuje się niezła zabawa :-)


Znasz inne ciekawe strony w internecie z darmowymi zasobami pomocnymi przy pisaniu programów do przetwarzania tekstów?
Podziel się nimi z nami.