Gotowe biblioteki
opennlp.apache.org
Bardzo rozbudowana biblioteka napisana w języku Java. Niestety brak wsparcia dla języka polskiego.
http://nltk.org
Równie bogata biblioteka napisana w Pythonie. Również brak wsparcia dla języka polskiego. biblioteka ma natomiast tą zaletę, że zawiera wiele ciekawych korpusów.
http://morfologik.blogspot.com/
Analizator morfologiczny napisany w Java. Wykorzystuje metodę słownikową. Ciekawy i aktywny projekt.
http://www.getopt.org/stempel/
Algorytmiczny stemmer dla języka polskiego napisany w Java.
Korpusy języka polskiego
http://korpus.pl/
250 milionowy korpus języka polskiego. Dostępny w formie binarnej (ze względu na prawa autorskie tekstów), ale dostępny jest open sourcowy program do przeszukiwania słownika.
http://nkjp.pl
Ręcznie anotowany darmowy milionowy podkorpus języka polskiego.
http://clip.ipipan.waw.pl/
Dużo ciekawych zasobów tym również korpusy języka polskiego.
http://www.mimuw.edu.pl/polszczyzna/pl196x/index_en.htm
Korpus z tekstami z lat 60 ubiegłego wieku. Zawiera 10 tysięcy próbek tekstu.
http://plwordnet.pwr.wroc.pl/wordnet
Polski wordnet lub jak go autorzy nazywają: Słowosieć. Ja na to mówię: rewelacja :-)
http://pl.wikipedia.org
Wikipedia zawieraj dużą liczbę artykułów w języku polskim. Po ściągnięciu tekstów robi się z tego całkiem duży korpus.
Podsumowanie
Przyznam się, że jestem mile zaskoczony bogactwem materiałów dla przetwarzania języka polskiego. Jednak na swoje potrzeby będę musiał połączyć kilka projektów. Szykuje się niezła zabawa :-)Znasz inne ciekawe strony w internecie z darmowymi zasobami pomocnymi przy pisaniu programów do przetwarzania tekstów?
Podziel się nimi z nami.