5 korpusów hiszpańskiego online

Od koszykówki do korpusu

O tym, że nie wszyscy studenci filologii hiszpańskiej wiedzą czym jest korpus i do czego może się przydać przekonałam się całkiem niedawno podczas seminarium podyplomowego, na które zostałam zaproszona. W ramach seminarium, studenci mieli w skrócie przedstawić swoje pomysły na prace. Jedna ze studentek chciała zbadać jakich określeń najczęściej używa się w świecie argentyńskiej koszykówki (temat przekręcony, ale cele były podobne). W jej zamyśle, najlepszym sposobem ku temu było przeprowadzenie ankiety pośród jej własnych znajomych i ich znajomych Argentyńczyków. Co w takiej ankiecie miało się znaleźć, tego nie wiem. Wiem tylko, że od razu zaskoczyło mnie to podejście, bo wydało mi się nieadekwatne do proponowanego tematu. Dlaczego nie korpus?!, krzyczałam w duchu. Zaraz dowiedziałam się dlaczego. Otóż z zebranych na seminarium studentów zaledwie jedna osoba miała jakieś blade pojęcie o korpusie i jego zastosowaniu.

Czym jest korpus

Ogromna liczba prac językoznawczych opiera się na badaniach przeprowadzonych na korpusie, czyli na zespole tekstów języka naturalnego zebranych w celach badawczych. Przez teksty rozumiemy tutaj zarówno zbiór tradycyjnych tekstów pisanych, jak i transkrypcje języka mówionego (na przykład, konwersacji, wywiadów, programów radiowych, itd.). Zazwyczaj od korpusu wymaga się żeby był reprezentacyjny dla wybranej odmiany języka, dialektu, rejestru. Na przykład, korpus może składać się z tekstów opublikowanych w internetowych wydaniach pism, na blogach, na forach, z komentarzy na facebooku (!); równie dobrze, może to być transkrypcja debat sejmowych, posiedzeń, przesłuchań w sądzie, rozmów przez skype, itd. Jednym słowem, korpus może dotyczyć każdego praktycznie obszaru, w którym używany jest język. Może też aspirować do pokazania całościowego obrazu użycia danego języka. Korpus idealny powinien być wyważony, proporcjonalny, oddający rzeczywistość użycia języka w danej dziedzinie, konkretnym obszarze, gatunku, przedziale czasowym, itd. Stosowaniem korpusu w językoznawstwie zajmuje się tzw. językoznawstwo korpusowe, corpus linguistics, linguistica de corpus (zainteresowanych zachęcam do wpisania tych fraz w google). Korpus językowy można stworzyć samodzielnie, ale jest to bardzo czasochłonne i dosyć skomplikowane zadanie, do którego potrzebne jest trochę fachowej wiedzy z tego zakresu. Więcej ogólnej teorii na temat korpusu znajdziecie na tej stronie  i tutaj (po polsku). Po hiszpańsku, podstawowe informacje o lingwistyce korpusowej możecie znaleźć na tej stronie CVC Cervantes (przy okazji, pod tym artykułem znajduje się przydatna lista opracowań dla osób zainteresowanych pracą z korpusem).

Wracając więc do przykładu podanego na samym początku tego tekstu, studentka zainteresowana językiem koszykówki w Argentynie na pewno mogła wykorzystać wiedzę, jaką dałby jej dobrze skonstruowany korpus. Mogła poszukać artykułów o sporcie w prasie (papierowej i internetowej), skorzystać z informacji na forum fanów sportu, wykorzystać nagrania i transmisje radiowe bądź telewizyjne. Dostęp do tych wszystkich tekstów jest w dzisiejszych czasach może nawet łatwiejszy niż dostęp do odpowiedniej grupy argentyńskich „ankietowanych”.

Gdzie szukać korpusu języka hiszpańskiego?

Do wielu badań wystarczające będzie użycie istniejących już i ogólnodostępnych korpusów języka hiszpańskiego. To właśnie o nich chciałam dzisiaj napisać, bo na początek, na potrzeby pracy dyplomowej lub magisterskiej, użycie gotowego korpusu to świetne rozwiązanie. Nie uda mi się raczej opisać każdego z nich szczegółowo, ale na szczęście do każdego korpusu dołączona jest „instrukcja obsługi” oraz szczegółowy opis (np. liczba słów, przedział czasowy jaki reprezentuje, pochodzenie geograficzne tekstów, typologia tekstów, rodzaj używanych etykiet i oznaczeń, itd.). O tym co konkretnie można z tymi korpusami zrobić również napomknę w każdym przypadku.

davies

http://www.corpusdelespanol.org/

1. Corpus del español de Mark Davies

Korpus jest stale poszerzany, w chwili obecnej posiada 100.000.000 słów. Obejmuje okres pomiędzy XIII a XX wiekiem. Korpus dostępny jest za darmo, jednak po wykonaniu kilku zapytań, wymagana jest rejestracja użytkownika w celu dalszego korzystania z narzędzia (darmowa). Po wejściu na stronę, w dolnym oknie pojawia się ogólny opis korpusu i link do dalszych informacji („Tour guiado de cinco minutos”) oraz rady jak korzystać ze strony.

2. Korpus historyczny Real Academia Española CORDE

Na stronie internetowej hiszpańskiej Akademii znajduje się kilka całkiem niezłych korpusów. Jednym z nich jest CORDE czyli korpus historyczny obejmujący teksty od XIII wieku do 1975 roku. Co można zrobić z korpusem historycznym? Mnóstwo ciekawych rzeczy! Przede wszystkim, można w nim zbadać zmiany w znaczeniu i formach słów i fraz, można prześledzić wkraczanie do języka neologizmów, zanikanie struktur gramatycznych, itd. W ramach ćwiczenia, proponuję, żebyście prześledzili zmiany w użyciu słowa „científico” (od kiedy zaczęto go używać jako określenia zawodu – naukowca?) i określeń „feminista” i „machista”.

Przed skorzystaniem z CORDE zachęcam do przeczytania instrukcji i opisu.
[Uwaga, wyszukiwarka w tym korpusie jest daleka od ideału, lepiej ograniczyć wyszukiwanie do danego kraju/okresu/tematu i systematycznie poszerzać zakres poszukiwań, niestety, jeśli dany wyraz/fraza pojawia się bardzo często, korpus po prostu szaleje i przestaje działać]

crea

http://corpus.rae.es/creanet.html

3. Korpus CREA

CREA czyli Corpus de Referencia del Español Actual to z kolei korpus współczesnego języka hiszpańskiego od 1975 do 2004, obejmuje około 160 milionów słów. Zawiera teksty reprezentujące wszystkie odmiany hiszpańskiego (podzielone według krajów), teksty pisane (prasa, literatura, artykuły naukowe, itd.) i transkrypcje języka mówionego, głównie z radia i telewizji. Wchodząc na stronę korpusu, możemy ograniczyć wyniki wyszukiwania danej frazy do jednej lub kilku odmian języka i do specyficznego medium. Na przykład, możemy sprawdzić, w jakich krajach używa się słówka „chévere” i w jakich kontekstach (po wyszukaniu słowa, klikamy w „estadísticas”).
Wybierając „obtención de ejemplos – concordancias”, zobaczymy fragmenty tekstów, w których pojawiło się to słowo, które możemy skopiować i wykorzystać do dalszych badań. Co możemy zbadać? Praktycznie wszystko, grunt to dobrze określić swój cel. Na przykład, wyobraźmy sobie, że nie wiemy o słowie „chévere” absolutnie nic. Korpus może pomóc odpowiedzieć na pytania takie jak: czy jako przymiotnika chévere używa się w stosunku do przedmiotów, abstrakcyjnych pojęć czy osób? Czy można go stopniować, a jeśli tak, to w jaki sposób? Czy zawsze jest używany jako określenie pozytywne? Czy może występować w roli innej części mowy, np. rzeczownika lub przysłówka? Czy posiada liczbę mnogą? Czy pojawia się w sensie ironicznym?, itd.
Przed rozpoczęciem poważnego przeszukiwania korpusu polecam zapoznać się z instrukcjami dostępnymi tutaj.

 4. Korpus Val.Es.Co. (Valencia Español Coloquial)

Czyli korpus języka mówionego z regionu Walencji. To korpus inny od pozostałych, składający się z transkrypcji konwersacji osób mieszkających w Walencji i okolicach. Nagrania odbywają się zawsze w tajemnicy, to znaczy, rozmawiające osoby nie wiedzą, że ktoś rejestruje ich rozmowę. Dlatego właśnie ten korpus jest idealny do badania języka mówionego, kolokwialnego. Transkrypcje pochodzą z lat 1989-2011 (korpus jest stale powiększany). Żeby przeszukać lub zbadać daną konwersację, można ją sobie zapisać w przyjaznym formacie (xml, doc, excel). Transkrypcja oddaje nie tylko poszczególne wypowiedzi uczestników rozmowy, często urywające się, nakładające się na siebie (w przypadku mowy jednoczesnej, poszczególne wypowiedzi oznaczone są specjalnym symbolem), ale też pauzy, ton głosu (podniesiony lub szept). To nie jest uproszczony zapis w formie standardowego dialogu, ale transkrypcja oddająca rzeczywisty przebieg rozmowy, która z zasady jest chaotyczna i rządzi się swoimi prawami, a nie tradycyjnie pojętą składnią. To naprawdę świetny korpus jeśli chcecie zająć się jakimś aspektem języka mówionego. Na przykład, na jego podstawie powstały prace na temat ironii, żartów, humoru, wulgaryzmów, grzeczności językowej, konstrukcji języka potocznego. Tego typu badania nie są zazwyczaj przeprowadzanie za pomocą automatycznego przeszukania korpusu (bo jakiej frazy szukalibyście żeby wykryć ironię w tekście?), ale raczej na postawie wnikliwego czytania tekstów i najczęściej również przesłuchania nagrań z konwersacji. Więcej informacji praktycznych o korpusie Val.Es.Co., tutaj.

5. Korpus Molinolabs

Zawiera wyłącznie teksty publikowane w prasie internetowej pomiędzy 1997 a 2007 z Hiszpanii, Meksyku i Argentyny, łącznie około 660 milionów słów. Interfejs wyszukiwania jest bardzo uproszczony, ale możemy wybrać, na przykład, czy danej frazy chcemy szukać w tytułach artykułów czy w całych tekstach, możemy też wyznaczyć ramy czasowe, które nas interesują. Po wpisaniu wyszukiwanej frazy możemy ją zobaczyć w zdaniu, w bezpośrednim fragmencie lub w pełnym artykule – zawsze podane są linki do oryginalnych źródeł. Jeśli na przykład interesuje kogoś prześledzenie użycia wyrazu „mileurista” we współczesnej prasie, albo nawet w przeciągu jednego roku, to jest idealne ku temu miejsce. Niestety ten korpus posiada bardzo niewiele opcji i czasem odmawia współpracy (przy przeszukiwaniu wyników), ale może się przydać do mniej skomplikowanych zadań.

Drodzy Czytelnicy Na Poważnie, dajcie znać w komentarzach, czy ten artykuł był dla Was przydatny. Mieliście okazję korzystać z któregoś z wymienionych korpusów? A może znacie inne?