Strona używa plików cookies więcej

Inkubator Doskonałości Naukowej – Centrum badań korpusowych i eksperymentalnych nad językami słowiańskimi Slavicus

Kierownik Inkubatora: prof. dr hab. Bożena Rozwadowska

Wydział Filologiczny

W ramach Inkubatora Doskonałości Naukowej Slavicus powstało Centrum Badań Korpusowych i Eksperymentalnych nad Językami Słowiańskimi w oparciu o duży równoległy korpus składający się z 11 języków słowiańskich, 2 języków bałtyckich i języka angielskiego jako języka referencyjnego. Korpus ten wyposażony będzie w przyjazny dla użytkownika interfejs, jak również wyrafinowane mechanizmy wyszukiwania danych. W badaniach uniwersaliów semantycznych wykorzystane będą metoda eksploracji tłumaczeń i skalowanie wielowymiarowe. Projekt zintegruje językoznawców teoretycznych i komputerowych oraz otworzy rozległe obszary badawcze dla składniowców, semantyków, morfologów, tłumaczy i leksykografów.

Kierownikiem Inkubatora Doskonałości Naukowej Slavicus jest prof. dr hab. Bożena Rozwadowska. W skład zespołu weszła również dr Dorota Klimek-Jankowska. W przyszłości zespół wzbogaci się o dwóch pracowników z międzynarodowego grona młodych badaczy.

Siedzibą IDN Slavicus jest Instytut Filologii Angielskiej, ul. Kuźnicza 21/22 50-138 Wrocław.

Cele, jakie wyznaczyli sobie naukowcy Slavicusa to stworzenie nowoczesnego centrum badań slawistycznych o zasięgu światowym, połączenia językoznawstwa teoretycznego, komputerowego i eksperymentalnego w badaniach porównawczych nad kategorią czasu i aspektu gramatycznego w językach słowiańskich i bałtyckich.

Naukowczynie z Inkubatora Doskonałości Naukowej Slavicus
Naukowczynie z Inkubatora Doskonałości Naukowej Slavicus, fot. Alina Metelytsia

Plany naukowe Inkubatora to:

– Stworzenie bazy narzędziowej i metodologicznej z zakresu językoznawstwa komputerowego do nowoczesnych badań porównawczych

prof. Bożena Rozwadowska: Zbudujemy innowacyjny korpus równoległy 11 języków słowiańskich (polskiego, rosyjskiego, białoruskiego, ukraińskiego, czeskiego, słowackiego, serbskiego, słoweńskiego, chorwackiego, macedońskiego, bułgarskiego), 2 języków bałtyckich (litewskiego i łotewskiego) oraz języka angielskiego jako języka odniesienia. Nasz korpus równoległy będzie się składał z tekstu oryginalnego przełożonego na wyżej wymienione języki słowiańskie i bałtyckie. Będziemy zatem poszukiwać tekstów, które doczekały się tłumaczeń na wiele języków. Zrównoleglone zostaną wszystkie pary języków, co pozwoli na porównanie ekwiwalentnych konstrukcji dla wszystkich 14 języków. Korpus ten wraz z przyjaznym interfejsem użytkownika i wyszukiwarką dopasowaną do oczekiwań językoznawców powinien przyciągnąć badaczy z całego świata. Zostanie on zintegrowany z systemem Słowosieć we współpracy z Clarin-PL. Tworzenie korpusu będzie się odbywało we współpracy z prof. Romanem Roszko z Instytutu Slawistyki PAN oraz ze specjalistami NLP z Wydziału Informatyki UWr.

– Umiędzynarodowienie

We współpracy z prof. Henriette de Swart i dr. Bertem Le Bruyn z Uniwersytetu w Utrechcie naukowcy ze Slavicusa opracują narzędzia do obróbki danych i ich wizualizacji z wykorzystaniem skalowania wielowymiarowego.

– Opracowanie semantycznej mikro-typologii kategorii czasu i aspektu w językach słowiańskich i bałtyckich.

Na świecie istnieje około 6500 języków. Oczywiście języki różnią się między sobą, ale to zróżnicowanie nie jest przypadkowe. Języki z różnych rodzin językowych i z geograficznie niepowiązanych obszarów mają wiele wspólnych właściwości. Zakładając, że język jest integralną częścią naszego umysłu, językoznawcy skupiają się na porównywaniu języków w poszukiwaniu uniwersaliów i parametrów zróżnicowania. Badania teoretyczne zwykle opierają się na wybiórczych danych. Ostatnio w badaniach teoretycznych zaczęto wykorzystywać ilościowe metody korpusowe oparte na dużych danych. Zaawansowane mechanizmy wyszukiwania i eksploracji dużych danych oraz ich wizualizacji pozwolą naukowcom z Inkubatora na lepsze zrozumienie podobieństw i różnic pomiędzy językami w zakresie badanych zjawisk.

– Opracowanie lepszych metod NLP do udoskonalenia zrównoleglania danych z wielojęzycznych zasobów internetowych oraz do udoskonalania tłumaczenia maszynowego miedzy językami słowiańskimi i bałtyckimi.

We współpracy ze specjalistami NLP (ang. Natural Language Processing) naukowcy z Inkubatora będą dążyć do opracowania lepszych metod dostępu do internetowych danych wielojęzycznych, do udoskonalenia zrównoleglania danych w korpusach równoległych oraz do udoskonalania jakości tłumaczenia maszynowego.

– Porównawcze badania neurolingwistyczne: uniwersalia semantyczne a kategoria czasu i aspektu w umyśle.

Naukowcy zamierzają zweryfikować rezultaty badań korpusowych eksperymentami psycholingwistycznymi obejmującymi badania okulograficzne oraz badania ERP (potencjały wywołane mózgu).

– Uniwersalia semantyczne dotyczące kategorii czasu i aspektu w językach słowiańskich i bałtyckich a historia języka

Naukowcy będą dążyć do zrozumienia zaobserwowanych regularności mikro-typologicznych w semantyce czasu i aspektu łącząc je z faktami dotyczącymi zmian językowych w językach słowiańskich i bałtyckich.

– Wypracowanie semantycznych modeli formalnych      

Naszym nadrzędnym celem naukowców ze Slavicusa jest wypracowanie modeli formalnych wyjaśniających poczynione obserwacje typologiczne dotyczące różnic i podobieństw w semantyce czasu i aspektu w językach słowiańskich i bałtyckich.

Obecnie naukowcy są w trakcie wyboru literatury do korpusu równoległego, konkretyzowania zasad współpracy z partnerami, przygotowywania materiału do wstępnych badań ankietowych nad mikro-typologią kategorii aspektu w językach słowiańskich i bałtyckich. Złożyli również pierwszy wniosek grantowy do NCN i badają możliwości ubiegania się o granty na współpracę międzynarodową. Od 2022-2024 roku planują współpracę z badaczami z Uniwersytetu w Lipsku nad językami łużyckimi w ramach finansowania z DAAD.