Strona używa plików cookies więcej

Ludzie / Nauka

CLARIN – matematyka języka polskiego

CLARIN to projekt naukowy o zasięgu ogólnoeuropejskim. Bierze w nim udział ponad 100 jednostek naukowych z 19 krajów. Jego celem jest połączenie zasobów i narzędzi językowych dla wszystkich języków europejskich w jedną sieć i stworzenie tym sposobem wielkiej infrastruktury badawczej. Clarin ma służyć przede wszystkim uczonym reprezentującym nauki humanistyczne i społeczne. O projekcie opowiada prof. Adam Pawłowski z instytutu informacji Naukowej i Bibliotekoznawstwa UWr.

Skąd wziął się pomysł na taki projekt?
Nie jest tajemnicą, że postępująca komputeryzacja doprowadziła do tzw. potopu informacyjnego. W stosunkowo krótkim czasie ludzie zostali zalani ogromem informacji, której nie byli w stanie przetrawić. Spektakularnym przykładem takiego przyrostu jest liczba nowopowstających tekstów prawnych. Według specjalistów z firmy Grant Thornton, zajmujących się monitorowaniem tego sektora administracji, polski system wytworzył w 2017 r. ponad 30 000 stron takich dokumentów, najwięcej w całej swojej historii.

Nie wnikając w kwestie merytoryczne, związane z rzeczywistą potrzebą tworzenia takich ilości aktów prawnych, można powiedzieć, że żaden człowiek nie jest już w stanie przeczytać tego wszystkiego ze zrozumieniem. Sytuacja w innych segmentach rynku informacji jest podobna albo gorsza. Uczeni czytają niewielką część wydawanych tekstów naukowych, ograniczając się często do swojego kręgu zawodowego, media społecznościowe pękają od tekstów i grafiki, miliony słów płyną non stop w kanałach telewizyjnych. Stanisław Lem nazwał tę sytuację „bombą megabitową”, tytułując tak zresztą jeden ze swoich tomów.

Czy można wskazać przyczyny tego zjawiska?
Potop informacyjny można uważać za trzeci etap wielkiego cyklu zmian technologicznych, zachodzących od średniowiecza. Pierwszy etap zaczął się bardzo dawno temu stworzeniem maszyn przerabiających materię (produkcja cegieł pozwalająca na wznoszenie budowli), ewentualnie zamieniających jakąś postać energii na inną (np. energię kinetyczną na mechaniczną w młynie wodnym). Etap drugi, przypadający mniej więcej na okres rewolucji przemysłowej, czyli XVIII–XIX wiek, zaistniał dzięki wynalazkowi maszyny przekształcającej materię na energię. Zjawisko to było tak spektakularne, że maszyna parowa, skonstruowana przez szkockiego inżyniera Jamesa Watta, stała się symbolem całej epoki. Wreszcie wiek XIX, na skutek postępującej złożoności procesów informacyjnych (np. związanych ze sterowaniem maszynami i społeczeństwami), położył podwaliny rewolucji informacyjnej, której dobrodziejstw mamy przyjemność doświadczać tu i teraz. Komputer, czyli maszyna przetwarzająca informację według zadanego programu, został wprawdzie wymyślony przez Alana Turinga w pierwszej połowie XX wieku, dość szybko powstały też pierwsze jego prototypy, ale wszystko to było w jakimś sensie ukoronowaniem długiego ciągu wcześniejszych, doniosłych wynalazków różnych „maszyn” liczących, będących w istocie kalkulatorami mechanicznymi – prostego abaka, XVIIwiecznej Pascaliny, maszyny różnicowej Babbage’a – oraz urządzeń peryferyjnych wejścia-wyjścia, np. w postaci kart perforowanych sterujących działaniem krosien żakardowych.

To zajmujący temat, ale może wróćmy do projektu CLARIN…
Faktycznie, rozmowa nie jest na temat historii, ale na jej przykładzie widać, że przenikanie się technologii i życia społecznego jest wspaniałym teatrem zmagań umysłu ludzkiego z wyzwaniami rzeczywistości. I to nie zmienia się od wieków. Nie wiem, czy Błażej Pascal, Charles Babbage, Joseph Jacquard, Jan Szczepanik, Alan Turing i podobni im wynalazcy widzieli oczami wyobraźni terabajty danych generowane w ciągu sekund w systemach informacyjnych i społecznych, ale jest faktem, że dziś ludzkość dysponuje ogromnymi zasobami informacji, że zasoby te rosną i że staramy się tworzyć urządzenia, które będą je przetwarzać, by ułatwić ludziom życie. Infrastruktura CLARIN jest właśnie jednym z pomysłów na organizację i racjonalizację związanych z tym procesów twórczych.

Może teraz kilka konkretów. CLARIN tworzą instytucje, ludzie, zasoby i narzędzia. Jeśli chodzi o instytucje, jesteśmy konsorcjum wielu jednostek naukowych, które współpracują przy różnych projektach automatycznego przetwarzania języka. Kadry CLARINu to środowisko zawodowe złożone przede wszystkim z inżynierów programistów o zacięciu lingwistycznym, ale współpracują z nami także przedstawiciele dyscyplin „miękkich”. Wszyscy członkowie konsorcjum dążą do stosowania podobnych standardów, dotyczących przede wszystkim formatów i metadanych, tak by tworzone korpusy tekstów, bazy danych i różne algorytmy były wobec siebie kompatybilne, by można było je łączyć, zgodnie z filozofią linked data. Jeśli chodzi o zasoby, czyli zapewne najbardziej spektakularny element, są to wielkie korpusy tekstów i bazy danych. Nowość całej sytuacji polega m.in. na tym, że wytworzone produkty informacyjne nie są widoczne i namacalne w taki sposób, jak to ma miejsce w nauce i gospodarce tradycyjnej, gdzie każdy sprzęt ma jakąś masę i objętość, a publikacja tytuł i liczbę stron. Infrastruktura informacyjna jest po prostu niematerialna, a fizyczną postać mają jedyni nośniki i urządzenia przetwarzające. Prowadzi to do sytuacji nieco kuriozalnych, np. gdy zgodnie z przepisami, ową „infrastrukturę” trzeba wciągnąć na stan środków trwałych, nadać numery inwentarzowe i wpisać je na jakimś przedmiocie materialnym. Dodam jeszcze, że konsorcjum finansują jak na razie budżety narodowe (u nas MNiSW), a częściowo Komisja Europejska. Z tego względu wszystkie wytworzone przez CLARIN zasoby i narzędzia są udostępniane bez opłat.

Jeśli chodzi o Polskę, w tym roku kończy się faza tworzenia infrastruktury. Po pięciu pracowitych latach jej „budowania” przechodzimy do utrzymania. To także jest nowość dla „systemu”, ponieważ utrzymanie raz postawionego budynku czy maszyny kosztuje niewiele w stosunku do ceny budowy, podczas gdy podtrzymanie działającego sytemu informacyjnego, obsługującego w dodatku użytkowników, wymaga nakładów porównywalnych z jego wytworzeniem. Zmieniają się przecież formaty, sprzęt, parametry udostępniania, a nawet rozwiązania algorytmiczne – wszystko to trzeba stale udoskonalać, poszerzać i aktualizować.

Czy można powiedzieć, gdzie CLARIN się znajduje?
Wirtualność zasobów i narzędzi cyfrowych nie sprzyja ich lokalizowaniu w geoprzestrzeni, ponieważ dane są na różnych serwerach, co dla użytkownika nie ma zresztą żadnego znaczenia. Natomiast organizacyjnie CLARIN umiejscowiony jest na Politechnice Wrocławskiej. Jego formalnym koordynatorem i dobrym duchem jest od lat dr Maciej Piasecki z Katedry Inteligencji Obliczeniowej na Wydziale Informatyki i Zarządzania. Na początku tego roku rozpoczęło tam funkcjonowanie Centrum Technologii Językowych CLARIN-PL, stawiające sobie za cel tworzenie, deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego. Oprócz tego w konsorcjum są Instytut Podstaw Informatyki PAN, Polsko-Japońska Akademia Technik Komputerowych, Uniwersytet Łódzki, Instytut Slawistyki PAN i Uniwersytet Wrocławski.

Czym jest ta „infrastruktura”, którą skończyliście budować? To strona internetowa wraz z narzędziami?
Z punktu widzenia użytkownika to są po prostu strony internetowe, na których udostępnione są przeróżne narzędzia, które można stosować bez opłat na niewielkich próbkach danych. W tej chwili wśród tych narzędzi znaleźć można m.in. tagowanie morfosyntaktyczne, czyli oznaczanie części mowy, oznaczanie nazw własnych, selekcjonowanie słów kluczy, klasyfikatory tekstów, pomiary podobieństwa leksykalnego, moduł do analizy stylometrycznej. Oprócz tego rozwija się serwis gromadzący przetworzone teksty parlamentarne, narzędzia monitorujące Internet w celu poszukiwania tzw. słów dnia (tygodnia, miesiąca itd.). Bardzo udanym modułem jest Słowosieć, czyli rodzaj słownika, zawierający jednostki leksykalne w węzłach, a w połączeniach ich wzajemne relacje semantyczne (wyrażające podobieństwo, podrzędność, nadrzędność itd.). Co istotne, relacje te uwzględniają wieloznaczność wyrazów (czyli inne byłyby powiązania rzeczownika ‘król’ jako zwierzęcia hodowlanego, inne dla tego samego ciągu znaków oznaczającego suwerena). A jak już się chwalimy, to powiem, że polska Słowosieć jest obecnie największą na świecie, a na dodatek tworzona jest półautomatycznie, czyli w sposób nadzorowany przez człowieka, co znacznie podnosi jej jakość.

Tak jak wspomniałem, jeżeli ktoś chce robić testy na małych tekstach, większość narzędzi CLARINu działa online, natomiast teksty duże trzeba deponować w repozytorium DSpace i przetwarzać zdalnie.

Duże to znaczy jakie?
Może nie takie z opowieści Lema, pewnie też nie „cały Internet”, ale praktycznie wielkość nie jest ograniczona – może to być na przykład okrągły tysiąc powieści.

A jakie było Pana zadanie w tym projekcie?
W sumie skromne w sensie narzędziowym, ale mimo to ambitne. Zostałem zaproszony do projektu pięć lat temu i zacząłem przygotowanie korpusu polskich tekstów prasowych publikowanych od 1945 r. Wymyśliłem nazwę korpusu ChronoPress i z pomocą programistów z Politechniki Wrocławskiej staram się ten zasób rozwijać. Obecnie obejmuje on lata 1945–1962, przy czym okres 1955–1962 nie jest ukończony (wyniki bywają więc mylące). Korpus jest oparty na próbkach, a więc nie skanujemy gazet lub czasopism w całości, a tylko kilka (kilkanaście) ok. 300-wyrazowych fragmentów na numer. Decyzja o wyborze metody reprezentatywnej była spowodowana tym, że dygitalizacja całych wydań byłby zbyt koszto- i czasochłonna. Ponadto jest to zadanie statutowe polskich bibliotek, a nie cel projektu naukowego. Oprócz tego polska humanistyka cyfrowa jest dziś sparaliżowana przepisami o prawie autorskim, które bardzo utrudniają udostępnianie w celach naukowych danych tekstowych z ostatnich dekad. Próbka jest w sensie prawnym cytatem, co rozwiązuje wiele potencjalnych problemów.

Czy taka reprezentacja prasy lat powojennych jest wiarygodna?
W 1936 r. ubiegłego wieku George Gallup, uważany za pioniera badań ankietowych opinii publicznej, przewidział dokładnie zwycięzcę wyborów prezydenckich w USA. Wyjątkowość tego wydarzenia polegała na tym, że nie kierował się układem gwiazd na niebie, a wynikami sondażu przeprowadzonego na grupie zaledwie 50 tys. respondentów (USA miały wtedy 128 mln mieszkańców). Okazało się, że można przewidywać zachowania wielkich populacji ludzkich na podstawie badań zaledwie ułamka ich liczebności. W przypadku ChronoPressa reprezentacja tego bardzo istotnego strumienia informacji jest więc wiarygodna, ponieważ próbki są dobierane starannie z całego spektrum ówczesnej prasy (do zasobów radiowych, także bardzo wartościowych, nie mamy niestety dostępu). Jednak korpus to nie biblioteka cyfrowa, nie służy do czytania całych wydań. Jego celem jest odkrywanie i wizualizowanie długotrwałych tendencji, ukrytych struktur itd. Jeśli więc ktoś potrzebuje szczegółowej i pogłębionej analizy – powinien sięgnąć po całe teksty.

A jak wygląda praca nad takim korpusem?
Przypomina nieco linię produkcyjną w fabryce – te same czynności powtarzane są setki razy w tej samej kolejności: pozyskanie wersji papierowej, skanowanie, OCR, format .XML z informacjami i korekta językowo-merytoryczna, a później wgranie do bazy i tagowanie morfosyntaktyczne. Ale kultowy cytat z Maklakiewicza o nudzie tutaj nie pasuje, ponieważ każdy tekst jest inny i podczas opracowania można sobie poczytać różne ciekawe rzeczy. Dużą część zadań wykonują różne osoby, ale jest też część zespołu, która nie zmienia się niemal od początku. Praca ludzka niestety pochłania środki, ale skoro nie ma systematycznie dygitalizowanej prasy tego okresu, inaczej się nie da. Z powodu ograniczonej dostępności rośnie jednak wartość tych danych. Fazą ostatnią jest budowa interfejsu i stworzenie narzędzi analitycznych. Dla mnie jest to akurat łatwe pod względem koncepcyjnym, ale prace programistyczne sprawiają pewne problemy.

Co do samych zasobów jedną z trudności było znalezienie źródeł. W 1945 r. wychodziły jeszcze gazety frontowe, wydawane przez wojskowe zarządy propagandy. Tego piśmiennictwa we Wrocławiu praktycznie nie ma. A kiedy szukałem londyńskiego „Dziennika Polskiego i Dziennika Żołnierza” z okresu tużpowojennego, okazało się, że komplet roczników ma jedynie Centralna Biblioteka Wojskowa. Dlaczego? Prawdopodobnie były to prohibity gromadzone skrzętnie przez służby peerelowskie i nieudostępniane osobom postronnym. Dzięki temu ich stan jest dziś niemal idealny. Jednak obecnie jesteśmy już na etapie opracowania lat sześćdziesiątych, tak więc zasoby te są dostępne na miejscu we Wrocławiu.

Zabrzmi to może naiwnie, ale co ciekawego jest w takim korpusie tekstów?
Cóż za pytanie! Chciałoby się powiedzieć, że wszystko. Ale to byłoby uproszczenie. Lata 1945–1962, czyli dane, które już mamy albo niebawem będziemy mieli, to w istocie trzy różne epoki. Najciekawszy jest okres pierwszy, do końca 1948 r. Trudno w to uwierzyć, ale panowała wtedy względna swoboda przekazywania informacji i pluralizm. W grudniu 1948 r. powstaje PZPR, a za to przestaje istnieć PPS i PPR, dochodzi do połączenia ich organów prasowych, czyli z „Głosu Ludu” i „Robotnika” powstaje „Trybuna Ludu”. Od 1949 r., cytując Jerzego Andrzejewskiego, „ciemności kryją ziemię”. Teksty całego niemal spektrum stają się bardzo stereotypowe i zideologizowane, w swym fasadowym entuzjazmie budowy nowego świata ponure, rośnie też poziom zawartej w nich agresji (wyjątki to „Tygodnik Powszechny”, „Przekrój” i prasa sportowa). Trwa to do odwilży 1956 r. Po tym czasie system stopniowo się stabilizuje, pojawia się też stosunkowo apolityczna prasa kolorowa. Wprawdzie ciągle dopełniamy bazę kolejnymi próbkami, jednak na podstawie tego, co jest, można już dostrzec różne procesy i zjawiska ukryte pod powierzchnią codziennej porcji informacji.

Spośród wielu ciekawostek mógłbym przytoczyć fragment z „Głosu Ludu” z 1945 r., który zawiera pierwsze szacunkowe wyceny ogromnych strat wojennych Polski, przygotowane wówczas jako podstawa ewentualnych roszczeń wobec Niemiec. Teraz, po wielu dekadach, temat ten powrócił na forum publiczne. Kiedy indziej, przy okazji prac nad tekstem o procesach komunikacji na Dolnym Śląsku, poszukiwałem użyć językowych wyrazów „repatriant” i „repatriacja”. Chodziło o ilustrację manipulacji semantycznej, polegającej na nazywaniu „repatriantami” (‘powracającymi do ojczyzny’) osób, które faktycznie swoją ojczyznę opuszczały. Czyli konkretnie o poświadczone w prasie wyrażenia w rodzaju „repatrianci ze Lwowa, Wilna itd.”. Taka jest przecież współczesna postpamięć o tamtych czasach. Otóż w korpusie nie ma takich użyć. Jako repatriantów oficjalnie określano tylko Polaków powracających z Syberii, z obozów i robót przymusowych w Niemczech oraz z innych państw zachodnich (chociaż wszyscy formalnie przechodzi przez PUR – Państwowy Urząd Repatriacyjny). Natomiast mieszkańcy dawnych polskich województw wschodnich byli nazywani albo przesiedleńcami, albo stosowano na ich określenie wyrażenia semantycznie mętne („za Bugiem” znajdowała część Polski przedwojennej, ale także Samarkanda czy Charbin – a to przecież nie to samo).

Ciekawym przykładem jest także nazwa „Katowice”, która w 1953 r. znika z przestrzeni publicznej, ponieważ jej miejsce zajmuje Stalinogród. Szeregi czasowe obu leksemów ukazują tę dynamikę. Inną ciekawostką jest niemal całkowity brak „nazistów”. Jeżeli wyraz ten występuje, to prawie wyłącznie w kontekście poglądów pewnych grup Niemców na tle reszty tamtego społeczeństwa. Natomiast nie jest jednostką leksykalną zastępującą „Niemca”. W korpusie nie ma też śladów dzisiejszej poprawności politycznej w nazywaniu grup etniczno-rasowych czy ułomności ciała ludzkiego (pisano na przykład „inwalida”, a nie „niepełnosprawny”, leksem „rom” w ogóle się nie pojawia).

Słyszy się od lat, ale ostatnio jakby częściej, że humanistyka jest w kryzysie, ponieważ jest niepraktyczna. Komu więc służy CLARIN?
Na wstępie należy podkreślić, że CLARIN odróżnia się od innych projektów tym, że bardzo poważnie traktuje użytkowników, a nie tylko twórców oferowanej infrastruktury. Nie znaczy to, że nasze własne pomysły są odrealnione czy niepotrzebne. W jakimś sensie sami przecież jesteśmy prototypowymi użytkownikami oferowanych innym narzędzi i zasobów, a więc ich weryfikatorami. Ale od kilku lat prowadzimy systematyczne szkolenia, wsłuchujemy się w głos odbiorców, mamy też sieć użytkowników zarejestrowanych i akcydentalnych, a ponadto monitorujemy wejścia na niektóre serwisy. To jest chyba ten inżynierski duch tworzenia rzeczy innowacyjnych, a przy tym zawsze potrzebnych innym, obcy nauce czystej, określanej metaforycznie jako wieża z kości słoniowej. A ponieważ jestem humanistą z dyplomem inżyniera, zresztą po tym wydziale, na którym dziś znajduje się wspomniane już wcześniej Centrum Technologii Językowych, czuję się w tej współpracy bardzo dobrze.

W praktyce grono odbiorców usług CLARIN-PL składa się z osób i instytucji reprezentujących humanistykę (różne aspekty badania języka polskiego oraz tworzenie korpusów równoległych, wykorzystywanych masowo w translatoryce) oraz nauki społeczne (przede wszystkim socjologię, psychologię i politologię). Zauważamy zresztą, że obie te dziedziny, a w ich ramach konkretne dyscypliny, zachodzą na siebie. Jednym z naszych użytkowników i partnerów naukowych jest np. Uniwersytet Kazimierza Wielkiego w Bydgoszczy, gdzie dr hab. Rafał Zimny z zespołem realizuje projekt zebrania i digitalizacji najważniejszych przemówień z okresu stulecia Rzeczpospolitej (od roku 1918). Politolog podpowiada, które przemówienie jest ważne, tłumaczy dlaczego, ale lingwista wyjaśnia, jakimi środkami stylistycznymi i retorycznymi posłużył się mówca. Tradycyjnie w kursach akademickich te sprawy są od siebie oddzielane, podczas gdy ich związek jest bliski. Rozwija się też współpraca z logopedami i psychologami, badającymi pod względem statystycznym mowę dysfunkcyjną.

Użytkowników mamy zresztą nie tylko akademickich. Ostatnio rozmawiamy o podjęciu współpracy z fundacją MamPrawoWiedzieć, która prowadzi serwis watchdogowy, rejestrujący procesy komunikacji publicznej w sferze polityki. Jest także duże, ale bardziej dyskretne zainteresowanie ze strony firm komercyjnych. Obserwując z pozycji uczestnika funkcjonowanie CLARINu mogę powiedzieć, że od kilku lat liczba naszych partnerów i użytkowników systematycznie poszerza się. Wynika to z coraz lepszej „alfabetyzacji cyfrowej” przedstawicieli wspomnianych dyscyplin, ale także z dojrzałości samych narzędzi.

Czy można powiedzieć, że w tym wypadku CLARIN przysłuży się tzw. „szaremu obywatelowi”?
Pośrednio tak. Z naszych lub obcych zasobów (ale tworzonych z użyciem narzędzi CLARINu) generuje się dane lub informacje, dzięki którym można pisać raporty czy artykuły – także popularne, trafiające do szerokiego obiegu. Dzięki solidnej bazie zasobowej mają one rzeczowe podstawy, nie są jedynie wyrażaniem poglądów przy porannej kawie.

Korpus obejmuje obecnie lata 1945–1962. Planuje Pan jego rozszerzenie?
Tak, chcę rozszerzać zasięg ChronoPressa, taka jest też wola pozostałych partnerów z CLARINu, ale wszystko zależy od środków finansowych. Kosztowne są czynności programistyczne. Jakość także kosztuje, a bez ręcznego opracowania próbek nie da się korpusu przygotować. Z kolei czekanie na to, że całe numery zostaną zeskanowane przez biblioteki, może trwać jeszcze długie lata. Na razie potrzebne są roczniki do przełomu w 1989 r., a następnie okresy 1918–1944 i 1990– 2017. Nie da się ukryć, że ten pierwszy jest bardzo trudny, chociaż ciekawszy od współczesności. Docelowo ChronoPress objąłby więc swym zasięgiem sto lat niepodległości. Jednak jest to ogromna praca i, używając cytatu z Martina Luthera Kinga, postrzegam ją raczej jako „dream”, a nie bliską realność.

Wiele mówi się ostatnio o humanistyce cyfrowej. Czy CLARIN to element tego nurtu?
Tak daleko bym nie szedł. Humanistyka cyfrowa obejmuje szerokie spektrum dziedzin, zaś CLARIN-PL zajmuje się wyłącznie językiem, a nie dla wszystkich język jest esencją humanistyki. Ale związek jest, ponieważ nasze rozwiązania stymulują rozwój humanistyki cyfrowej, a w szerszej perspektywie są elementem przewrotu cyfrowego. Jednak nie chciałbym tutaj wartościować obu podejść (tzn. cyfrowego i opartego na tradycyjnych nośnikach). Każde ma słabe i mocne strony. Istotną sprawy w humanistyce cyfrowej jest praca na wielkich zbiorach danych, doniosła rola infografik i formatów multimedialnych (a nie tylko tekstu), wreszcie nacisk na działanie i eksplorację danych bezpośrednio w interfejsie komunikacyjnym, a nie kontakt ze statycznym i zamkniętym tekstem, który można jedynie interpretować. Zewnętrznym, najbardziej widocznym objawem tego procesu jest regres drukowanej książki kodeksowej, która zastępowana jest różnymi nośnikami cyfrowymi, pełniącymi rolę „bram” do wirtualnego świata. CLARIN-PL te procesy wspomaga, swoimi aplikacjami odpowiadając po prostu na zapotrzebowanie społeczne.

Czy mamy z tego rozumieć, że niedługo maszyny będą za nas czytać książki?
Ależ one już mogą „czytać” – książki, dokumenty, nawet nagrania. Tylko nie dla przyjemności, a w celu wydobywania informacji na zadany temat. I do tego to wszystko zmierza. Za jakiś czas pewnie pojawią się lepsze interfejsy głosowe, elastyczne i tanie nośniki itd. Może nie będzie to wyglądać, jak rozmowa astronauty z HALem w „Odysei kosmicznej 2001” Stanleya Kubricka, ale automatyczna akwizycja danych i wiedzy przez maszyny jest faktem. Nie ukrywam, że w sprawach zawodowych jest to bardzo wygodne rozwiązanie, ponieważ teksty fachowe lub źródłowe bywają nużące. Oczywiście dla przyjemności nadal będziemy sobie czytać po staremu. Jednak człowiek, chcąc nie chcąc, jest już skazany na życie z technologią, na współpracę z maszynami. CLARIN-PL to ułatwia, przynajmniej w obszarze języka.

Dodane przez: Agata Kreska

14 Lut 2018

ostatnia modyfikacja: 28 Lut 2018