Strona używa plików cookies więcej

Badania / Nauka

Sztuczna inteligencja a język 

Choć sukcesy sztucznej inteligencji są imponujące, często czynności, które umieją dziś wykonać komputery, są w istocie naśladownictwem ludzkich działań. Niemal za każdym sukcesem maszyn stoją zbiory danych opisane i przygotowane przez ludzi. Stworzyłem sieci neuronowe rozpoznające mowę, które spodobały się za oceanem i przez rok badałem je w Google Brain. Praca ta uświadomiła mi, że nie można się ścigać z przemysłem na ilość opisanych danych. Konieczne jest jednak rozwinięcie metod maksymalnie wykorzystujących potencjał łatwo dostępnych i niewymagających ludzkiej pracy danych surowych.

Niemal każdego dnia dowiadujemy się o nowych osiągnięciach sztucznej inteligencji. Maszyny nie tylko umieją coraz lepiej widzieć, czytać, słyszeć czy tłumaczyć, ale mogą też prowadzić samochód, rozpoznawać choroby lub dla rozrywki przerabiać fotografie na obrazy udające znanych malarzy. Choć wyniki te są bardzo imponujące, często czynności, które potrafią dziś wykonać komputery, są w istocie naśladownictwem działań ludzi. Niemal za każdym sukcesem maszyn stoją zbiory danych opisane i przygotowane przez ludzi, w których zawarte są informacje, jak postępować.

Jednym z kamieni milowych rozpoznawania obrazów było utworzenie na Uniwersytecie Stanforda zbioru danych Imagenet – opisanego przez ochotników korpusu miliona zdjęć przynależących do tysiąca kategorii. Możemy niemal mówić o przekroczeniu krytycznej masy danych niezbędnej do osiągnięcia przez maszynę danej umiejętności. Podobna zależność od danych występuje też w innych dziedzinach: systemy tłumaczące wymagają współczesnych kamieni z Rosetty, czyli korpusów równoległych zawierających odpowiadające sobie zdania w różnych językach. Ich źródłem są m.in. skrupulatnie tłumaczone akty prawne Unii Europejskiej lub Parlamentu Kanadyjskiego. Często o sukcesie uczenia decyduje nie algorytm, tylko zbiory uczące, pozyskiwane wszystkimi możliwymi sposobami. Nawet zagadki captcha służące do weryfikacji, czy daną akcję wykonuje człowiek, czy automat, służą również opisywaniu danych – kiedyś były to skany książek, później czytanie punktów adresowych na zdjęciach, a obecnie interpretacja scen na potrzeby aut samojezdnych.

W moich badaniach prowadzonych na Uniwersytecie Wrocławskim koncentruję się na pracy nad mową i językiem. Moje sieci neuronowe rozpoznające mowę spodobały się za oceanem i przez rok badałem je w Google Brain. Pobyt w Google uświadomił mi, że nie można się ścigać z przemysłem na ilość opisanych danych, konieczne jest jednak rozwinięcie metod maksymalnie wykorzystujących potencjał łatwo dostępnych i niewymagających ludzkiej pracy danych surowych. Jest to zyskujący na popularności kierunek badań, realizowany obecnie w wielu ośrodkach. Skuteczne wykorzystanie surowych danych umożliwi wykorzystanie metod sztucznej inteligencji również w zastosowaniach niszowych, dla których ręczne opisywanie danych jest nieopłacalne. Jednym z tematów, którymi się zajmuję, jest praca z historycznymi dokumentami. Chcę stworzyć metody rozpoznawania tekstu niewymagające uprzedniego ręcznego przepisania setek stron.

Docelowo chciałbym stworzyć algorytmy, które będą w stanie rozpoznać wysokopoziomową strukturę danych, umożliwiającą nie tylko skuteczniejsze rozwiązywanie zadań sztucznej inteligencji, ale również pozwalającą na lepsze zrozumienie danych i operujących na nich modeli. Poszukuję metod, dzięki którym komputer będzie umiał przejrzeć np. zbiór zeskanowanych dokumentów oraz odkryć i pogrupować litery, określić podział na słowa i może nauczyć się bardzo podstawowej gramatyki, np. zależności między poszczególnymi słowami często współwystępującymi.

Oczywiście metody te mogłyby również być stosowane w innych warunkach, np. podczas interpretacji zdjęcia ruchu drogowego. Przykładowo moglibyśmy chcieć, aby komputer jawnie zrozumiał i umożliwiał użytkownikom kontrolę zależności między typami podłoża (drogami, chodnikami), a występującymi na nich obiektami – pieszymi albo samochodami. Obecne metody sztucznej inteligencji uczą się tych relacji, ale niejawnie, co jest kłopotliwe – np. system, który jest nauczony, że piesi występują tylko na chodnikach, może odmawiać ich dostrzeżenia, gdy przebiegają oni przez jezdnię. A przecież na wyłapaniu właśnie takich nietypowych zdarzeń najbardziej nam zależy.

Swoje badania koncentruję jednak przede wszystkim na zagadnieniach dotyczących języka – znając jego strukturę, możemy weryfikować, czy komputer poprawnie ją odkrywa. Badania te realizuję przy wsparciu finansowym Narodowego Centrum Nauki w ramach grantów SONATA i OPUS.

Tekst: dr hab. inż. Jan Chorowski, prof. UWr, Instytut Informatyki

Dr hab. inż. Jan Chorowski jest profesorem na Wydziale Matematyki i Informatyki Uniwersytetu Wrocławskiego i kierownikiem SI w NavAlgo. Magisterium obronił na Politechnice Wrocławskiej, doktorat na University of Louisville, zaś habilitację na Uniwersytecie Wrocławskim. Współpracował z wieloma zespołami badawczymi, w tym Google Brain, Microsoft Research i Laboratorium prof. Yoshuy Bengio na Uniwersytecie Montrealskim. Kierował też badaniami podczas organizowanych przez Johns Hopkins University warsztatach JSALT 2019. Jego zainteresowania badawcze to zastosowania sieci neuronowych do problemów intuicyjnych i łatwych dla ludzi, lecz trudnych dla maszyn, takich jak przetwarzanie mowy i języka naturalnego. W NavAlgo rozwija rozwiązania sztucznej inteligencji dla obiektów w ruchu.

Dodane przez: Aleksandra Draus

12 Sty 2021

ostatnia modyfikacja: 19 Sty 2021