Uczenie maszynowe i humanistyka cyfrowa – nowe podejście do starych pytań

Autorzy: Pietro Sillano, Beatrice Villata, Arianna Di Bernardo, Simone Poetto, Weronika Sójka, Zofia Piętka-Danilewicz

Opiekun projektu: dr Piotr Pranke

Abstrakt

W średniowieczu uczono się tekstów na pamięć i przekazywano je z pokolenia na pokolenie za pomocą ustnych środków komunikacji. Adaptacja sztuki poetyckiej pozwoliła zachować opisy i kompozycje charakterystyczne dla wielu gatunków literackich. Uwzględniając specyficzną konstrukcję literatury pisanej po łacinie, możliwe jest poszukiwanie wzorców prawdopodobieństwa znanych źródeł konkretnych tekstów narracyjnych. W artykule wykorzystano praktyczne zastosowanie tych pojęć i przeprowadzono analizę tekstów narracyjnych dla całych fraz. Na podstawie baz danych otwartego dostępu obliczono prawdopodobieństwo pochodzenia poszczególnych źródeł tekstowych. Skupiono się na stworzeniu konkretnych zasobów narzędzi wyszukiwania, które umożliwiłyby nam szczegółowe przeszukiwanie tekstu. Główne cele badania uwzględniają znalezienie podobieństw między zdaniami i między dokumentami. Zaangażowano algorytmy uczenia maszynowego w celu wyodrębnienia określonych cech tekstów, takich jak informacje o autorach, stuleciach lub pojawiających się słowach. Dodatkowym celem jest zastosowanie algorytmów uczenia maszynowego do rozpoznawania źródeł anonimowych tekstów z określonym procentem. Uwzględnienie narzędzi do przetwarzania języka naturalnego umożliwiło przekształcenie obiektów tekstowych w liczbowe, a następnie zastosowanie algorytmów uczenia maszynowego w celu wyodrębnienia informacji ze zbioru danych.

Projekt realizowany w ramach Torun Humanities and Social Sciences Summer Program 2021 dzięki kolaboracji Koła Naukowego Neurotechnologii oraz Machine Learning Journal Club.