Audioteka wypuściła pierwszego audiobooka czytanego przez sztuczną inteligencję. Posłuchaj fragmentu

15 stycznia 2024

Audioteka testuje możliwości wykorzystania sztucznej inteligencji w tworzeniu audiobooków. Pierwsza produkcja zrealizowana w ten sposób właśnie trafiła na platformę. Producenci do realizacji pionierskiego przedsięwzięcia wybrali książkę „Gaming na giełdzie” autorstwa Pawła Sugalskiego, ponieważ zawiera wiele danych i technicznych pojęć, których czytanie stanowi obecnie wyzwanie dla sztucznej inteligencji.

Jak się dowiadujemy, od roku w studiu nagraniowym Audioteki trwały testy weryfikujące, w jaki sposób algorytmy mogą usprawnić proces produkcji audiobooków. Twórcy twierdzą, że sztuczna inteligencja będzie wykorzystywana jedynie w tych obszarach, w których „jej specyficzne funkcje mogą podnieść jakość doświadczenia odbiorców, ułatwiając przyswojenie treści”. Nie sprecyzowano jednak, w czym maszynowy lektor miałby przewagę nad żywym człowiekiem.

„Idea wygenerowania audiobooka przy użyciu AI wzięła się z chęci eksploracji nowych rozwiązań i dostosowania się do zachodzących zmian. Chcieliśmy przekonać się, jak w praktyce przebiega praca z algorytmem sztucznej inteligencji i jakie wyzwania stawia” – komentuje Arkadiusz Seidler, prezes Audioteki.

Przedstawiciele Audioteki przyznają, że w przypadku pierwszego projektu z użyciem sztucznej inteligencji realizacja audiobooka zajęła dwukrotnie więcej czasu niż tradycyjne nagranie. Miało to wynikać z konieczności bardziej szczegółowego opracowania i przygotowania tekstu niż przy standardowej produkcji. Audioteka wyjaśnia, że w celu dostosowania akapitu do wymagań AI, najpierw generuje się go w wersji testowej. Jest to podstawą do zidentyfikowania błędów interpretacyjnych i intonacyjnych. Następnie, stosując znaki specjalne, interpunkcyjne oraz rozróżniając wielkość liter, wprowadza się korekty do tekstu i ponownie go generuje. Proces ten powtarza się aż do uzyskania oczekiwanego efektu, zatem jeśli dany tekst jest poprawny, łączy się go z wygenerowanymi wcześniej fragmentami, a jeśli zawiera błędy, należy generować fragment aż do otrzymania pożądanego rezultatu.

„Mimo że AI skutecznie rozpoznaje język i poprawnie akcentuje większość słów, to miewa trudności z czytaniem liczebników i krótkich wyrazów, które często interpretuje jako skróty. W związku z tym, zadaniem realizatora jest opracowanie tekstu w taki sposób, aby był on prawidłowo interpretowany przez AI – proces ten można porównać do programowania. I tak na przykład specjalnej transkrypcji wymagał zwrot 'gry online’ – dopiero zapis ’-GRy on’lajn’ pozwalał sztucznej inteligencji na odpowiednie przeczytanie tego określenia” – komentuje Bartosz Sroczyński, kierownik studia nagrań i postprodukcji w Audiotece.

Spółka informuje, że zamierza kontynuować prace nad wykorzystaniem sztucznej inteligencji w procesie tworzenia audiobooków. Prace testowe miały wypaść pozytywnie, więc jeszcze w tym roku powstaną kolejne produkcje. Firma podkreśla, że działa ze „szczególną dbałością” o ochronę własności intelektualnej w przestrzeni cyfrowej. Nadal priorytetem Audioteki ma też być nagrywanie treści we współpracy z polskimi lektorami i aktorami, jednak w przypadku audiobooków, których treść i fabuła mogą być wsparte przez sztuczną inteligencję, zamierza wykorzystywać technologię AI.

Poniżej możecie posłuchać początku audiobooka „Gaming na giełdzie” czytanego przez sztuczną inteligencję. Całość jest dostępna bezpłatnie dla użytkowników Audioteka Klub lub do kupienia na stronie Audioteki.

[md]
fot. Freepik

Tematy: , , , ,

Kategoria: newsy, słuchowiska