Kalbos kokybės pagerinimas naudojant dirbtinį intelektą po onkologinių gerklų operacijų
Babelis, Augustas |
Konsultantas / Consultant | |
Recenzentas / Reviewer |
Augustas Babelis. Baigiamasis magistro darbas „Kalbos kokybės pagerinimas naudojant dirbtinį intelektą po onkologinių gerklų operacijų“. Medicinos studijų programos baigiamasis magistro darbas / mokslinis vadovas Doc. dr. K. Pribuišis / konsultantas Prof. I. Ulozienė; Lietuvos Sveikatos Mokslų Universitetas, Medicinos akademija, Ausų, Nosies ir Gerklės ligų klinika. Kaunas, 2025, 34 p. Darbo tikslas. Įvertinti ir palyginti skirtingų dirbtinio intelekto technologijų taikymą, siekiant pagerinti kalbos kokybę pacientams po onkologinių gerklų operacijų. Darbo uždaviniai. 1. Kalbos duomenų bazės išplėtimas ir demografinė analizė. 2. Objektyvi ir ekspertinė nemodifikuotų kalbos pavyzdžių akustinė analizė po onkologinių gerklų operacijų. 3. Po onkologinių gerklų operacijų dirbtinio intelekto apdorotų kalbos pavyzdžių objektyvi ir ekspertinė akustinė analizė. 4. Dirbtinio intelekto modelio kalbos pagerinimo statistinis įvertinimas po onkologinių gerklų operacijų. Metodika. Tyrime dalyvavo 77 pacientai, kuriems buvo atliktos onkologinės gerklų operacijos. Pacientų originalios kalbos pavyzdžiai buvo lyginami su DI pagalba sintezuotais variantais, sukurtais taikant „SpeechEnhancer“ modelį. Kalbos įrašai buvo analizuojami dviem lygmenimis – objektyviai (akustiniai parametrai: AVE, PVF, PVS, ASVI) ir subjektyviai (IINFVo skalė). Kiekybiniai duomenys aprašomi kaip aritmetinis vidurkis ir standartinis nuokrypis (SN). Statistinė analizė atlikta naudojant Mann–Whitney U testą, ANOVA, Stjudento (t) testą, ICC, Krippendorfo alfa koeficientą. Duomenų pasiskirstymas buvo vertinamas pagal normalumo dėsningumus, taikant Kolmogorovo–Smirnovo kriterijų ir apskaičiuojant duomenų asimetrijos (angl. skewness) bei aštrumo (angl. kurtosis) koeficientus. Statistiškai reikšmingas skirtumas tarp grupių apibrėžtas, jei reikšmingumo lygmuo p < 0,05. Tyrimo objektas – tyrime dalyvavusių 77 vyrų, kuriems buvo atliktos onkologinės gerklų operacijos, pakaitinis balsas. Statistinė duomenų analizė buvo atlikta naudojant statistinį IBM SPSS Statistics for Windows, 20,0 versijos duomenų paketą ir MedCalc 20.118 versijos programinę įrangą. Tyrimo rezultatai. Vidutinis tyrimo dalyvių amžius buvo 64,2 metai (SN = 31,1). Atliekant subjektyvų ekspertinį vertinimą pagal IINFVo skalę nustatyta, jog dirbtinio intelekto (DI) sintezuotos kalbos įrašų kokybė buvo statistiškai reikšmingai geresnė (vidurkis = 5,59; SN = 0,83), lyginant su originaliais pakaitinės kalbos įrašais (vidurkis = 4,18; SN = 1,11; p < 0,001). Statistiškai reikšmingas skirtumas nustatytas visose IINFVo skalės kategorijose (balso kokybė, suprantamumas, kalbos sklandumas, balsingumas, papildomi garsai). Objektyvios akustinės analizės metu, palyginus originalios ir DI sintezuotos kalbos įrašus, nustatyti reikšmingi pagerėjimai vertinant AVE, PVF, PVS akustinius parametrus: vidutinį balsingumą (p = 0,001), fonacijos balsingų segmentų dalį (PVF, p = 0,025) ir kalbai priskiriamų balsingų segmentų dalį (PVS, p = 0,001). Akustinis pakaitinės fonacijos indeksas (ASVI) DI sintezuotai kalbai buvo reikšmingai aukštesnis (vidurkis = 19,22; SN = 7,44) nei originaliai pakaitinei kalbai (vidurkis = 9,39; SN = 4,34; p = 0,001). Originalių ir sintezuotų kalbos įrašų panašumo vertinimas pagal SMOS skalę parodė vidutinį panašumą (vidurkis = 2,42; SN = 1,19), o vertintojų sutarimo patikimumas buvo vidutinis (ICC = 0,52). Išvados. Tyrimas atliktas taikant retrospektyvinę antrinę analizę, naudojant 77 vyriškos lyties pacientų (amžiaus vidurkis 64,2; SN = 31,1) originalius ir sintezuotus kalbos įrašus. Kalbos suvokimo įvertinimas atliktas taikant IINFVo skalę, vertintojų grupei sutarus dėl vertinimo kriterijų. Nustatytas statistiškai reikšmingas (p = 0,001) sintezuotos kalbos kokybės pagerėjimas (vidutinis IINFVo įvertis: 5,59; SN = 0,83), palyginti su originalia pakaitine kalba (4,18; SN = 1,11). Objektyvi akustinė analizė parodė reikšmingą sintezuotos kalbos pagerėjimą pagal AVE (p = 0,001), PVF (p = 0,025) ir PVS (p = 0,001) parametrus, lyginant su originalia kalba. ¬„SpeechEnhancer“ sintezuotos kalbos kokybė, vertinta pagal ASVI, buvo beveik dvigubai aukštesnė (vidurkis = 19,22; SN = 7,44) nei originalios pakaitinės kalbos (vidurkis = 9,39; SN = 4,34). Nustatytas statistiškai reikšmingas skirtumas (p = 0,001).
Augustas Babelis. Master‘s thesis “Improving Speech Quality Using Artificial Intelligence after Oncological Laryngeal Surgery”. Master's Thesis of the Medical Studies Programme / Scientific work supervisor Assoc. Prof. Kipras Pribuišis / Consultant: Prof. I. Uloziene; Lithuanian University of Health Sciences, Medical Academy, Department of Otorhinolaryngology. Kaunas, 2025, 34 p. Aim. To evaluate and compare the application of various artificial intelligence (AI) technologies in improving speech quality in patients after laryngeal oncosurgery. Tasks. 1. Expansion of the speech database and demographic analysis. 2. Objective and expert acoustic evaluation of unprocessed speech samples after laryngeal oncosurgery. 3. Objective and expert acoustic evaluation of AI-processed speech samples following oncological laryngeal surgeries. 4. Statistical evaluation of speech improvement using artificial intelligence model after laryngeal oncosurgery. Methodology. The study included 77 patients who underwent oncological laryngeal surgery. Original speech samples of patients were compared with speech synthesized by artificial intelligence using the "SpeechEnhancer" model. Speech recordings were analyzed objectively (acoustic parameters: AVE, PVF, PVS, ASVI) and subjectively (IINFVo scale). Quantitative data is presented as mean with standard deviation (SD). Statistical analysis was performed using Mann–Whitney U test, ANOVA, Student’s t-test, ICC, and Krippendorff's alpha coefficient. Data distribution was assessed using Kolmogorov–Smirnov test and calculated skewness and kurtosis coefficients. Statistical significance was defined at p < 0.05. The study object was the substitute voicing speech samples of 77 male participants who previously underwent laryngeal oncosurgery. Statistical analysis was performed using IBM SPSS Statistics for Windows version 20.0 and MedCalc version 20.118 softwares. Results. The mean age of study participants was 64.2 years (SD = 31.1). Subjective expert evaluation using the IINFVo scale showed significantly better quality of artificial intelligence (AI)-synthesized speech samples (mean = 5.59; SD = 0.83) compared to original substitute voicing samples (mean = 4.18; SD = 1.11; p < 0.001). Statistically significant differences were observed across all categories of the IINFVo scale (voice quality, intelligibility, fluency, voicing, and additional noise). Objective acoustic analysis comparing original and AI-synthesized speech recordings revealed significant improvements in acoustic parameters: average voicing evidence (AVE, p = 0.001), proportion of voiced frames classified as phonation (PVF, p = 0.025), and proportion of voiced frames classified as speech (PVS, p = 0.001). The Acoustic Substitution Voicing Index (ASVI) of AI-synthesized speech was significantly higher (mean = 19.22; SD = 7.44) compared to the original substitute voicing (mean = 9.39; SD = 4.34; p = 0.001). Evaluation of similarity between original and synthesized speech samples using the SMOS scale showed moderate similarity (mean = 2.42; SD = 1.19), and inter-rater reliability was moderate (ICC = 0.52). Conclusions. Retrospective secondary analysis of original and AI-synthesized speech recordings of 77 male (mean age = 64.2; SD = 31.1) patients was performed. Speech perception assessment using the IINFVo scale, following standardized evaluation criteria among raters, showed statistically significant improvement in synthesized speech quality (mean IINFVo score: 5.59; SD = 0.83) compared to original substitute speech (mean: 4.18; SD = 1.11; p = 0.001). Objective acoustic analysis confirmed significant improvement in AI-synthesized speech quality based on AVE (p = 0.001), PVF (p = 0.025), and PVS (p = 0.001) parameters, compared to original speech samples. The quality of "SpeechEnhancer" synthesized speech, evaluated using ASVI, was nearly twice as high (mean = 19.22; SD = 7.44) as the original substitute speech (mean = 9.39; SD = 4.34). The difference was statistically significant (p = 0.001).