Dirbtinis intelektas intervencinėje kardiologijoje: didžiųjų kalbos modelių ir realių klinikinių sprendimų lyginamoji analizė
Konsultantas / Consultant | |
Recenzentas / Reviewer |
Autorė: Rugilė Martinaitytė. Vadovas: prof. dr. Gediminas Jaruševičius. Konsultantė: dokt. Greta Žiubrytė. Darbo pavadinimas: „Dirbtinis intelektas intervencinėje kardiologijoje: didžiųjų kalbos modelių ir realių klinikinių sprendimų lyginamoji analizė“. Tikslas: Nustatyti, ar didieji kalbos modeliai (DKM) be papildomų fiziologinių vainikinių arterijų (VA) tyrimų gali nuspėti tinkamiausią gydymo taktiką (GT) pacientams, sergantiems lėtine išemine širdies liga (IŠL) su nustatytomis ribinėmis (35–75 %) VA stenozėmis. Uždaviniai: 1. Palyginti DKM GT sprendimus su frakcinio tėkmės rezervo (FTR) rezultatais; 2. Palyginti DKM GT pasirinkimus su realiais gydytojų priimtais sprendimais; 3. Įvertinti, kurių rodiklių įvestys lemia DKM atsakymų skirtumus; 4. Įvertinti, kurių rodiklių įvestys turi sąsajų su didesne DKM klaidų tikimybe. Tyrimo metodai ir dalyviai: Lietuvos sveikatos mokslų universiteto ligoninės Kauno Klinikose atliktas retrospektyvus klinikinių duomenų tyrimas su in silico analize. Analizuota 100 IŠL sergančių pacientų, kuriems vainikinių arterijų angiografijos (VAA) metu nustatytos ribinės (35–75%) VA stenozės ir atliktas FTR tyrimas. Tiriamųjų klinikinės situacijos pateiktos aštuoniems DKM (GPT–4, GPT–4o, OpenAI o1, PubMed GPT, Scholar GPT, Gemini 2.0 Flash, Gemini 2.0 Flash Thinking, Gemini 2.5 Pro) ir standartizuotose įvestyse buvo nurodyta apspręsti optimalią GT. DKM rekomendacijos lygintos su FTR pagrįsta taktika ir realiais gydytojų priimtais sprendimais. Vertintas DKM tikslumas, jautrumas, specifiškumas bei veiksniai, lėmę DKM atsakymų skirtumus ir didesnę klaidų tikimybę (p<0,05). Tyrimo rezultatai: Geriausią bendrą tikslumą, lyginant DKM sprendimus su FTR ir realiais gydytojų sprendimais, demonstravo Gemini 2.5 Pro (77,0 % ir 70,0 %) bei Scholar GPT (74,0 % ir 69,0 %). Mažiausias tikslumas nustatytas Gemini 2.0 Flash Thinking modeliui (44,0 % ir 45,0 %). Modelių jautrumai ir specifiškumai, priklausomai nuo modelio, svyravo nuo 23,6 % iki 96,4 %. Nustatyta, jog analizuotų DKM atsakymų skirtumus ir klaidas lėmė (p<0,05) VAA duomenys, kairio skilvelio išmetimo frakcija, antsvoris ir nutukimas, sumažėjusi fizinio krūvio tolerancija, krūtinės angina ramybėje, NYHA funkcinė klasė, persirgtas miokardo infarktas, anksčiau atlikta perkutaninė VA intervencija ar VA jungčių suformavimo operacija, anamnezėje esantis cukrinis diabetas, rūkymas, lytis, mažesnė didelio tankio lipoproteinų cholesterolio ar didesnė trigliceridų koncentracija, didesnė kreatinino koncentracija. Išvados ir rekomendacijos: Lyginant DKM siūlomą GT su realiais klinikiniais sprendimais, modelių našumas, priklausomai nuo anamnestinių ir klinikinių duomenų, skyrėsi; didžiausiu tikslumu pasižymėjo Gemini 2.5 Pro ir Scholar GPT, mažiausiu – Gemini 2.0 Flash Thinking. DKM intervencinėje kardiologijoje rekomenduojama naudoti atsargiai ir tik kaip pagalbinę sprendimų priėmimo priemonę. Ypatingas atsargumas reikalingas vertinant sudėtingus klinikinius atvejus, kuriuos nagrinėjant dabartinių DKM patikimumas yra dar mažesnis. Saugiam DKM integravimui į praktiką būtinas tolesnis jų validavimas didelės apimties tyrimais arba specializuotų, medicinos reikmėms pritaikytų ir kliniškai patvirtintų dirbtinio intelekto įrankių sukūrimas.
Author: Rugilė Martinaitytė. Supervisor: Prof. dr. Gediminas Jaruševičius. Consultant: PhD Student Greta Žiubrytė. Title: "Artificial Intelligence in Interventional Cardiology: a Comparative Analysis of Large Language Models and Real–World Clinical Decisions". Aim: To determine whether Large Language Models (LLM), without supplementary physiological coronary artery (CA) assessments, can predict the most appropriate treatment strategy (TS) for patients with chronic ischaemic heart disease (IHD) presenting with intermediate (35–75%) CA stenoses. Objectives: 1. To compare LLM TS decisions with fractional flow reserve (FFR) results; 2. To compare LLM TS choices with actual physician–made decisions; 3. To evaluate which input parameters influence variations in LLM responses; 4. To assess which input parameters are associated with a higher probability of LLM errors. Methods and Participants: A retrospective in silico clinical data study was conducted at the Hospital of Lithuanian University of Health Sciences Kauno klinikos. Data from 100 IHD patients with intermediate (35–75%) CA stenoses, identified via invasive coronary angiography (ICA) and evaluated by the FFR assessment, were analysed. Clinical scenarios were presented to 8 LLMs (GPT–4, GPT–4o, OpenAI o1, PubMed GPT, Scholar GPT, Gemini 2.0 Flash, Gemini 2.0 Flash Thinking, Gemini 2.5 Pro). Models were prompted to determine the optimal TS. LLM recommendations were compared with FFR–guided strategy and actual physician decisions. LLM accuracy, sensitivity, specificity, and factors influencing response variations/errors (p<0.05) were evaluated. Results: Gemini 2.5 Pro (77.0% and 70.0%) and Scholar GPT (74.0% and 69.0%) demonstrated the highest overall accuracy when comparing LLM recommendations with FFR results and actual physician decisions, respectively. The lowest accuracy was observed for the Gemini 2.0 Flash Thinking (44.0% and 45.0%). Model sensitivities and specificities ranged from 23.6% to 96.4%, depending on the specific model. It was determined that for all studied LLM, response variations and errors were influenced (p<0,05) by ICA data, left ventricular ejection fraction, overweight and obesity, reduced exercise tolerance, resting heart rate, NYHA functional class, previous myocardial infarction, percutaneous coronary intervention or coronary artery bypass grafting, history of diabetes mellitus, smoking status, sex, lower high density lipid cholesterol or higher triglycerides concentration, and higher creatinine concentration. Conclusions and Recommendations: When comparing the TS proposed by LLMs with actual clinical decisions, model performance varied depending on anamnestic and clinical data: Gemini 2.5 Pro and Scholar GPT exhibited the highest accuracy, while Gemini 2.0 Flash Thinking exhibited the lowest. LLM use in interventional cardiology is recommended cautiously, only as adjunctive decision–support. Caution is warranted for complex cases where current LLM reliability is lower. Reliable integration needs further validation via large trials or developing specialised, validated medical artificial intelligence tools.