Kunstig intelligens: Fra hysterisk hype til historisk gennembrud
En eksplosion i tilsyneladende succesfulde studier om kunstig intelligens har udløst en enorm mængde omtale. Spørgsmålet er, om hypen gør vejen mod klinisk anvendelse kortere, eller om den risikerer at gøre mere skade end gavn.
Det gik ikke ubemærket hen, da den britisk-canadiske forsker Geoffrey Hinton i 2016 proklamerede, at vi lige så godt kunne stoppe med at uddanne radiologer med det samme.
Radiologer er – sagde han – som prærieulven i tegnefilmen; den er løbet ud over klippekanten – den har bare ikke kigget ned endnu. Siden har flere radiologer ikke mindst i USA beklaget sig. De er nemlig stadig i høj grad en mangelvare, og det blev ikke ligefrem bedre af, at en fremtrædende forsker, som ovenikøbet arbejdede hos Google Brain, anbefalede at stoppe med at uddanne dem.
Men hvad er status i dag seks år efter Hintons forudsigelse? Hvor tæt er kunstig intelligens (AI) eksempelvis på at revolutionere diagnostikken inden for lungecancer og andre respiratoriske sygdomme?
”Når jeg underviser, bruger jeg stadig eksemplet med Geoffrey Hinton. Det er rigtigt, at AI ser ud til at have et lovende diagnostisk potentiale, og at der sker fremskridt, men forskningen er stadig i vidt omfang præget af ting som små datasæt og mangel på ekstern validering,” siger Barbara Malene Fischer, som udover at være professor ved Institut for Klinisk Medicin på Københavns Universitet også er overlæge på afdelingen for Klinisk Fysiologi og Nuklearmedicin på Rigshospitalet.
Ingen klinisk relevans
Barbara Malene Fischer har medvirket til flere artikler om brugen af AI i relation til respiratoriske sygdomme. En af artiklerne opsummerer den publicerede forskning i AI-systemer til påvisning af COVID-19 på CT- og røntgenbilleder af brystet. Artiklens anbefalinger er på baggrund af de studier, den gennemgår, at der i fremtiden bør inddrages relevante kliniske sammenligninger og ekstern validering.
”Meget af den forskning, der findes i dag, er ikke godt nok lavet. Når der testes på eget materiale, kan det se fint ud, men så får man ikke testet det på andet materiale og klinisk performance. Det skal til, hvis vi vil øge sandsynligheden for, at nye AI-systemer kan anvendes på de områder, der kommer patienterne til størst mulig gavn,” siger Barbara Malene Fischer.
Et eksempel er kræftscreening på meget store populationer, hvor en vis grad af AI-drevet automatisering kan spare store ressourcer.
I en relateret artikel – også med Barbara Malene Fischer som medforfatter – evalueres forskningen inden for AI til tidlig opdagelse og diagnosticering af lungeknuder, lungetumorer og mediastinale knuder på PET/CT-scanninger. Også her rapporteres der i de analyserede studier om talrige positive resultater. Ikke desto mindre konkluderes det, at forskningsområdet lider af nogle af de samme problemer som studiet om AI til diagnosticering af COVID-19.
Som artiklen på lakonisk vis afrundes: ”Det er fint nok at udvikle en ny algoritme, men uden bevis for robusthed og klar klinisk relevans er det usandsynligt, at den vil være til gavn for patienterne.”
Ingen kliniske gennembrud
Gennem de sidste år er det blevet stadigt mere iøjnefaldende, at de mange forskningsresultater inden for AI og sundhed ikke er blevet fulgt af et klinisk gennembrud. At området oplever massiv forventningsfuld omtale, er dog ikke nødvendigvis et problem. Det kan nemlig også være en drivkraft.
Det mener Martin Grønnebæk Tolsgaard, der udover at være professor og overlæge på Rigshospitalets Klinik for Graviditet og Fostermedicin, også er forskningsleder af et AI-projekt på Rigshospitalets simulationscenter CAMES, som skal give feedback på kvaliteten af radiologiske undersøgelser snarere end selv at diagnosticere.
”Der er virkelig meget hype, og det kan godt skabe nogle lidt inflaterede forventninger til, hvad det kan bidrage med, men det er også med til at gøre det sjovt. Og grunden til, at jeg selv arbejder med det, er, at jeg både synes, det er spændende, og at jeg tror meget på det,” siger han.
Mens Martin Grønnebæk Tolsgaard gerne lader sig gribe af begejstring, er han dog i høj grad opmærksom på, at diskursen om kunstig intelligens også kan have slagsider.
”Jeg tror ikke, det gør noget godt for området at ‘hype’ det mere, end det allerede er sket. Vi skal huske at have en basal videnskabelig tilgang til brugen af ny teknologi og huske at være kritiske, så det ikke bare bliver set som et tryllestøv, vi drysser ud, som får det hele til at lyde mere spændende,” siger han.
Selvom hans eget speciale ikke er respiratoriske sygdomme, bekræfter han de problemer, Barbara Malene Fischer påpeger. Store datamængder og kliniske studier er afgørende for teknologiens vej ud til patienterne.
”Så snart man tager det ud af en kontekst og ændrer lidt på populationen, det skal anvendes på, kan AI ikke længere finde op og ned i tingene. Den model, der et sted var bedre end den bedste ekspert, bliver pludselig helt ubrugelig. Derfor er der også rigtig lang vej til noget, der ændrer fundamentalt på, at det er læger, der laver diagnostik ud fra billeder,” siger Martin Grønnebæk Tolsgaard.
Urealistiske forventninger
De artikler, Barbara Malene Fischer har medvirket til om emnet, har en relativt kritisk tone, men direkte adspurgt, erklærer hun sig enig i Martin Grønnebæk Tolsgaards pointe om, at ‘hype’ ikke nødvendigvis kun har negative effekter.
”Det er både godt og skidt. Det er godt, fordi det medfører en masse interesse og dermed diskussion og forskning inden for området. Det er der brug for,” fastslår hun, for udviklingen går meget hurtigt, og hun oplever selv at blive overrasket over, hvad der kan lade sig gøre.
På den negative side fremhæver hun igen risikoen for mulige slagsider ved overdreven omtale.
”Det kan give nogle fuldstændig urealistiske forventninger til, at det kan løse alle vores problemer, eksempelvis med mangel på arbejdskraft. Det kan medføre, at man undlader at udvise rettidig omhu i forhold til at løse en række strukturelle problemer, fordi man satser på, at AI kan løse det hele lige om lidt,” siger Barbara Malene Fischer.
Hun peger hertil på, at en overdreven og måske urealistisk ‘hype’ kan fremkalde modstand blandt sundhedspersonale, som uberettiget kan komme til at føle sig truet eller udfordret på deres faglighed – frem for at tilgå området med den kritiske nysgerrighed, Barbara Malene Fischer mener, der er brug for.
Optimistisk formand
Formanden for Dansk Forskningscenter for Lungekræft, Ole Hilberg, der også er overlæge på Medicinsk Afdeling ved Sygehus Lillebælt Vejle er enig i, at forestillingen om, at AI på kort tid kan revolutionere lungekræftområdet, er skudt over målet.
”Der er en del hype, og man er ikke så langt, som man sagde for fem til seks år siden, hvor man troede, at det ville komme i morgen. Inden for lungecancer er det endnu ikke i funktion i Danmark på andet end forsøgsbasis,” siger han.
Ole Hilberg vurderer heller ikke, at der foreløbig kommer værktøjer, der helt kan erstatte radiologen, sådan som Geoffrey Hinton fejlagtigt bebudede. Men han er stadig stærkt optimistisk og ikke kun i forhold til radiologi. Kunstig intelligens er effektivt til mange forskellige typer af mønstergenkendelse, og han er selv er involveret i et lovende studie på Vejle Sygehus, der handler om blodprøveanalyse.
”Vi har undersøgt snart 1.000 patienter, som skal udredes for lungekræft. Blodprøverne er ved at blive analyseret i USA, og det ser foreløbig ud til, at vi med 90 procents specificitet kan se, om folk i populationen har sygdommen. Hvis det også holder på de næste 1.000 patienter, regner vi med, at vi skal bruge testen som et led i udredningen af lungekræft. Vi har planlagt at designe et studie, som kan godkendes af videnskabsetisk komite, som kan bruges til udredningsstøtte,” siger Ole Hilberg.
Mens 90 procent er et godt resultat og et stort skridt, er det dog ikke godt nok, fastslår han.
”Hvis vi ved kombination af forskellige ting kan nå op på 98 procent, er det omtrent lige så godt, som hvis du satte en læge, en scanner og en udredende læge til at forudsige det. Det sidste stykke vej er ikke let, men jeg tror, at vi kommer til at anvende det i daglig praksis om tre til fire år,” siger Ole Hilberg.
Kan spare tid
I forhold til billeddiagnostik, som han i lighed med mange forskere mener, er blandt de områder, der hurtigst vil vinde udbredelse i klinisk praksis, refererer han konkret fra en tysk forskningsgruppe, hans egen forskningsgruppe har dialog med:
”Flere studier har vist, at det giver mere præcise resultater, når scanninger bliver læst af to radiologer. Vi har kontakt med nogen, der kører et studie i Tyskland, hvor de bruger billedgenkendelse til lungekræftscreening, og her ser det ud til, at man med succes kan erstatte en af dem med en maskine. Det kommer næppe til at erstatte specialradiologer de første par år, men derfor kan det alligevel spare meget tid,” siger han.
Urealistisk stort
Spørger man Barbara Malene Fischer om hendes bud på, hvornår det respiratoriske område for alvor kan drage klinisk nytte af AI, sætter hun ikke som Geoffrey Hinton årstal på. Til gengæld deler hun gerne sin vurdering af, hvor hun ser et stort og konkret potentiale.
”Inden for det billeddiagnostiske område er vi udfordret af mængden af scanninger udført særligt i forbindelse med opfølgning af cancerpatienter, herunder patienter med lungekræft. Der foregår desuden mange diskussioner om screening for lungekræft. Det er et tiltag, der har vist gode resultater, blandt andet i England og USA, men det er forbundet med et urealistisk stort ressourcetræk,” siger hun og fortsætter:
“Hvis vi kan udvikle AI-baseret beslutningsstøtte, der kan hjælpe os med at finde de personer, der har bedst gavn af screening eller tæt opfølgning, og/eller til at analysere scanningerne, kunne det løse en del af disse problemer. Men vi er ikke i mål endnu.”
A Literature Review on the Use of Artificial Intelligence for the Diagnosis of COVID-19 on CT and Chest X-ray
Studiet er offentliggjort i diagnostisk og er en litteraturgennemgang af brugen af AI ved diagnosticering af COVID-19 baseret på CT-scanninger og thorax-røntgen.
Konklusion er, at AI viser et lovende diagnostisk potentiale i forhold til COVID-19, men forskningsområdet lider under små datasæt. Desuden er der mangel på relevante kliniske sammenligninger og ekstern validering
Det giver anledning til en høj risiko for bias, der begrænser overførbarheden til klinisk praksis. Fremtidig forskning bør omfatte relevant klinisk sammenligning og ekstern validering, lyder det i studiet
Artificial Intelligence for the Characterization of Pulmonary Nodules, Lung Tumors and Mediastinal Nodes on PET/CT
Studiet er udgivet i Seminars in Nuclear Medicine i 2021 og er et review af 29 inkluderede, retrospektive studier om AI og lungecancer
Hovedkonklusionen er, at machine learning inden for lungekræft lider af små datasæt og mangel på klinisk relevante sammenligningsundersøgelser samt uafhængige test og standarder for rapportering af undersøgelserne
Det er, ifølge forskerne bag studiet, afgørende for fremskridt på forskningsområdet, at der tages fat på disse begrænsninger og samtidig sikres adgang til store, korrekt annoterede PET/CT-datasæt bag studiet