A túlértékelt mesterséges intelligencia miatt az algoritmusok a jobb orvosi szakemberek

A múltban többször felmerült az a benyomás, hogy a mesterséges intelligencia ugyanúgy képes felismerni a betegségeket, mint egy tapasztalt orvos - ha nem is jobb. Az olyan címsorok, mint a "Google szerint mesterséges intelligenciájuk egy évvel az orvos előtt felfedezheti a tüdőrákot", kétségkívül nagy elvárásokat ébreszt. Ez általában magában foglalja a digitális képfájlok kiértékelését mély tanulási algoritmusok vagy tapasztalt orvos által, például tüdő- vagy bőrrák diagnosztizálásakor vagy a vakság különböző szakaszainak diagnosztizálásakor. Myura Nagendran, a londoni Imperial College munkatársa és munkatársai a „British Medical Journal” -ben megkérdezik, hogy az eddig publikált tanulmányok minősége valóban elégséges-e annak bizonyításához, hogy a tesztelt algoritmusok egy szinten vannak az orvosokkal.

A cikk szerzői, amelyek olyan prominens személyiségeket tartalmaznak, mint Eric Topol a Scripps Research Translational Institute-tól és John Ioannidis a Stanford Egyetemtől, kritizálják azt a tényt, hogy az általuk értékelt tanulmányok többsége rossz tudományos minőségű és átláthatatlan. Alapvetően nem kérdőjelezik meg a mesterséges intelligencia lehetőségeit, és nem akarják lassítani a fejlődését, hanem azt követelik, hogy az algoritmusok diagnosztikai pontosságát bizonyítani hivatott tanulmányokat magas tudományos normák és egységes szabályok szerint végezzék. A szerzők szerint kevés bizonyítékkal végzett vizsgálatok veszélyeztetik a beteg biztonságát.

A mély tanulási hálózatok architektúrája az emberi agy ideghálózataira épül. A képfelismeréshez főként idegi konvolúciós hálózatokat, úgynevezett konvolúciós ideghálózatokat használnak. Ezek automatikusan kivonják a mintákat egy képadatkészletből, például tüdő- vagy elsődleges rákdiagnózis alapján. Anélkül, hogy a felhasználónak bármit kellene tennie, olyan mintákat tanul meg, amelyeket vélhetően tüdő- vagy bőrrákkal társítanak. Ezután a hálózatok egymástól függetlenül osztályozzák az egyes új képeket, összekapcsolva a tanult mintákat a tüdő- vagy bőrrák képzett hozzárendelésével. Eddig azonban többnyire nem sikerült megérteni, hogy az adott döntés hogyan született, mert a hálózatok osztályozásukat külső befolyás nélkül hajtják végre. Ezért senki sem tudja, hogy mely minták alapján hozták meg a hálózatot, és hogy egy tapasztalt orvos teljesen más módon fog-e eljárni, vagy hasonló mintákat használ-e, mint a mély tanulási algoritmus. Az idegi konvolúciós hálózat tehát fekete doboz. Csak a döntést tudja megítélni, nem pedig arról, hogyan jött létre.

Kijózanító tanulmányi eredmények

Nagendran és munkatársai most megvizsgálták, hogy az elmúlt tíz évben publikált tanulmányok milyen magas színvonalúak, és mennyire bizonyítékokon alapuló következtetéseiket. Az elemzés kijózanító volt. A tudósok megállapították, hogy 2010 és 2019 között csak két magas színvonalú, randomizált klinikai vizsgálat jelent meg, mindkettő az elmúlt évben. Mindkettő Kínában készült. Nyolc randomizált vizsgálat folyamatban van, köztük egy az Egyesült Államokban. Mindazonáltal az American Food and Drug Administration már jóváhagyott 16 mély tanulási algoritmust az orvosi képadatok értékelésére.

A randomizált klinikai vizsgálatok a két módszer összehasonlításának legjobb módja. Az eddig közzétett két randomizált vizsgálatban az egyik vizsgálati csoport tapasztalt orvosai maguk döntöttek, a másik tanulmányi csoportban az algoritmus támogatta őket. A 81 nem randomizált vizsgálat közül, amelyek megfeleltek a felvételi kritériumoknak, csak kilenc vizsgálat volt perspektívás. Az ilyen vizsgálatokban nem alakulnak ki és nem hasonlítanak össze csoportokat, hanem egy adott kérdés adatait gyűjtik és értékelik az idő múlásával. Azonban ezek közül a prospektív vizsgálatok közül csak hatra került sor mindennapi klinikai körülmények között, és így lehetősége volt bármit is mondani a tesztelt algoritmusok rutinszerű körülmények közötti diagnosztikai minőségéről. A 81 vizsgálatból 58 nagyon elfogult volt. Alacsonyabb tanulmányi terv volt, vagy eltértek az elismert szabványoktól.

Túlzott követelések

Ennek ellenére összesen 61 tanulmány arra a következtetésre jutott, hogy az algoritmusok teljesítménye összehasonlítható vagy még jobb volt a tapasztalt orvosok teljesítményével. Csak 31 tanulmányban voltak olyan önkritikusak a tanulmányok igazgatói, hogy további tanulmányokat kértek eredményeik összefoglalásakor vagy megvitatásakor. Nagendran és munkatársai azt is kifogásolják, hogy átlagosan csak négy tapasztalt orvos vett részt minden vizsgálatban. Tekintettel arra, hogy még a tapasztalt orvosok is különböző szintűek, a csoportnak nagyobbnak kell lennie az eredmény statisztikai megerősítéséhez. Nagyon kevés tanulmányban lehetett hozzáférni a nyers adatokhoz és a kódhoz. Ez azt jelenti, hogy az algoritmust más szakemberek nem ellenőrizhetik.

A szerzők azonban önkritikusak saját tanulmányuk iránt is, és rámutatnak annak gyengeségeire. Például nem zárhatja ki, hogy figyelmen kívül hagyta a releváns tanulmányokat. A képfelismerésre koncentráltál a mély tanulás révén. Az a vád, miszerint sok tanulmány nem a szükséges minőségű, más lehet más területeken, ahol a mesterséges intelligenciát használják az orvostudományban. Elemzésük alapján Nagendran és munkatársai arra a következtetésre jutnak, hogy az előző állítások közül sok túlzó. Még potenciális egészségügyi kockázatot is látnak a betegek számára, és óva intenek a túlzó készítmények alkalmazásától, hogy téves értelmezésre hajlamosítsák a tanulmányokat és nem megfelelő hype-t váltsanak ki. A szakterületnek magas színvonalú és átlátható bizonyítékra van szüksége - bármi más nem szolgálja a beteget.