Applying Machine Learning to Predict Mortality of Heart Failure : A Design Science Case Study

Kuvaus

Tässä tapaustutkimuksessa sovelletaan koneoppimista kliiniseen tietoaineistoon ennustamaan sydämen vajaatoiminnasta johtuvaa kuolemaa. Työn rajaus on soveltaa muuttujien karsimista ja hyperparametrien optimointia kaikille koneoppimismalleille. Tavoitteena on rakentaa toimiva luokitteleva koneoppimismalli ja tutkia, parantaako muuttujien karsiminen ja mallien hyperparametrien optimoiminen ennustustarkkuutta verrattuna optimoimattomiin ja kaikille muuttujille ennustaviin malleihin. On myös oleellista tutkia, voiko koneoppimista soveltaa kliiniseen tietoaineistoon onnistuneesti. Työ toteutetaan suunnittelututkimuksen (design science) ja tapaustutkimuksen hybridinä. Ensin määritellään tutkimuksen kannalta oleelliset käsitteet ja tuodaan esille aiempi aiheeseen liittyvä tutkimus. Sen jälkeen suoritetaan datan keruu, prosessointi, mallien rakennus, muuttujien karsiminen, hyperparametrien optimointi, ja lopuksi esitetään tulokset vertailemalla optimoimattomien mallien sekä optimoitujen mallien ennustustarkkuutta. Tutkimuksessa otetaan kantaa myös aiemman tutkimuksen mallien suoriutumiseen ja vertaillaan niiden sekä tämän tutkimuksen tuloksia. Työ päätetään johtopäätöksiin ja keskusteluun. Koneoppimismallit rakennetaan Python-ohjelmointikielen koneoppimiskirjastoilla. Muuttujien valinnassa käytetään korrelaatiotutkimusta ja Random Forest -koneoppimismallin mean decrease in impurity ja permutaatiomerkityksiä. Muuttujat valitaan lopuksi näiden menetelmien valitsemasta kokonaisuudesta. Edeltäviä tutkimuksia käytetään myös hyödyksi erottamaan tärkeimmät muuttujat. Hyperparametrien optimoinnissa käytetään sen sijaan RandomizedSearchCV-algoritmia. Muuttujien karsimisen ja hyperparametrien optimoinnin jälkeen parhaan tarkkuuden saavuttanut koneoppimismalli on K-Nearest Neighbors. Malli saavuttaa ennustustarkkuuden 81,67 %. Valitut muuttujat ovat ejektiofraktio, kreatiniinin määrä veressä ja ikä. Muuttujien määrä saadaan pienennettyä yhdestätoista kolmeen. Muuttuja seuranta-aika jätetään pois jo aiemmassa vaiheessa, sillä selviytyminen on riippuvainen tämän muuttujan korkeasta arvosta. Lisäksi lähes kaikkien koneoppimismallien ennustustarkkuus paranee muuttujien karsimisen ja hyperparametrien optimoinnin jälkeen; yhdenkään mallin tarkkuus ei heikenny. K-Nearest Neighbors on myös yksi heikoimman tarkkuuden omaavista koneoppimismalleista ennustettaessa kaikkien muuttujien avulla. Täten muuttujien karsiminen ja hyperparametrien optimointi todetaan toimiviksi menetelmiksi tähän aineistoon sovellettaessa. Koneoppimista voidaan myös soveltaa tähän kliiniseen tietoaineistoon onnistuneesti. Jotta lopullista koneoppimismallia voitaisiin käyttää oikeassa tilanteessa, kuten sairaalassa, tulee mallia kuitenkin testata tässä tutkimuksessa käytetyn aineiston ulkopuolisella datalla. Lisäksi aineistossa on vain 299 tietopistettä, joka voi rajoittaa mallin kykyä ennustaa suuremmassa mittakaavassa.

URI

DOI

Emojulkaisu

ISBN

ISSN

Aihealue

OKM-julkaisutyyppi