Avainsanapohjaisen luonnollisen kielen käsittelyn (NLP) soveltuvuus rikosilmoitusten luokitteluun
Immonen, Kaapo (2024-12-18)
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe20241218104165
https://urn.fi/URN:NBN:fi-fe20241218104165
Tiivistelmä
Suomen poliisin käsiteltäväksi tulee päivittäin yli tuhat rikosilmoitusta. Verkkorikollisuuden kasvu ja rikoskokonaisuuksien jatkuva monimutkaistuminen kuormittavat resurssillisesti rajallista rikostutkintaa, ja siksi myös tarve kehittää uusia työkaluja menetelmiä kasvaa. Yksi potentiaalinen ratkaisu on käsitellä ihmisen tuottamaa tekstiä tietokoneella hyödyntäen luonnollisen kielen käsittelyä (NLP). Tässä työssä tutkitaan, miten NLP soveltuu luokittelemaan ilmoituksia rikosnimikkeisiin niissä olevan selostuksen perusteella.
Työssä perehdytään luonnollisen kielen käsittelyyn dokumenttien luokittelussa ja sen edellytyksiin. Työssä käsitellään kohinan poistamista hyödyntäen esikäsittelymenetelmiä, kuten stemmausta ja lemmatisointia. Esitetään, miten esikäsitellyt syötteet muunnetaan numeeriseksi ominaisavaruudeksi käyttämällä menetelmiä, kuten TF-IDF ja word embedding. Lisäksi tutkielmassa tarkastellaan, miten luokittelualgoritmi optimoidaan ja koulutetaan suorittamaan luokittelua näiden ominaisuuksien perusteella.
Työssä toteutettavien mallien suorituskykyä arvioidaan vertaamalla niiden luokittelun tarkkuutta suomalaisten lainvalvontaviranomaisten manuaaliseen luokitteluun. Perinteisten NLP-menetelmien lisäksi työssä käyttöönotetaan ja hienosäädetään esikoulutettu suomenkielinen FinBERT-malli, jotta voidaan tutkia NLP:n mullistaneen transformer-arkkitehtuurin suorituskykyä osana vertailuasetelmaa.
Mallien vertailussa esikoulutettu FinBERT-malli osoittautui yleistyskyvyltään suorituskykyisimmäksi malliksi. Myös yksittäisten sanojen merkitystä korostavat TF-IDF-menetelmää hyödyntävät mallit suoriutuivat huomattavan hyvin, erityisesti käytettäessä stemmausta esikäsittelyvaiheessa. Lemmatisointiin perustuvat mallit puolestaan heikkenivät liiallisen yksinkertaistamisen vuoksi, ja word embedding -menetelmät tuottivat heikoimmat tarkkuustulokset pienen sanaston ja kohinan takia.
Tulokset tukevat käsitystä siitä, että NLP-mallit kykenevät tunnistamaan rikosilmoitusten keskeisiä ominaisuuksia, mutta tarkkuutta voidaan parantaa etenkin esikäsittelyn ja ominaisuuksienpoiminnan kehittämisellä. FinBERT-mallin menestys osoittaa, että transformer-arkkitehtuuriin perustuvat mallit ovat erityisen suorituskykyisiä luokittelussa, joissa koulutusdata on rajallista.
Työssä perehdytään luonnollisen kielen käsittelyyn dokumenttien luokittelussa ja sen edellytyksiin. Työssä käsitellään kohinan poistamista hyödyntäen esikäsittelymenetelmiä, kuten stemmausta ja lemmatisointia. Esitetään, miten esikäsitellyt syötteet muunnetaan numeeriseksi ominaisavaruudeksi käyttämällä menetelmiä, kuten TF-IDF ja word embedding. Lisäksi tutkielmassa tarkastellaan, miten luokittelualgoritmi optimoidaan ja koulutetaan suorittamaan luokittelua näiden ominaisuuksien perusteella.
Työssä toteutettavien mallien suorituskykyä arvioidaan vertaamalla niiden luokittelun tarkkuutta suomalaisten lainvalvontaviranomaisten manuaaliseen luokitteluun. Perinteisten NLP-menetelmien lisäksi työssä käyttöönotetaan ja hienosäädetään esikoulutettu suomenkielinen FinBERT-malli, jotta voidaan tutkia NLP:n mullistaneen transformer-arkkitehtuurin suorituskykyä osana vertailuasetelmaa.
Mallien vertailussa esikoulutettu FinBERT-malli osoittautui yleistyskyvyltään suorituskykyisimmäksi malliksi. Myös yksittäisten sanojen merkitystä korostavat TF-IDF-menetelmää hyödyntävät mallit suoriutuivat huomattavan hyvin, erityisesti käytettäessä stemmausta esikäsittelyvaiheessa. Lemmatisointiin perustuvat mallit puolestaan heikkenivät liiallisen yksinkertaistamisen vuoksi, ja word embedding -menetelmät tuottivat heikoimmat tarkkuustulokset pienen sanaston ja kohinan takia.
Tulokset tukevat käsitystä siitä, että NLP-mallit kykenevät tunnistamaan rikosilmoitusten keskeisiä ominaisuuksia, mutta tarkkuutta voidaan parantaa etenkin esikäsittelyn ja ominaisuuksienpoiminnan kehittämisellä. FinBERT-mallin menestys osoittaa, että transformer-arkkitehtuuriin perustuvat mallit ovat erityisen suorituskykyisiä luokittelussa, joissa koulutusdata on rajallista.
Kokoelmat
- Kandidaatintutkielmat [152]