Tekoäly poikkeavuuksien havaitsemisessa pilvi- ja tietokantaympäristöissä : Aikakausikatsaus koneoppimisen menetelmistä, aineistoista ja käyttöönoton haasteista

Kuvaus

Tutkielma tarkastelee tekoälypohjaista poikkeamien havaitsemista pilvi- ja tietokantaympä-ristöissä. Lähtökohtana on, että järjestelmien dynaamisuus, monivuokraus, heterogeeniset datalähteet ja salattu liikenne kaventavat sääntö- ja allekirjoituspohjaisten ratkaisujen katta-vuutta. Tavoitteena on jäsentää keskeiset lähestymistavat, aineistot ja mittarit sekä arvioida mallien tuotantokelpoisuutta. Tutkimus toteutetaan systemaattisena kirjallisuuskatsauksena vuosilta 2017–2025. Aineisto koostuu vertaisarvioiduista katsauksista ja soveltavista tutkimuksista, jotka käsittelevät pilvi-alustojen verkko- ja lokivirtoja, tietokantakyselyiden poikkeamia sekä tunkeutumisen havait-semista. Menetelmällinen tarkastelu kattaa ohjatut ja ohjaamattomat mallit, syväoppimisen sekä niiden yhdistelmät. Arvioinnissa painotetaan epätasapainoisiin luokkajakaumiin sopivia mittareita, kuten havaitsemisherkkyys, väärien hälytysten osuus ja F1-lukua sekä operatiivisia vaatimuksia, kuten viivettä ja läpivirtauksen kestävyyttä, kustannuksia, selitettävyys ja tieto-suoja. Katsauksen mukaan ohjattu oppiminen toimii hyvin tunnettujen hyökkäysten havaitsemises-sa, jos opetusdata kuvaa kohdeympäristön nykyistä liikennettä. Nollapäivä-hyökkäykset ja nopeasti muuntuvat ilmiöt puoltavat ohjaamatonta anomaliantunnistusta ja syväoppimista, mutta ne lisäävät tulkittavuus- ja hälytyshaasteita. Hybridit, joissa yhdistetään allekirjoitus- ja sääntöpohjainen tunnistus sekä koneoppimis- ja syväoppimispohjainen anomaliantunnistus, tasapainottavat havaitsemisherkkyyttä ja hälytyskuormaa. Tietokantatasolla tehokkaaksi osoittautuu kyselykäyttäytymisen profilointi; eheyden ja luottamuksellisuuden vuoksi matala väärien negatiivisten taso on kriittinen. Aineistoriippuvuus rajoittaa yleistettävyyttä, joten arviointi tulisi yhdistää julkisista dataseteistä saatuihin tuloksiin organisaatiokohtaisella tai realistisesti synteettisellä datalla. Tuotantokelpoisuus edellyttää selitettävyyttä ja tietosuojan varmistamista. Johtopäätöksenä suositellaan kerroksellista arkkitehtuuria, epätasapainoisiin luokkiin sopivia mittareita ja käyttöönottoa hallituissa dataputkissa. Jatkotutkimus tulee suunnata mallien siirrettävyyteen ja ympäristön ajallisten muutosten hallintaan. Erityisesti tietokantaympäristöissä jatkotutkimus tulisi kohdistaa kyselyprofiilien ja pääsykuvioiden muutosten havaitsemiseen sekä mallien siirrettävyyteen eri sovellusten välillä, vertaillen tu-loksia sekä vakiintuneisiin aineistoihin että organisaatiokohtaisiin lokivirtoihin.

URI

DOI

Emojulkaisu

ISBN

ISSN

Aihealue

OKM-julkaisutyyppi