Jonathan Kivimäki 

Tekoäly poikkeavuuksien havaitsemisessa pilvi- ja 
tietokantaympäristöissä 

Aikakausikatsaus koneoppimisen menetelmistä, aineistoista ja 
käyttöönoton haasteista 

 
Vaasa 2025 

Tekniikan ja innovaatiojohtami-
sen akateeminen yksikkö 

Kandidaatintutkielma  
Automaatio ja tietotekniikka 


2 

VAASAN YLIOPISTO 
Tekniikan ja innovaatiojohtamisen akateeminen yksikkö 

Tekijä: Jonathan Kivimäki 
Tutkielman nimi: Tekoäly poikkeavuuksien havaitsemisessa pilvi- ja tietokantaympä-

ristöissä: Aikakausikatsaus koneoppimisen menetelmistä, aineis-
toista ja käyttöönoton haasteista 

Tutkinto: Tekniikan kandidaatti 
Oppiaine: Automaatio ja tietotekniikka 
Työn ohjaaja: Janne Koljonen 
Valmistumisvuosi: 2025 Sivumäärä: 34 

TIIVISTELMÄ: 
Tutkielma tarkastelee tekoälypohjaista poikkeamien havaitsemista pilvi- ja tietokantaympäris-
töissä. Lähtökohtana on, että järjestelmien dynaamisuus, monivuokraus, heterogeeniset data-
lähteet ja salattu liikenne kaventavat sääntö- ja allekirjoituspohjaisten ratkaisujen kattavuutta. 
Tavoitteena on jäsentää keskeiset lähestymistavat, aineistot ja mittarit sekä arvioida mallien 
tuotantokelpoisuutta. 
 
Tutkimus toteutetaan systemaattisena kirjallisuuskatsauksena vuosilta 2017–2025. Aineisto 
koostuu vertaisarvioiduista katsauksista ja soveltavista tutkimuksista, jotka käsittelevät pilvi-
alustojen verkko- ja lokivirtoja, tietokantakyselyiden poikkeamia sekä tunkeutumisen havaitse-
mista. Menetelmällinen tarkastelu kattaa ohjatut ja ohjaamattomat mallit, syväoppimisen sekä 
niiden yhdistelmät. Arvioinnissa painotetaan epätasapainoisiin luokkajakaumiin sopivia mitta-
reita, kuten havaitsemisherkkyys, väärien hälytysten osuus ja F1-lukua sekä operatiivisia vaati-
muksia, kuten viivettä ja läpivirtauksen kestävyyttä, kustannuksia, selitettävyys ja tietosuoja. 
 
Katsauksen mukaan ohjattu oppiminen toimii hyvin tunnettujen hyökkäysten havaitsemisessa, 
jos opetusdata kuvaa kohdeympäristön nykyistä liikennettä. Nollapäivä-hyökkäykset ja nopeasti 
muuntuvat ilmiöt puoltavat ohjaamatonta anomaliantunnistusta ja syväoppimista, mutta ne li-
säävät tulkittavuus- ja hälytyshaasteita. Hybridit, joissa yhdistetään allekirjoitus- ja sääntöpoh-
jainen tunnistus sekä koneoppimis- ja syväoppimispohjainen anomaliantunnistus, tasapainotta-
vat havaitsemisherkkyyttä ja hälytyskuormaa. Tietokantatasolla tehokkaaksi osoittautuu kysely-
käyttäytymisen profilointi; eheyden ja luottamuksellisuuden vuoksi matala väärien negatiivisten 
taso on kriittinen. Aineistoriippuvuus rajoittaa yleistettävyyttä, joten arviointi tulisi yhdistää jul-
kisista dataseteistä saatuihin tuloksiin organisaatiokohtaisella tai realistisesti synteettisellä da-
talla. Tuotantokelpoisuus edellyttää selitettävyyttä ja tietosuojan varmistamista. Johtopäätök-
senä suositellaan kerroksellista arkkitehtuuria, epätasapainoisiin luokkiin sopivia mittareita ja 
käyttöönottoa hallituissa dataputkissa. Jatkotutkimus tulee suunnata mallien siirrettävyyteen ja 
ympäristön ajallisten muutosten hallintaan. Erityisesti tietokantaympäristöissä jatkotutkimus 
tulisi kohdistaa kyselyprofiilien ja pääsykuvioiden muutosten havaitsemiseen sekä mallien siir-
rettävyyteen eri sovellusten välillä, vertaillen tuloksia sekä vakiintuneisiin aineistoihin että orga-
nisaatiokohtaisiin lokivirtoihin. 

AVAINSANAT: kyberturvallisuus; koneoppiminen; syväoppiminen; anomaliat; tunnistaminen; 
verkkohyökkäykset; tietokannat; pilvipalvelut. 

  
3 

Sisällys 

1 Johdanto 7 

1.1 Tutkimuskysymykset sekä tavoitteet 7 

1.2 Menetelmät ja rakenne 8 

2 Pilvipalveluiden tietoturvaympäristö ja turvauhkat 9 

2.1 Pilvipalveluiden palvelumallit 9 

2.1.1 Ohjelmisto palveluna 10 

2.1.2 Alusta palveluna 11 

2.1.3 Infrastruktuuri palveluna 11 

2.2 Uhkamallit pilvi- ja tietokantaympäristöissä 12 

2.3 Poikkeamien havaitsemisen rooli tietoturvassa 12 

3 Tekoälypohjaiset poikkeamien havaitsemismallit 13 

3.1 Perinteiset poikkeamien tunnistusmenetelmät 14 

3.2 Koneoppimismenetelmät 15 

3.2.1 Ohjattu oppiminen 15 

3.2.2 Ohjaamaton oppiminen 15 

3.2.3 Vahvistusoppiminen 16 

3.2.4 Syväoppiminen ja neuroverkot 17 

3.3 Ennustavat mallit 18 

3.4 UEBA ja Hybridimallit 18 

4 Mallien arviointi ja soveltuvuus 20 

4.1 Arviointikehikko ja mittarit 20 

4.2 Käyttötilanneprofiilit pilvessä ja tietokannoissa 24 

4.3 Menetelmien soveltuvuus käyttötilanneprofiileihin 25 

4.4 Aineistot ja siirrettävyys 26 

4.5 Käyttöönoton reunaehdot 27 

5 Eettiset ja lainsäädännölliset näkökulmat 29 

5.1 Yksityisyys ja tietosuoja 29 

5.2 Vinoumat ja oikeudenmukaisuus 29 


4 

5.3 Selitettävyys ja vastuu 30 

6 Johtopäätökset 31 

Lähteet 33 

  
5 

Kuvat 
 
Kuva 1 Pilvipalvelumallit (Abdallah ja muut, 2024) ........................................................ 10 

Kuva 2 AI-/ML- keskeiset painoalueet tietoturvassa (Mohamed, 2025) ........................ 13 

Kuva 3 Eräitä ROC-käyriä (Ahmed ja muut, 2025) .......................................................... 23 

 
Taulukot 
 
Taulukko 1 Sekaannusmatriisi (Halbouni ja muut, 2022) ............................................... 21 

Taulukko 2 IDS-aineistojen yleiskuva (Halbouni ja muut, 2022) ..................................... 26 

Taulukko 3 CIC-IDS2017-aineiston hyökkäystyypit, (Halbouni ja muut, 2022) ............... 28 

 
6 

Lyhenteet 
 
ACC - tarkkuus (Accuracy) 
AE - autoenkooderi (Autoencoder) 
AI - tekoäly (Artificial Intelligence) 
API - sovellusohjelmointirajapinta (Application Programming Interface) 
AUC - käyrän alle jäävä pinta-ala (Area Under the Curve) 
CIA - luottamuksellisuus, eheys, saatavuus (Confidentiality, Integrity, Availability) 
CNN - konvoluutioneuroverkko (Convolutional Neural Network) 
CPU - Prosessori (Central Processing Unit) 
DDoS - hajautettu palvelunestohyökkäys (Distributed Denial of Service) 
DL - syväoppiminen (Deep Learning) 
DoS - palvelunestohyökkäys (Denial of Service) 
F1 - F1-luku (harmoninen keskiarvo tarkkuudesta ja kattavuudesta) 
FN - väärä negatiivinen (False Negative) 
FNR - väärien negatiivisten osuus (False Negative Rate) 
FP - väärä positiivinen (False Positive) 
FPR - väärien positiivisten osuus (False Positive Rate) 
FTP - tiedonsiirtoprotokolla (File Transfer Protocol) 
GAN - generatiivinen vastakkaiset verkot (Generative Adversarial Network) 
GPU - näytönohjain (Graphics Processing Unit) 
GRU - porttirakenteinen toistoyksikkö (Gated Recurrent Unit) 
IaaS - infrastruktuuri palveluna (Infrastructure as a Service) 
IDS - tunkeutumisen havaitsemisjärjestelmä (Intrusion Detection System) 
IPS - tunkeutumisen estojärjestelmä (Intrusion Prevention System) 
IoT - esineiden internet (Internet of Things) 
LSTM - pitkä-lyhytkestoinen muisti (Long Short-Term Memory) 
ML - koneoppiminen (Machine Learning) 
NIDS - verkko-IDS (Network-based IDS) 
PaaS - alusta palveluna (Platform as a Service) 
PPV - positiivinen ennustearvo / täsmällisyys (Positive Predictive Value / Precision) 
RAM - keskusmuisti (Random Access Memory) 
RNN - toistuva neuroverkko (Recurrent Neural Network) 
ROC - vastaanottajan toimintakäyrä (Receiver Operating Characteristic) 
SaaS - ohjelmisto palveluna (Software as a Service) 
SSH - Turvattu kuori (Secure Shell) 
TP - tosi positiivinen (True Positive) 
TPR - todellisten positiivisten osuus / kattavuus (True Positive Rate / Recall) 
UEBA - käyttäjä- ja entiteettikäyttäytymisen analytiikka (User and Entity Behavior Ana-
lytics) 
XAI - selitettävä tekoäly (Explainable AI) 
XSS - sivustojen välinen skriptaus (Cross-Site Scripting) 
LIME - Selitettävän tekoälyn metodi (Local Interpretable Model-agnostic Explanations) 
SHAP - Selitettävän tekoälyn metodi (SHapley Additive exPlanations) 
USD - Yhdysvaltain dollari 


7 

1 Johdanto 

Tekoälyä (artificial intelligence, AI) ja etenkin koneoppimista (machine learning, ML) hyö-

dynnetään yhä useammin kyberhyökkäyksissä, mikä kasvattaa hyökkäysten nopeutta, 

mittakaavaa ja muovautuvuutta (Aksela ja muut, 2022). Organisaatioiden siirtyessä laa-

jasti pilvipalveluihin (cloud computing), herää kysymys, miten poikkeamat tunnistetaan 

jatkuvasti kehittyvässä ympäristössä. Ympäristössä, joissa dynaaminen skaalautuminen, 

monivuokraus ja heterogeeniset datalähteet muuttavat normaalia käyttäytymistä. 

 
Tämä tutkielma vastaa kysymykseen vertaamalla AI-pohjaisia poikkeamien havaitsemis-

menetelmiä allekirjoitus- (signature-based) ja sääntöpohjaisiin (rule-based) tunkeutumi-

sen havaitsemisratkaisuihin pilvi- ja tietokantaympäristöissä. 

 
Sarker ja muut (2021) kuvaavat AI-ratkaisuja yhtenä neljännen teollisuuden vallanku-

mouksen avainteknologiana. Tietoturvan peruspilarit - luottamuksellisuus, eheys ja saa-

tavuus, eli CIA-luokittelu (Confidentiality, Integrity, and Availability) korostaa havaitsemi-

sen nopeuden ja virhehälytysten hallinnan merkitystä pilvessä. Valtava määrä dataa syn-

tyy ja kerätään yleistyvien teknologioiden, kuten esineiden internetin (Internet of Things, 

IoT) ja pilvipalveluiden yleistyessä. Kerättyä dataa voidaan hyödyntää yrityksen tai orga-

nisaation eduksi, mutta kyberhyökkäykset asettavat suuria haasteita. Kyberhyökkäys on 

tyypillisesti yhden henkilön tai organisaation pahantahtoinen ja koordinoitu yritys mur-

tautua toisen henkilön tai organisaation tietojärjestelmään. Sarkerin (2021) esittelemä 

IBM-raportti arvioi keskimääräisen tietomurron kustannukseksi Yhdysvalloissa 8,19 mil-

joonaa USD ja kyberrikollisuuden globaalit vuosikustannukset ovat arviolta 400 miljardia 

USD, mikä korostaa skaalautuvien kyberturvallisuusratkaisujen tarvetta. 

 
1.1 Tutkimuskysymykset sekä tavoitteet 

Tämä tutkielma jäsentää AI-/ML-pohjaiset poikkeamien havaitsemisen lähestymistavat 

ja vertaa niitä allekirjoitus- ja sääntöpohjaisiin ratkaisuihin pilvi- ja tietokantaympäris-

töissä. Tutkimuksen pääkysymys on seuraava: 


8 

1. Kuinka tekoälypohjaiset poikkeamien havaitsemismallit voivat edistää tietotur-

vaa pilvi- ja tietokantaympäristöissä? 

Tutkimuskysymykseen vastaa seuraavat alatutkimuskysymykset: 

1. Mitä eroja tunnistettujen mallien välillä on tehokkuuden, tarkkuuden ja soveltu-

vuuden näkökulmasta pilvi- ja tietokantojen tietoturvaympäristössä  

2. Mitä käytännön haasteita ja vaatimuksia liittyy tekoälypohjaisten poikkeamien 

havaitsemismallien käyttöönottoon pilvi- ja tietokantaympäristössä? 

 
1.2 Menetelmät ja rakenne 

Tämä tutkimus toteutetaan systemaattisena kirjallisuuskatsauksena. Aineisto tähän työ-

hön on kerätty vuosien 2017–2025 välillä julkaistuista vertaisarvioiduista artikkeleista ja 

laajoista katsauksista, jotka keskittyvät kone- ja syväoppimisen käyttöön pilvi- ja tieto-

kantaympäristöissä. Tiedonkeruu suoritettiin hyödyntäen IEEE Xplore, ACM Digital Lib-

rary, Scopus ja SpringerLink -tietokannoista. Lisäksi hyödynnettiin lähdeluetteloiden lä-

pikäyntiä ja Google Scholaria. 

 
Tutkielman rakenne on seuraava: Luvussa 2 annetaan yleiskatsaus pilvipalveluiden ark-

kitehtuuriin ja tietoturvaympäristöön. Luvussa 3 esitellään erilaisia tilastolliset menetel-

mät sekä ML-mallit. Luvussa 4 arvioidaan mallien soveltuvuutta. Luvussa 5 tarkastellaan 

AI:n käyttöön liittyviä eettisiä ja lainsäädännöllisiä näkökulmia tietoturvassa. Luku 6 ko-

koaa tutkielman keskeiset tulokset ja esittää johtopäätökset. 


9 

2 Pilvipalveluiden tietoturvaympäristö ja turvauhkat 

Pilvipalveluilla tarkoitetaan nykyaikaisia tietoteknisiä ratkaisuja, joiden avulla mm. las-

kentaresursseja, tallennustilaa ja ohjelmistopalveluita voidaan tarjota internetin välityk-

sellä (Hu ja muut, 2017). Pilvipalvelumallit siirtävät havaintopisteitä verkosta kohti sovel-

lusta, identiteettiä ja tietokantoja. Siksi poikkeamien havaitseminen on kytkettävä palve-

lumalliin ja jaettuun vastuuseen asiakkaan ja palveluntarjoajan välillä (Nassif ja muut 

2021). 

 
2.1 Pilvipalveluiden palvelumallit 

Pilvipalvelut jakautuvat palvelumalleihin Software as a Service (SaaS), Platform as a Ser-

vice (PaaS) ja Infrastructure as a Service (IaaS). Palvelumallit määritellään tarkemmin ala-

luvuissa 2.1.1–2.1.3. Nämä määrittävät, missä poikkeamien havaitsemisen (anomaly de-

tection) kannalta keskeiset havaintopisteet sijaitsevat: verkossa, sovellus- ja identiteetti-

tasolla sekä tietokantakyselyissä. Kuvassa 1 havainnollistetaan palvelumallit (Abdallah ja 

muut, 2024). 

 
10 

 
Kuva 1 Pilvipalvelumallit (Abdallah ja muut, 2024) 

 
2.1.1 Ohjelmisto palveluna 

Ohjelmisto palveluna-mallissa (Software as a Service, SaaS) ohjelmisto ja tietokanta si-

jaitsevat palveluntarjoajan hallinnoimassa ympäristössä ja palvelua käytetään tyypilli-

sesti selaimella ilman asiakkaan omaa infrastruktuuria. Asiakkaan rajoiteussa infrastruk-

tuurinäkymässä poikkeamien havaitseminen painottuu Käyttäjä- ja entiteettikäyttäyty-

misen analysointiin (User and Entity Behavior Analytics, UEBA). UEBA:n avulla voidaan 

seurata poikkeavia kirjautumismalleja, poikkeavia API-kutsujen telemetriaa (Application 

Programming Interface) tai (Abdallah ja muut, 2024). Monivuokraus lisää hajautettujen 

palvelunestohyökkäyksien (DDoS) riskiä ja siksi SaaS-ympäristöihin on ehdotettu moni-

vuokraajille sovitettu IDS-ratkaisuja (Intrusion Detection System). (Mohamed, 2025). 

 
SaaS-malli on laajalti käytössä ja siksi houkutteleva kohde uhkatoimijoille. SaaS-palvelut 

ovat keskitetysti isännöityjä ja niitä käytetään etäyhteyksin, täten ne ovat alttiita 


11 

palvelunestohyökkäyksille (DDoS). Laajoissa katsauksissa DDoS on pilviturvallisuuden 

yleisimmin tutkittujen ongelma-alueiden joukossa. Poikkeavuuksien havaitseminen ja 

varhainen reagointi ovat siksi keskeisessä osassa SaaS-ympäristöjen suojauksessa (Nassif 

ja muut, 2021; Abdallah ja muut, 2024). 

 
2.1.2 Alusta palveluna 

Alusta palveluna-malli (Platform as a Service, PaaS) tarjoaa kehitys- ja ajoympäristön, 

johon sisältyy tyypillisesti käyttöjärjestelmä, ohjelmointikielet, web-palvelimet ja tieto-

kantapalvelut. Resurssit skaalautuvat automaattisesti tarpeiden mukaisesti ja sovelluksia 

kehitetään palveluntarjoajan API:n avulla käyttötarkoituksen mukaan. Tässä mallissa 

asiakas hallitsee ohjelmiston käyttöönottoa ja konfigurointia (Abdallah ja muut, 2024).  

 
PaaS-mallin tietoturvahaasteet liittyvät erityisesti API-liikenteen profilointiin, sovellus-

koodin haavoittuvuuksiin sekä tietokantojen suojaamiseen. Tunnusomaisia uhkia ovat 

API-väärinkäyttö, konfiguraatiovirheet sekä riippuvuuksien haavoittuvuudet. PaaS-ym-

päristössä on tutkittu ja toteutettu ML-pohjaista DDoS havaitsemista. (Abdallah ja muut, 

2024). 

 
2.1.3 Infrastruktuuri palveluna 

Infrastruktuuri palveluna (Infrastructure as a Service, IaaS) tarjoaa käyttäjille virtuaalisia 

laskentaresursseja, kuten palvelimia, tallennustilaa ja verkkoyhteyksiä internetin välityk-

sellä (Hu ja muut, 2017). Käyttäjä voi hallita ja ylläpitää näitä resursseja virtuaalisesti il-

man tarvetta omistaa fyysistä infrastruktuuria. IaaS-palveluissa käyttäjällä on suuri vas-

tuu omien sovellustensa, käyttöjärjestelmiensä sekä tietoturvan hallinnasta. IaaS-palve-

luiden tietoturvauhat liittyvät resurssien väärinkäyttöön, konfiguraatiovirheisiin sekä vir-

tuaalisen infrastruktuurin haavoittuvuuksiin (Abdallah ja muut, 2024). DDoS-suojaus 

sekä verkon poikkeamien tunnistus ovat keskeisiä tuotantovalmiissa arkkitehtuureissa. 

ML-pohjaiset IDS-menetelmät täydentävät sääntö- ja allekirjoituspohjaisia ratkaisuja no-

peasti muuttuvassa pilviympäristössä (Dong ja Kotenko, 2025). 


12 

 
2.2 Uhkamallit pilvi- ja tietokantaympäristöissä 

Pilvipalvelut ovat monimutkaisia järjestelmiä, jotka altistuvat monenlaisille tietoturvaris-

keille. Järjestelmän monimutkaisuuden kasvaessa myös sen haavoittuvuudet lisääntyvät 

(Nassif ja muut, 2021). Keskeisiä pilviturvan teema-alueita ovat erityisesti palvelunesto-

hyökkäykset sekä tietosuojan ja yksityisyyden ongelmat, jotka korostuvat datakeskeisissä 

työkuormissa. Nassifin (2021) mukaan DDoS ja datan yksityisyys ovat pilviturvan tutki-

tuimpia osa-alueita, mikä kuvastaa niiden painoarvoa.  

 
DDoS-uhkien mittakaavaa kuvaa Ciscon laajasti siteerattu ennuste, jossa DDoS-hyökkäyk-

sien määrän ennustettiin tuplaantuvan vuoteen 2023 mennessä, jolloin niitä olisi noin 

15,3 miljoonaa vuodessa (Abdallah ja muut, 2024). 

 
Tietokantaympäristöissä hyökkäykset kohdistuvat luottamuksellisuuteen ja eheyteen 

muun muassa SQL-injektion, liiallisten oikeuksien, epätavallisten kyselyprofiilien ja tie-

don salakuljetuksen kautta. Sisäiset uhat ja väärät konfiguraatiot ovat toistuvia riskiteki-

jöitä pilvessä, jossa monivuokraus ja dynaaminen skaalautuminen vaikeuttavat perin-

teistä valvontaa. Yleisessä uhkakuvassa esiintyvät myös phishing ja haittaohjelmat sekä 

identiteetin väärinkäyttö, jotka toimivat hyökkäysketjujen alkuvaiheina (Sarker ja muut 

2021). 

 
2.3 Poikkeamien havaitsemisen rooli tietoturvassa 

Poikkeamien havaitseminen täydentää allekirjoitus- ja sääntöpohjaisia ratkaisuja tilan-

teissa, joissa hyökkäystapa muuttuu, kohde on uusi tai allekirjoitus puuttuu. Lähestymis-

tapa rakentaa mallin normaalista käyttäytymisestä ja tunnistaa siitä poikkeavat tapahtu-

mat verkossa, identiteetissä ja tietokantakyselyissä. Pilvessä tämä on keskeistä nollapäi-

vähyökkäysten, API-väärinkäytön ja skaalaus- sekä konfiguraatiopoikkeamien havaitse-

miseksi; tietokannoissa se paljastaa epätavanomaiset join-rakenteet, poikkeavat tulos-

joukon koot ja aikataulukäytön muutokset. (Abdallah ja muut 2024). 


13 

3 Tekoälypohjaiset poikkeamien havaitsemismallit 

AI tarjoaa tehokkaita menetelmiä pilvipalveluiden tietoturvapoikkeamien havaitsemi-

seen. Kyseiset menetelmät käyttävät laskentaa ja analytiikkaa tunnistamaan epätavallisia 

tapahtumia, joita perinteiset menetelmät kuten allekirjoitus tai sääntöpohjaiset mene-

telmät eivät välttämättä havaitsisi. (Ahmed ja muut, 2025). Kuvassa 2 on esitettynä 

AI/ML-sovelluksien keskeiset osa-alueet kyberturvassa. Näistä tämän tutkielman paino-

piste on tunkeutumisen havaitseminen ja käyttäytymisanalyysi, jotka kattavat noin 40 

prosenttia osa-alueista. 

 
Kuva 2 AI-/ML- keskeiset painoalueet tietoturvassa (Mohamed, 2025) 

 
14 

3.1 Perinteiset poikkeamien tunnistusmenetelmät 

Poikkeamien havaitseminen tietoturvassa perustui pitkään perinteisiin menetelmiin, 

jotka jaotellaan vakiintuneesti kahteen luokkaan: allekirjoitus- tai väärinkäyttöpohjaisiin 

menetelmiin (signature-based / misuse detection), sekä anomaliapohjaiseen tunnistuk-

seen (anomaly detection) (Halbouni ja muut, 2022). Nämä lähestymistavat muodostivat 

tunkeutumisen havaitsemisjärjestelmät (intrusion detection system, IDS) jo ennen teko-

äly- ja koneoppimisratkaisujen yleistymistä. 

 
Allekirjoituspohjaiset menetelmät vertaavat havaittua verkkoliikennettä ja järjestelmän 

tapahtumia tunnettuihin hyökkäysmalleihin eli allekirjoituksiin (Ahmed ja muut, 2025). 

Menetelmä on erittäin tarkka tunnettuja hyökkäyksiä vastaan ja tuottaa vähän vääriä 

hälytyksiä (false positives, FP). Sen keskeisiä rajoitteita ovat riippuvuus allekirjoitustieto-

kannan jatkuvasta päivityksestä ja kyvyttömyys tunnistaa uusia, tuntemattomia hyök-

käyksiä, kuten nollapäivähyökkäyksiä (zero-day attack), sillä näihin ei ole olemassa val-

miita allekirjoituksia. 

 
Anomaliapohjainen tunnistus rakentaa mallin normaalista käyttäytymisestä ja käyttää 

tätä havaintojen pohjana (Ahmed ja muut, 2025; Ahmetoglu ja Das, 2022).  Kun käytös 

poikkeaa tästä mallista, se merkitään poikkeamaksi ja mahdollisesti haitalliseksi (Ahme-

toglu ja Das, 2022). Anomaliapohjaisen tunnistuksen vahvuus on kyky tunnistaa ennen-

näkemättömiä uhkia, mutta käytännössä menetelmät kärsivät usein korkeasta FP mää-

rästä, mikä heikentää käyttökelpoisuutta ja kuormittaa operatiivista työtä (Ahmed ja 

muut, 2025). 

 
Perinteisten lähestymistapojen rakenteelliset rajoitteet ovat johtaneet hybridimalleihin, 

joissa tunnetut uhat katetaan allekirjoituksilla ja tuntemattomat uhat pyritään tavoitta-

maan anomaliapohjaisesti (Ahmetoglu ja Das, 2022). Samasta syystä kehitys on siirtynyt 

kohti AI- ja ML-ratkaisuja, joiden tavoitteena on parantaa kattavuutta ja vähentää väärien 

hälytyksien määrää dynaamisissa ympäristöissä (Halbouni ja muut, 2025). 

 
15 

 
3.2 Koneoppimismenetelmät 

Koneoppiminen tai koneoppimismenetelmät ovat AI-ratkaisuja, jotka mahdollistavat tie-

tokoneita oppimaan datan pohjalta ilman erillistä ohjelmointia (IBM, 2022). Tyypillisesti 

ML jaetaan kolmeen kategoriaan; ohjattu oppiminen (supervised learning), ohjaamaton 

oppiminen (unsupervised learning) ja vahvistusoppiminen (reinforcement learning) (IBM, 

2022).  

 
3.2.1 Ohjattu oppiminen 

Ohjattu oppiminen perustuu tekoälyn kouluttamiseen merkityllä aineistolla, jossa nor-

maalitilanteet sekä poikkeamat ovat ennalta tunnistettu. AI:lle näytetään esimerkkejä 

syötteistä (input) sekä halutuista tuloksista (output). Tavoitteena on kouluttaa tekoäly, 

joka kykenee päättelemään todennäköisen tuloksen tuntemattomien syötteiden avulla 

(Nasteski, 2017; Solin, 2022). Solinin (2022) mukaan ohjattua oppimista käytetään kou-

luttamaan regressio- ja luokittelumalleja. Regressiomalli pyrkii ennustamaan tai selittä-

mään jatkuvia suureita, kuten esimerkiksi DDoS tai SQL-injectioiden tunnisteita. Jos ko-

neoppimismallilla on ennalta määritelty määrä luokkia, kyseessä on luokittelumalli (Solin, 

2022).  

 
3.2.2 Ohjaamaton oppiminen 

Ohjaamattomassa oppimisessa koneoppimismalli koulutetaan käyttämällä merkitsemä-

töntä tietoaineistoa, eli algoritmi analysoi tietoaineiston rakennetta löytääkseen piileviä 

kaavoja tai poikkeavaisuuksia (IBM, 2022; Mohamed, 2025). Mohamedin (2025) mukaan, 

ohjaamaton oppiminen on erityisen hyödyllinen poikkeavuuksien havaitsemisessa, jossa 

tarkoituksen on tunnistaa normaalista poikkeavaa toimintaa, ilman ennestään tunnet-

tuja hyökkäyksen tunnisteita. Sarkerin (2021) mukaan ohjaamatonta oppimista käyte-

tään lähinnä klusterointiin (clustering) sekä informatiivisiin datamuunnoksiin (informa-

tive data transformations).   


16 

 
Klusterointi on prosessi, jossa havaintoyksiköt ryhmitellään klustereiksi siten, että saman 

klusterin sisällä olevat havainnot ovat keskenään mahdollisimman samankaltaisia ja eri 

klustereissa mahdollisimman erilaisia. Klusterointi menetelmiä ovat esimerkiksi k-kes-

kiarvot (k-means), hierarkkinen klusterointi ja tiheysperustaiset menetelmät kuten 

DBSCAN. Pilvipalveluiden tietoturvassa klusterointia voidaan hyödyntää esimerkiksi ver-

kon liikenteen, käyttäjäistuntojen tai palvelinlokien ryhmittelyssä, jolloin poikkeavat ryh-

mät voivat viitata epätyypilliseen käyttäytymiseen tai mahdollisiin hyökkäyksiin (Moha-

med, 2025). Menetelmän vahvuutena on kyky löytää rakenteita ilman ennalta merkittyjä 

poikkeamia, mutta sen rajoitteisiin kuuluvat parametrien, kuten klusterien määrän tai 

etäisyysmitan valinnan herkkyys. 

 
Informatiiviset datamuunnokset, kuten dimensioiden vähentäminen, pyrkivät tiivistä-

mään monimutkaista ja moniulotteista dataa säilyttäen samalla sen olennaisimman in-

formaatiosisällön. Tunnettuja menetelmiä ovat pääkomponenttianalyysi (Principal Com-

ponent Analysis, PCA), joka säilyttää suurimman osan datan varianssista muutamassa 

pääkomponentissa, sekä epälineaariset menetelmät kuten t-jakautunut stokastinen naa-

purin upotus (t-distributed Stochastic Neighbor Embedding, t-SNE) ja Yhtenäinen monis-

toapproksimaatio ja projektio (Uniform Manifold Approximation and Projection, UMAP), 

jotka soveltuvat monimutkaisten rakenteiden visualisointiin ja ryhmien erottamiseen. 

Pilvipalveluiden tietoturvassa dimensioiden vähentäminen voi toimia esikäsittelyvai-

heena ennen klusterointia, jolloin kohinaa voidaan poistaa ja poikkeamien havaitsemi-

sen tarkkuutta parantaa (Mohamed, 2025). Menetelmän heikkoutena on mahdollinen 

informaation katoaminen ja tulosten tulkinnan vaikeus. 

 
3.2.3 Vahvistusoppiminen 

Vahvistusoppiminen (reinforcement learning) on koneoppimisen edistyneempi muoto. 

Malli oppii vuorovaikuttamalla ympäristöönsä, josta se vastaanottaa palautetta palkin-

tojen tai rangaistusten muodossa. (Mohamed, 2025). Mohamedin (2025) mukaan 


17 

vahvistusoppiminen on lupaavaa erityisesti mukautuvien puolustusmenetelmien toteu-

tuksessa. Vahvistusoppimista voidaan käyttää esimerkiksi tunkeutumisen estojärjestel-

missä (intrusion prevention systems, IPS). Tunkeutumisen estojärjestelmässä malli oppii 

valitsemaan parhaan toimenpiteen kuhunkin hyökkäystyyppiin (Mohamed, 2025). Vah-

vistusoppimista voidaan myös hyödyntää myös automaattisessa penetraatiotestaami-

sessa, jossa tekoäly tutkii haavoittuvuuksia hallitussa ympäristössä ja oppii joko hyödyn-

tämään tai torjumaan niitä. (Mohamed, 2025). 

 
3.2.4 Syväoppiminen ja neuroverkot 

Syväoppimisella (deep learning, DL) tarkoitetaan monikerroksisiin keinotekoisiin neuro-

verkkoihin (artificial neural networks) perustuvia menetelmiä, jotka pyrkivät mallinta-

maan monimutkaisia tietorakenteita (Halbouni ja muut, 2022; Mohamed, 2025). Perin-

teisiin koneoppimismenetelmiin verrattuna DL-malli vähentää manuaalista piirresuun-

nittelua, mutta vaatii silti esikäsittelyä (Halbouni ja muut, 2022). DL-mallit soveltuvat 

erinomaisesti pilvipalveluiden verkkoliikenneympäristöön, jossa data on runsasta ja jat-

kuvasti muuttuvaa. 

 
Neuroverkkojen arkkitehtuurit vaihtelevat käyttötarkoituksen mukaan. Konvoluutioneu-

roverkot (convolutional neural networks, CNN) soveltuvat hyvin rakenteellisten piirtei-

den tunnistamiseen esimerkiksi verkkoliikenteen kuvioista (Mohamed, 2025). Toistuvat 

neuroverkot (recurrent neural network, RNN) kykenevät mallintamaan aikajonoihin pe-

rustuvia riippuvuuksia, kuten käyttäjien toiminnan ajallisia poikkeamia. Lisäksi generatii-

viset vastakkaiset verkot (generative adversarial network, GAN), tarjoavat mahdollisuuk-

sia sekä hyökkäysten simulointiin että puolustuksen vahvistamiseen tuottamalla realis-

tista harjoitusdataa. 

 
Mohamed (2025) korostaa, että syväoppimiseen pohjautuvilla tietoturvaratkaisuilla on 

merkittävä etu nollapäivähyökkäyksien havaitsemisessa, sillä neuroverkot voivat mukau-

tua jatkuvasti muuttuviin uhkakuviin. Luonnollisesti syväoppimiseen liittyy myös haas-

teita, esimerkiksi mallien korkea laskennallinen kuormittavuus ja mahdollinen 


18 

ylisovittaminen (overfitting) voivat vaikeuttaa niiden käyttöä kriittisissä pilvipalveluym-

päristöissä (Halbouni ja muut, 2022). 

 
3.3 Ennustavat mallit 

Ennustavilla malleilla tarkoitetaan tässä tutkielmassa menetelmiä, jotka arvioivat tule-

van poikkeaman tai riskitason todennäköisyyttä aikaleimatusta loki- ja verkkodatasta. Ta-

voite on proaktiivinen suojaus, eli varoitus annetaan ennen häiriön tai hyökkäyksen to-

teutumista. (Abdallah ja muut, 2024). 

 
Tätä lähestymistä tukevat toistuvat neuroverkot (recurrent neural network, RNN), jotka 

on suunniteltu jono- ja aikasarjadataan. Ne oppivat aikariippuvuuksia muuttuvapituisten 

syötteiden yli (Dong ja Kotenko, 2025). 

 
RNN-perheen tunnetuin alaosasto on pitkän lyhytaikaisen muistin verkko (long short-

term memory, LSTM), jossa porttirakenne mahdollistaa pitkän aikavälin riippuvuuksien 

oppimisen (Dong ja Kotenko, 2025). Portitettu toistoyksikkö (gated recurrent unit, GRU) 

on kevyempi, mutta yksinkertaistaa portitusta ja säilyttää kyvyn mallintaa ajallista raken-

netta. (Mohamed, 2025).  

 
Autoenkooderi (autoencoder, AE) on pakkaava-purkava neuroverkko, jota käytetään val-

vomattomaan poikkeamien havaitsemiseen (Dong ja Kotenko, 2025). Malli opetetaan re-

konstruoimaan normaalia käyttäytymistä ja rekonstruointivirhe toimii hälytyskriteerinä. 

Ennakoivassa käytössä hälytyksen voi muodostaa myös ennustevirhe, eli ero mallin en-

nusteen ja toteuman välillä (Abdallah ja muut, 2024).  

 
3.4 UEBA ja Hybridimallit 

UEBA (User and Entity Behavior Analytics) viittaa käyttäjien ja entiteettien toiminnan 

analysointiin. Sen avulla voidaan rakentaa profiili käyttäjän normaalista toimintamallista 

ja käyttää sitä epätavallisen toiminnan havaitsemiseen (Marchal ja muut, 2024). UEBA-


19 

ratkaisut ovat luonteeltaan hybridejä, jotka yhdistävät tilastollisia peruslinjoja, ohjaama-

tonta oppimista ja tarvittaessa valvottuja tai DL-malleja riskipisteytyksen tuottamiseksi 

(Ahmetoglu & Das, 2022). Käytännössä yhdistämisstrategioita ovat kaksiportainen tun-

nistus, jossa ohjaamaton malli seuloo poikkeavat tapaukset valvotun luokittelun tarken-

nettavaksi, sääntö-/allekirjoituspohjaisen tunnistuksen ja ML-mallin yhdistäminen sekä 

graafi- ja sekvenssipohjaisten mallien yhdistelmät (Abdallah ja muut, 2024). 

 
UEBA on erityisen hyödyllinen monivuokraisissa pilviympäristöissä, joissa kaapatut tilit 

ja API-väärinkäyttö eivät näytä allekirjoitushyökkäyksiltä. Hybridiratkaisut auttavat pitä-

mään FP-tason hallinnassa ilman, että nollapäiväuhka lisääntyy (Marchal ja muut, 2024). 

 
Tuore tutkimus osoittaa, että allekirjoituspohjaisen IDS:n rikastaminen ML- ja DL-teknii-

koilla parantaa havaitsemistarkkuutta ja vähentää vääriä hälytyksiä, mikä vahvistaa jär-

jestelmän hälytysvakautta dynaamisessa ympäristössä (Ahmed ja muut, 2025; Dong & 

Kotenko, 2025; Abdallah ja muut, 2024).  

 
UEBA:n käytännön rajoitteena voi pitää sen tarvitsemaa pitkää oppimisjaksoa sekä tar-

vittavan historiallisen datan määrää (Marchal ja muut, 2024). Tämä voi heikentää suo-

jaustasoa uusille käyttäjille ja tuotantokäytössä korostuu mallien säännöllinen päivitys. 


20 

4 Mallien arviointi ja soveltuvuus 

Tässä luvussa arvioidaan AI- ja ML-menetelmiin perustuvia tietoturvaratkaisuja. Arvioin-

tikehikon tarkoitus on tehdä tuloksista vertailukelpoisia ja käytännössä tulkittavia. Valitut 

mittarit kuvaavat sekä havaintotarkkuutta että operatiivista käytettävyyttä viiveen, kuor-

mituksen ja skaalautuvuuden osalta. Mittarivalinnat perustuvat alan vakiintuneisiin käy-

täntöihin (Mohamed, 2025; Dong ja Kotenko, 2025; Ahmetoglu ja Das, 2022; Nassif ja 

muut, 2021). 

 
4.1 Arviointikehikko ja mittarit 

Mohamedin (2025) mukaan luokittelumallin yleisen suorituskyvyn arvioinnissa Tarkkuus 

(Accuracy, Acc) on yksi perusmittareista. Tarkkuus määrittää oikein luokiteltujen enti-

teettien osuuden kaikkien arvioitujen entiteettien joukosta, eli korkea tulos viittaa mallin 

kykyyn luokitella haitallinen ja ei-haitallinen aktiivisuus. Tarkkuus voidaan laskea yksin-

kertaisella yhtälöllä: 

 
Acc =
TP + TN

TP + TN + FP + FN
                                                    (1) 

 
missä 

TP on oikein tunnistetut uhat (todet positiiviset, True Positives) 

TN on oikein luokitellut ei-haitalliset toiminnot (todet negatiiviset, True Negatives) 

FP on virheellisesti merkityt uhat  

FN on todelliset uhat, joita malli ei onnistunut havaitsemaan (väärät negatiiviset, False 

Negatives) 

 
Nämä neljä komponenttia perustuvat sekaannusmatriisiin, joka nähdään taulukossa 1. 

 
21 

 
Taulukko 1 Sekaannusmatriisi (Halbouni ja muut, 2022) 

  Ennustettu: Positiivinen Ennustettu: negatiivinen 

Positiivinen Tosi positiivinen (TP) Väärä negatiivinen (FN) 

Negatiivinen Väärä positiivinen (FP) Tosi negatiivinen (TN) 

 
Mohamed (2025) toteaa myös, että todellisuudessa Acc ei yksin riitä kyberturvallisuuden 

monimuotoiseen ympäristöön, sillä tietoturvadata on epätasapainoista ja väärät häly-

tykset kuormittavat operatiivista toimintaa. Ahmetoglu ja Das (2022) korostavat usean 

mittarin tarpeellisuutta kyberturvallisuuteen tarkoitettujen mallien arvioinnissa. Arvi-

oinnissa painotetaan sekä havaitsemista että väärien hälytysten hallintaa.  

 
Täsmällisyys (Precision, PPV) kuvaa mallin kykyä välttää ei-haitallisten havaintojen vir-

heellistä merkintää haitallisiksi; korkea PPV tarkoittaa vähäistä FP-määrä (Halbouni, 

2022). 

 
PPV =
TP

(TP + FP)
                                                   (2) 

 
Kattavuus tai todellisten positiivisten osuus (Recall, TPR) kuvaa mallin kykyä löytää kaikki 

uhat (Mohamed, 2025). 

 
 TPR =
TP

(TP + FN)
                                                   (3) 

 
F1-luku (F1) kuvaa harmonista keskiarvoa. Suurempi F1-luku on osoitus tasapainoisem-

masta ja tehokkaammasta mallista. (Mohamed, 2025; Halbouni, 2022). 

 
F1 = 2 ∙
PPV ∙ TPR

PPV + TPR
                                                   (4) 


22 

Väärien hälytysten osuus (False Positive Rate, FPR) mittaa, kuinka usein ei-haitallinen ak-

tiivisuus luokitellaan haitalliseksi (Mohamed, 2025; Halbouni, 2022). 

 FPR =
FP

(FP + TN)
                                                   (5) 

 
Väärien negatiivien osuus (False Negative Rate, FNR) mittaa, kuinka monta uhkaa malli 

epäonnistuu havaitsemaan. Alhainen FNR-lukema on välttämätön, jotta kyberturvajär-

jestelmä ei jätä kriittisiä hyökkäyksiä huomioimatta (Mohamed, 2025). 

 
FNR =
FN

(FN + TP)
                                                   (6) 

 
ROC-AUC (vastaanottajan toimintakäyrän alla oleva alue, Receiver Operating Charac-

teristic - Area Under Curve) on laajalti käytetty mittari, joka kuvaa TPR:n ja FPR:n vaihto-

suhdetta. AUC tiivistää tämän yhteen lukuun, jossa tulos lähellä lukua 1 kertoo erinomai-

sesta mallista ja vastaavasti tulos lähempänä lukua 0,5 kertoo epäluotettavasta mallista 

(Mohamed, 2025; Ahmetoglu ja Das, 2022). Kuvassa 3 on mukailtu eräitä ROC-käyriä 

(Ahmed ja muut, 2025). Kuvan mallit saavuttavat AUC-arvoja väliltä 0,90–0,97, mikä in-

dikoi korkeaa erottelukykyä. 

 
23 

 
Kuva 3 Eräitä ROC-käyriä (Ahmed ja muut, 2025) 

 
Inferenssiaika (inference time) kertoo, kuinka paljon aikaa mallilla menee analysoida ja 

luokitella mahdollisia turvauhkia. Myös prosessorin (Central Processing Unit, CPU), näy-

tönohjaimen (GPU) ja keskusmuistin (RAM) laskenta- ja muistikuormaa tulee mitata. Mo-

hamedin (2025) mukaan Tekoälypohjaisissa tietoturvaratkaisuissa on hyvä arvioida myös 

laskennallisen tehokkuuden perusteella, sillä mallien skaalautuvuus ja kustannukset ovat 

kriittisiä toiminnan tehokkuuden kannalta. Skaalautuvuutta mitataan myös tarkastele-

malla, miten tekoälyohjelma sopeutuu kasvavaan kuormitukseen. 

 
Seuraavaksi edellä mainittuja mittareita sovelletaan kolmeen yleisimpään käyttötilanne-

profiiliin pilvi- ja tietokantaympäristössä, jotta mittarit kiinnittyvät konkreettisiin opera-

tiivisiin vaatimuksiin. 


24 

4.2 Käyttötilanneprofiilit pilvessä ja tietokannoissa 

Tässä alaluvussa rajataan tarkastelu kolmeen käyttötilanneprofiiliin, jotka toistuvat pilvi- 

ja tietokantaympäristöissä: (i) pilviverkon liikenteen valvonta, (ii) sovellus- ja PaaS-tason 

lokit sekä UEBA ja (iii) tietokantakyselyiden ja mallimuutosten poikkeavuudet. Profiilit 

peilautuvat CIA-luokitteluun: (1) saatavuus, (2) eheys ja (3) luottamuksellisuus. 

 
Pilvipalvelujen moniasiakkuus ja skaalautuvuus siirtävät painopistettä volyymipoik-

keamiin ja DDoS-hyökkäyksiin, joissa dataohjatut NIDS-ratkaisut (Network-based IDS) 

ovat luontevia. Abdallah ja muut (2024) osoittavat että DDoS on pilviturvallisuuden tut-

kituimpia teemoja; siksi tämä profiili asettaa reaaliaikaisuuden ja matalan FPR:n keski-

öön. 

 
UEBA hyödyntää valvontalokeja, käyttöoikeustapahtumia ja palvelukohtaisia mittareita 

sisäpiiriuhkien ja kaapatun tilin kaltaisten ilmiöiden havaitsemiseen. Ahmetoglu ja Das 

(2022) korostavat valvonnan siirtymistä pelkästä allekirjoituslogiikasta ennustaviin mal-

leihin, mikä tukee sekä eheyden että luottamuksellisuuden suojaamista. Profiili suosii 

malleja, jotka sietävät harvinaisia luokkia ja muuttuvaa kontekstia, sekä edellyttää mit-

tareiden tulkintaa operatiivisen hälytyskuorman kautta. 

 
Tietokantatasolla hyökkäykset ilmentyvät mm. epätavallisina kyselyprofiileina, mas-

sapoimintoina tai injektioina. ML-menetelmiä on hyödynnetty sekä SQL-injektioiden ha-

vaitsemiseen että normaalin kyselykäyttäytymisen mallintamiseen siten, että poikkeavat 

rakenteet ja pääsykuviot paljastuvat. Tässä profiilissa eheyden ja luottamuksellisuuden 

vaatimukset korostavat matalaa FN-tasoa; pienikin sivuuttaminen voi johtaa tietovuo-

toon tai hiljaiseen manipulointiin (Ahmetoglu ja Das, 2022). 

 
Profiileihin liittyy aineistoriippuvuus: yleisesti käytetyt IDS-aineiston, kuten KDD-perhe, 

UNSW-NB15, CIC-IDS eivät aina kata pilvipalveluiden nykyistä liikennettä tai organisaa-

tiokohtaista kyselykäyttäytymistä, mikä vääristää mittareita ja siirrettävyyttä tuotantoon 

(Dong ja Kotenko, 2025). 


25 

 
4.3 Menetelmien soveltuvuus käyttötilanneprofiileihin 

Mohamedin (2025) mukaan tunnettujen hyökkäysten havaitsemisessa ohjattu oppimi-

nen toimii hyvin, kun käytössä on edustava ja ajantasainen verkkoa kuvaava opetusdata. 

Nollapäiväiset variantit, korkeadimensionaalinen virta ja vaihtuva kuormitus puoltavat 

ohjaamatonta anomaliantunnistusta sekä syväoppimista, kuten autoenkoodereita ja sek-

venssimalleja. Katsaukset raportoivat, että DL parantaa havaitsemista ja voi alentaa FP 

määrää useissa vakiintuneissa dataseteissä, kuten CSE-CIC-IDS2018 ja CIC-IDS2017, 

mutta tulokset ovat datariippuvaisia. Pilvipainotteiset koonnit kokoavat samat havainnot 

IaaS- ja PaaS-ympäristöihin ja korostavat datasettien roolia. (Dong ja Kotenko, 2025). 

 
Käyttäytymisen analytiikassa poikkeamat ovat usein harvinaisia ja kontekstiriippuvaisia, 

mikä suosii ohjaamatonta oppimista. Klusterointi ja autoenkooderit oppivat organisaa-

tiokohtaisen normaalin ja hälyttävät siitä poikkeavat jaksot. Aikajonoihin perustuvat il-

miöt edellyttävät sekvenssimalleja, kuten RNN- ja LSTM-rakenteita. Kun laadukkaita luo-

kiteltuja esimerkkejä on saatavilla, ohjattu luokittelu toimii tarkentavana toisena por-

taana. AI-vetoisen turvallisuusmallinnuksen yleiskatsaukset tukevat tätä kaksivaiheista 

virtausta ja kokoavat menetelmät loki-, käyttäjä- ja sovellusdatan päälle (Sarker ja muut, 

2021). 

 
Tietokantatasolla poikkeamat näkyvät epätavallisina kyselyprofiileina, massapoimin-

toina ja injektioina. Organisaatiokohtaisen normaalin hahmottamiseen soveltuu ohjaa-

maton oppiminen, kun taas tunnettujen hyökkäysmuotojen tunnistamiseen sopii ohjattu 

oppiminen. Laajat koonnit raportoivat ML- ja DL-menetelmiä injektioiden ja muun sovel-

lustason poikkeavan käytöksen havaitsemiseen, mukaan lukien SQL-injektion valvonta 

neuroverkoilla ja hybridimalleilla (Ahmetoglu ja Das, 2022). Dong ja Kotenko (2025) viit-

taavat että hybridit yhdistävät havaitsemisherkkyyden ja maltillisen hälytyskuorman pa-

remmin kuin yksittäiset mallit heterogeenisessa datassa. Syväoppiminen oppii esityksiä 

suoraan liikenne- ja lokivirroista ja voi parantaa tarkkuutta, mutta vaatii laskenta- ja 


26 

dataresursseja sekä huolellista siirrettävyyden arviointia. Sekä perinteiset ML-mallit että 

DL-mallit suoriutuvat vahvasti verkko-IDS-tehtävissä. (Dong ja Kotenko, 2025). 

 
4.4 Aineistot ja siirrettävyys 

ML-pohjaisten IDS-ratkaisujen arviointi nojaa usein julkisiin vertailuaineistoihin. Nassifin 

(2021) mukaan KDD ja NSL-KDD sisältävät ajallisesti vanhentuneita ja keskenään korre-

loivia piirteitä, mikä paisuttaa tuloksia eikä kuvaa pilvi- ja monivuokrausympäristöjen ny-

kyistä liikennettä. Taulukko 2 kokoaa IDS-aineistojen peruspiirteet. Uudemmat CIC-

IDS2017 ja CSE-CIC-IDS2018 laajentavat hyökkäyskirjoa, mutta eivät kata kaikkia kuormi-

tus- ja palveluprofiileja, erityisesti anomaliatunnistuksessa normaaliluokan edustavuus 

on ratkaisevaa (Dong ja Kotenko, 2025). CIC-IDS2017:n hyökkäystyypit on esitetty taulu-

kossa 3.  

 
Taulukko 2 IDS-aineistojen yleiskuva (Halbouni ja muut, 2022) 

Aineisto Vuosi Saatavuus Piirteiden määrä Liikenteen tyyppi 

KDD Cup99 1998 Julkinen 41 Emuloitu 

NSL-KDD 1998 Julkinen 41 Emuloitu 

ISOT 2010 Julkinen 49 Emuloitu 

ISCX 2012 2012 Julkinen 8 Emuloitu 

UNSW-NB15 2015 Julkinen 42 Emuloitu 

KYOTO 2015 Julkinen 24 Aito liikenne 

CIC-IDS2017 2017 Julkinen 84 Emuloitu 

 
Tuotantotulkinnassa aiemmin määritellyt mittarit tulee sitoa operatiiviseen kontekstiin. 

Epätasapainoisessa datassa ACC on heikko päätösperuste; tärkeämpiä ovat FNR, FPR 


27 

sekä latenssi ja läpivirtaus. Nämä määrittävät, muuttuuko oikea hälytys käytännössä 

myöhästyneeksi. (Mohamed, 2025). 

 
Siirrettävyyden parantamiseksi Dong ja Kotenko (2025) suosittelevat datajoukon testaa-

mista ristiin, aikajärjestyksen säilyttäviä jakoja kalibrointia ja konseptiajautumisen (con-

cept drift) valvontaa. Näiden lisäksi vaiheittaista käyttöönottoa tulisi suosia. Nämä käy-

tännöt kaventavat laboratorio-tuotanto-kuilua. 

 
4.5 Käyttöönoton reunaehdot 

Pelkkä mallitarkkuus ei riitä käyttökelpoisuuteen. Pilvi- ja tietokantaympäristöissä ratkai-

sevia ovat viive, läpivirtaus, kustannukset, integraatio, selitettävyys ja tietosuoja (Ahme-

toglu & Das, 2022). Nämä tulee arvioida yhdessä havaitsemismittareiden kanssa, jotta 

tutkimustulokset siirtyvät tuotantokyvykkyydeksi. 

 
Reaaliaikaisessa valvonnassa malli käsittelee suuria tapahtumamääriä pienellä viiveellä. 

DL-mallit kuormittavat laskentaa ja voivat kasvattaa viivettä, mikä lisää riskiä ohi men-

neistä havainnoista. Siksi arvioinnissa tulee raportoida sekä havaitsemismittarit että lä-

pivirtaus ja vasteaika. Dong ja Kotenko (2025) nimeävät skaalautuvuuden, ajoitusvaati-

mukset ja väärien hälytysten hallinnan keskeisiksi käyttöönoton haasteiksi ja suosittelee 

tehokkuusvertailuja IDS/IPS-ratkaisuille. 

  
28 

Taulukko 3 CIC-IDS2017-aineiston hyökkäystyypit, (Halbouni ja muut, 2022) 

Hyökkäysluokka Tietueiden 
määrä Kuvaus 

Hyvälaatuinen 2 358 036 Normaali verkkoliikenne. 

DoS -DDoS 41 835 Useat käyttäjät hyökkäävät samanaikai-
sesti yhtä palvelua vastaan. 

DoS -Heartbleed 11 Luvaton pääsy syöttämällä haitallista da-
taa OpenSSL-muistiin. 

DoS -Hulk 231 073 
Hulk-työkalun tuottama obfuskettu lii-

kenne DoS-hyökkäyksen toteutta-
miseksi. 

DoS -Slowloris 5 796 Slowloris-työkalulla toteutettu hidas yh-
teyshyökkäys. 

PortScan 158 930 
Tietojen keruu (palvelut, käyttöjärjes-

telmä) lähettämällä paketteja eri kohde-
porteihin. 

Web-hyökkäys -XSS 652 Haitallisen sisällön syöttäminen verkko-
sovellusten kautta tavallisille sivustoille. 

Web-hyökkäys -
murtoyritys (Brute 

Force) 
1 507 Salasanojen arvaamiseen perustuvat 

murtoyritykset web-sovelluksissa. 

Web-hyökkäys -SQL-
injektio 21 Haitallisten SQL-lauseiden syöttäminen 

syötekenttiin suoritettavaksi. 

Murtoyritys -FTP-Pata-
tor 7 938 Hyökkäykset FTP-kirjautumisen salasa-

nan arvaamiseksi. 

Murtoyritys -SSH-Pata-
tor 5 897 Hyökkäykset SSH-kirjautumisen salasa-

nan arvaamiseksi. 

Bot 1 966 Troijalainen kaappaa laitteita bottiver-
koksi etäohjattavaksi. 

Infiltration 36 
Tunkeutumistekniikat ja -työkalut luvat-

toman pääsyn saamiseksi järjestelmäda-
taan. 

 
29 

5 Eettiset ja lainsäädännölliset näkökulmat 

Tässä luvussa tarkastellaan AI-pohjaisten poikkeamien havaitsemisratkaisujen eettisiä ja 

lainsäädännöllisiä reunaehtoja pilvi- ja tietokantaympäristöissä. Painopisteinä ovat (i) yk-

sityisyys ja tietosuoja, (ii) vinoumat ja oikeudenmukaisuus, sekä (iii) selitettävyys ja vas-

tuu. 

 
5.1 Yksityisyys ja tietosuoja 

Poikkeamien havaitseminen kyberturvallisuudessa nojaa yksityiskohtaiseen tapahtuma-

dataan, joka herättää merkittäviä eettisiä huolenaiheita, erityisesti yksityisyyden, lä-

pinäkyvyyden ja algoritmisen vinouman osalta (Mohamed, 2025). Valvonta- ja havaitse-

misjärjestelmät vaativat laajaa pääsyä henkilötietoja sisältäviin loki- ja käyttäytymisai-

neistoihin, mikä korostaa sääntelyn noudattamisen tärkeyttä. IDS-toteutuksissa henkilö-

tietojen tallentamista on vältettävä, jotta datan käyttö pysyy eettisenä. Tämä voidaan 

toteuttaa anonymisoimalla data ennen käyttöä (Ahmed ja muut, 2025). 

 
5.2 Vinoumat ja oikeudenmukaisuus 

Ahmed ja muut (2025) nostavat keskeisenä huolenaiheena koulutusdatasta perityt vi-

noumat. AI/ML-mallien tehokkuus perustuu käytössä olevaan koulutusdata, jos tämä ai-

neisto sisältää vinoutunutta dataa, mallit perivät ja voivat vahvistaa koulutusdatan vi-

noumia. Kyberturvallisuudessa tämä voi johtaa joidenkin ryhmien suhteettomaan val-

vontaan tai harvinaisten uhkien alivalvontaan (Mohamed, 2025). Vinoumien pienentä-

minen edellyttää edustavia aineistoja, vinoumien mittaamista ja korjausmenetelmiä 

sekä ihmisen osallistamista päätöksiin, jotta kriittiset toimet vahvistetaan ennen toteu-

tusta. Eettinen kustannus näkyy myös mittareissa: korkea FPR aiheuttaa hälytysväsy-

mystä, kun taas FNR kasvattaa riskiä, joten kynnysarvot on kalibroitava riskiperusteisesti 

(Mohamed, 2025). 

  
30 

 
5.3 Selitettävyys ja vastuu 

Syväoppimiseen perustuvat IDS-ratkaisut tarvitsevat selitettävyyttä (Explainable AI, XAI), 

jotta turvallisuustiimit ymmärtävät, miksi tapahtuma luokiteltiin uhaksi. (Mohamed, 

2025.) Usein AI- ja etenkin ML-mallit toimivat mustan laatikon periaatteella, eli malli ei 

perustele ihmiselle miksi se on päätynyt kyseiseen ratkaisuun. Mohamedin (2025) mu-

kaan XAI-malleille on kasvava kysyntä. Käytännössä tämä tarkoittaa päätöksen peruste-

levia malleja, sekä dokumentoituja perusteluja ja jäljitettävyyttä. Näiden ongelmien rat-

kaisemiseksi on kehitetty esimerkiksi LIME (Local interpretable Model-agnostic Expla-

nations) ja SHAP (SHapley Additive, exPlanations) (Ahmed ja muut, 2025). LIME luo yk-

sittäisille ennusteille perusteluita approksimoimalla mallin tekemiä päätöksiä mustan 

laatikon ympäristössä. SHARP perustelee ennusteita peliteoriaa (game theory) hyödyn-

täen. 

 
31 

6 Johtopäätökset 

Tässä tutkielmassa vertailtiin AI/ML-pohjaisia poikkeamien havaitsemismalleja pilvi- ja 

tietokantaympäristössä. Tutkimuksen pääasiallisena tutkimuskysymyksenä oli ”Kuinka 

tekoälypohjaiset poikkeamien havaitsemismallit voivat edistää tietoturvaa pilvi- ja tieto-

kantaympäristöissä?” Lisäksi avustavina tutkimuskysymyksinä oli ”Mitä eroja tunnistet-

tujen mallien välillä on tehokkuuden, tarkkuuden ja soveltuvuuden näkökulmasta pilvi- 

ja tietokantojen tietoturvaympäristössä?” ja ”Mitä käytännön haasteita ja vaatimuksia 

liittyy tekoälypohjaisten poikkeamien havaitsemismallien käyttöönottoon pilvi- ja tieto-

kantaympäristössä?” 

 
 AI/ML-pohjaiset poikkeamien havaitsemismenetelmät tarjoavat käytännön hyötyä eri-

tyisesti tilanteissa, joissa hyökkäys ei vastaa tunnettuja allekirjoituksia. Ne parantavat 

havaitsemisherkkyyttä ja lyhentävät reagointiaikaa pilviympäristöissä, joissa kuormat ja 

liikennemallit vaihtelevat nopeasti. Paras tasapaino herkkyyden ja väärien hälytysten vä-

lillä saavutetaan hybridiratkaisuilla: ohjaamaton anomaliantunnistus karsii poikkeamat 

ja valvottu tai DL-malli tarkentaa päätöksen; useissa pilvipainotteisten katsauksissa hyb-

ridien todettiin parantavan sekä tarkkuutta että FP-osuutta (Abdallah, 2024). 

 
Tietokantaympäristöjen anomaliantunnistusta koskeva vertaisarvioitu näyttö on selvästi 

niukempaa kuin verkko-IDS-tutkimuksessa. Avoimien, realististen kyselylokienvähyys ja 

niiden yksityisyysrajoitteet heikentävät tulosten vertailtavuutta ja siirrettävyyttä. Siksi ra-

portointi tulisi sitoa ympäristö- ja datakontekstiin, käyttää ajallisesti realistisia jakoja ja 

ristiintestausta sekä täydentää arviointia syntetisoiduilla tai anonymisoiduilla lokeilla. 

  
Käyttöönoton kannalta pelkkä tarkkuus ei riitä, vaan arviointi on sidottava operatiivisiin 

mittareihin: FP, FN, läpivirtaus, latenssi, inferenssiaika ja resurssikuorma ratkaisevat, to-

teutuuko oikea havainto ajallaan ja kohtuullisella kustannuksella. 

 
Mittariston on katettava FPR, FNR, AUC, F1 sekä muutokset ajan yli; tämä on vakiintunut 

lähtökohta IDS-tutkimuksessa. Tulosten siirrettävyyttä rajoittavat datalähteet: KDD/NSL-


32 

KDD ovat ajallisesti ja rakenteellisesti vanhentuneita, kun taas CICIDS2017 ja CSE-CIC-

IDS2018 laajentavat hyökkäyskirjoa, mutta eivät vielä kuvaa kaikkia pilvikuormia tai hy-

vänlaatuisen käyttäytymisen vaihtelua. Tästä syystä ristiintestaus, aikajärjestystä säilyt-

tävät jaot ja konseptiajautumisen valvonta ovat suositeltavia. Syväoppiminen voi nostaa 

peittoa ja tarkkuutta, mutta kasvattaa laskentakuormaa ja on siksi punnittava viive- ja 

skaalautuvuusvaatimuksia vasten; pilvessä korostuu lisäksi tarve skaalautuville ja yksityi-

syystietoisille ratkaisuille. 

 
Jatkotutkimus tulisi kohdentaa mallien siirrettävyyteen ja ajallisten muutosten hallintaan 

pilvi- ja tietokantaympäristöissä. Erityistä huomiota tulee kiinnittää kyselyprofiilien ja 

käyttöoikeuskuvioiden muuntumiseen skaalautuvissa ja monivuokratuissa järjestelmissä. 

Tarvitaan evaluointipenkkejä, jotka huomioivat luokkien epätasapainon ja mahdollista-

vat vertailun sekä vakiintuneisiin IDS-aineistoihin, että organisaatiokohtaisiin tietokanta-

lokeihin; arvioinnin tulee kattaa myös salattu liikenne ja tiukat tietosuojavaatimukset. 

 
33 

Lähteet 

Abdallah, A. M., Alkaabi, A. S. R. O., Alameri, G. B. N. D., Rafique, S. H., Musa, N. S., & 

Murugan, T. (2024). Cloud Network Anomaly Detection Using Machine and Deep 

Learning Techniques—Recent Research Advancements. IEEE Access, 12, 56749-

56773. https://doi.org/10.1109/ACCESS.2024.3390844 

Ahmed, U., Nazir, M., Sarwar, A., Ali, T., Aggoune, E.-H. M., Shahzad, T., & Khan, M. A. 

(2025). Signature-based intrusion detection using machine learning and deep 

learning approaches empowered with fuzzy clustering. Scientific Reports, 15(1), 

1726. https://doi.org/10.1038/s41598-025-85866-7 

Ahmetoglu, H., & Das, R. (2022). A comprehensive review on detection of cyber-attacks: 

Data sets, methods, challenges, and future research directions. Internet of Things, 

20, 100615. https://doi.org/10.1016/j.iot.2022.100615 

Aksela, M., Marchal, S., Patel, A., & Rosenstedt, L. (2022). Tekoälyn mahdollistamat ky-

berhyökkäykset. Liikenne- ja viestintävirasto Traficom. Noudettu 12. toukokuuta 

2025 osoitteesta https://www.kyberturvallisuuskeskus.fi/fi/julkaisut/tekoalyn-

mahdollistamat-kyberhyokkaykset 

Dong, H., & Kotenko, I. (2025). Cybersecurity in the AI era: Analyzing the impact of ma-

chine learning on intrusion detection. Knowledge and Information Systems, 67(5), 

3915-3966. https://doi.org/10.1007/s10115-025-02366-w 

Halbouni, A., Gunawan, T. S., Habaebi, M. H., Halbouni, M., Kartiwi, M., & Ahmad, R. 

(2022). Machine Learning and Deep Learning Approaches for CyberSecurity: A Re-

view. IEEE Access, 10, 19572-19585. https://doi.org/10.1109/AC-

CESS.2022.3151248 

Marchal, S., & Nawrotek, B. (2024). Tekoälypohjaiset kyberturvallisuusratkaisut.  Lii-

kenne- ja viestintävirasto Traficom & WithSecure. Tekoälypohjaiset kyberturvalli-

suusratkaisut. Noudettu 12. toukokuuta 2025, osoitteesta 

https://doi.org/10.1109/ACCESS.2024.3390844
https://doi.org/10.1038/s41598-025-85866-7
https://doi.org/10.1016/j.iot.2022.100615
https://www.kyberturvallisuuskeskus.fi/fi/julkaisut/tekoalyn-mahdollistamat-kyberhyokkaykset
https://www.kyberturvallisuuskeskus.fi/fi/julkaisut/tekoalyn-mahdollistamat-kyberhyokkaykset
https://doi.org/10.1007/s10115-025-02366-w
https://doi.org/10.1109/ACCESS.2022.3151248
https://doi.org/10.1109/ACCESS.2022.3151248


34 

https://www.kyberturvallisuuskeskus.fi/sites/default/files/me-

dia/file/Teko%C3%A4lypohjaiset%20kyberturvallisuusratkaisut_FI.pdf 

Mohamed, N. (2025). Artificial intelligence and machine learning in cybersecurity: A deep 

dive into state-of-the-art techniques and future paradigms. Knowledge and Infor-

mation Systems, 67(8), 6969-7055. https://doi.org/10.1007/s10115-025-02429-

y 

Nassif, A. B., Talib, M. A., Nasir, Q., Albadani, H., & Dakalbab, F. M. (2021). Machine Learn-

ing for Cloud Security: A Systematic Review. IEEE Access, 9, 20717-20735. 

https://doi.org/10.1109/ACCESS.2021.3054129 

Nasteski, V. (2017). An overview of the supervised machine learning methods. HORI-

ZONS.B, 4, 51-62. https://doi.org/10.20544/horizons.b.04.1.17.p05 

Sarker, I. H., Furhad, M. H., & Nowrozy, R. (2021). AI-Driven Cybersecurity: An Overview, 

Security Intelligence Modeling and Research Directions. SN Computer Science, 

2(3), 173. https://doi.org/10.1007/s42979-021-00557-0 

Zhengbing, H., Gnatyuk, S., Koval, O., Gnatyuk, V., & Bondarovets, S. (2017). Anomaly 

Detection System in Secure Cloud Computing Environment. International Journal 

of Computer Network and Information Security, 9(4), 10-21. 

 https://doi.org/10.5815/ijcnis.2017.04.02 

Solin, A. (2022). Tekoälyratkaisut tänään ja tulevaisuudessa. s. 69–73. Noudettu 24. hei-

näkuuta 2025, osoitteesta https://www.eduskunta.fi/FI/valiokunnat/tulevai-

suusvaliokunta/julkaisut/Sivut/tekoalyratkaisut-tanaan-ja-tulevaisuudessa.aspx 

IBM. (2021, 22. syyskuuta). What Is Machine Learning? Noudettu 24. heinäkuuta 2025, 

osoitteesta https://www.ibm.com/think/topics/machine-learning 

https://www.kyberturvallisuuskeskus.fi/sites/default/files/media/file/Teko%C3%A4lypohjaiset%20kyberturvallisuusratkaisut_FI.pdf
https://www.kyberturvallisuuskeskus.fi/sites/default/files/media/file/Teko%C3%A4lypohjaiset%20kyberturvallisuusratkaisut_FI.pdf
https://doi.org/10.1007/s10115-025-02429-y
https://doi.org/10.1007/s10115-025-02429-y
https://doi.org/10.1109/ACCESS.2021.3054129
https://doi.org/10.20544/horizons.b.04.1.17.p05
https://doi.org/10.1007/s42979-021-00557-0
https://doi.org/10.5815/ijcnis.2017.04.02
https://www.eduskunta.fi/FI/valiokunnat/tulevaisuusvaliokunta/julkaisut/Sivut/tekoalyratkaisut-tanaan-ja-tulevaisuudessa.aspx
https://www.eduskunta.fi/FI/valiokunnat/tulevaisuusvaliokunta/julkaisut/Sivut/tekoalyratkaisut-tanaan-ja-tulevaisuudessa.aspx
https://www.ibm.com/think/topics/machine-learning

	1 Johdanto
	1.1 Tutkimuskysymykset sekä tavoitteet
	1.2 Menetelmät ja rakenne

	2 Pilvipalveluiden tietoturvaympäristö ja turvauhkat
	2.1 Pilvipalveluiden palvelumallit
	2.1.1 Ohjelmisto palveluna
	2.1.2 Alusta palveluna
	2.1.3 Infrastruktuuri palveluna

	2.2 Uhkamallit pilvi- ja tietokantaympäristöissä
	2.3 Poikkeamien havaitsemisen rooli tietoturvassa

	3 Tekoälypohjaiset poikkeamien havaitsemismallit
	3.1 Perinteiset poikkeamien tunnistusmenetelmät
	3.2 Koneoppimismenetelmät
	3.2.1 Ohjattu oppiminen
	3.2.2 Ohjaamaton oppiminen
	3.2.3 Vahvistusoppiminen
	3.2.4 Syväoppiminen ja neuroverkot

	3.3 Ennustavat mallit
	3.4 UEBA ja Hybridimallit

	4 Mallien arviointi ja soveltuvuus
	4.1 Arviointikehikko ja mittarit
	4.2 Käyttötilanneprofiilit pilvessä ja tietokannoissa
	4.3 Menetelmien soveltuvuus käyttötilanneprofiileihin
	4.4 Aineistot ja siirrettävyys
	4.5 Käyttöönoton reunaehdot

	5 Eettiset ja lainsäädännölliset näkökulmat
	5.1 Yksityisyys ja tietosuoja
	5.2 Vinoumat ja oikeudenmukaisuus
	5.3 Selitettävyys ja vastuu

	6 Johtopäätökset
	Lähteet