Konkurssin ennakointi k:n lähimmän naapurin menetelmällä
Kettula, Jussi (2019)
Kuvaus
Opinnäytetyö kokotekstinä PDF-muodossa.
Tiivistelmä
Konkurssin ennakointia käsitteleviä kansainvälisiä tutkimuksia on tehty aina 1960-luvulta saakka ja Suomessakin tutkimusta aihepiiriin liittyen on tehty runsaasti. Tutkimuksellisesti aihe on ollut runsaan kiinnostuksen kohteena, koska konkurssin aiheuttamat taloudelliset ja sosiaaliset tappiot ovat niin yrityksen omistajille, kuin sidosryhmillekin suuria. Aihealuetta käsittelevässä tutkimuksessa on havaittu jo varhain, että konkurssin todennäköisyyttä voidaan ennakoida erilaisten kannattavuuden, maksuvalmiuden ja vakavaraisuuden tunnuslukujen avulla yrityksen tilinpäätöstiedoista. Konkurssin ennakointiin on käytetty perinteisesti esimerkiksi lineaarista erotteluanalyysiä ja logistista regressiota. Tietotekninen kehitys ja tietokoneiden laskentatehossa tapahtunut kasvu on lisännyt erilaisten koneoppimisen algoritmien yleisyyttä konkurssin ennakoinnissa ja eri menetelmiä käsitteleviä tutkimuksia on julkaistu viime aikoina runsaasti.
K:n lähimmän naapurin menetelmä on luokittelualgoritmi, joka on kehitetty jo Coverin ja Hartin (1967) tekemässä tutkimuksessa 60-luvun loppupuolella. Menetelmää on hyödynnetty lukuisissa eri käyttökohteissa laskentatoimeen ja rahoitukseen liittyen. Vaikka menetelmä on hyvin tunnettu, ei sitä ole kansainvälisesti hyödynnetty kuin noin reilussa kymmenessä konkurssin ennakointitutkimuksessa. Suomalaisia tutkimuksia on tiettävästi vain yksi (Kiviluoto 1998). K:n lähimmän naapurin menetelmällä on tiettyjä vahvuuksia muihin koneoppimisen algoritmeihin verrattuna, kuten algoritmin intuitiivisuus, laskennallinen keveys ja yksinkertaisuus. Aikaisemman tutkimuksen suhteellisesti vähäinen määrä ja kattavan suomalaisen tutkimuksen puute kannustaa aihealueen ja menetelmän syvempään kartoittamiseen ja suorituskyvyn tutkimiseen.
Tässä tutkimuksessa koostettiin konkurssiyritysaineisto vuonna 2017 konkurssiin menneistä yrityksistä kolmen konkurssihetkeä edeltävän vuoden tilinpäätöstunnusluvuista. Lopullinen konkurssiyritysten määrä aineistossa oli 86 yritystä. Konkurssiyrityksille etsittiin vastinparimenettelyllä niitä rakenteellisesti vastaavat terveet yritykset (Beaver 1966). Terveiden yritysten avulla koostettiin kaksi otossuhteiltaan erilaista aineistoa, joissa konkurssiyritysten määrä oli vakio, mutta terveitä yrityksiä oli ensimmäisessä aineistossa 86 yritystä ja toisessa 744 yritystä. Aineiston otossuhteet vastasivat suhteessa 50/50 % ja 10/90%. Tutkimuksessa verrattiin k:n lähimmän naapurin menetelmän luokittelutarkkuutta ja siihen vaikuttavia tekijöitä logistiseen regressioon, joka on perinteisesti ollut käytetty menetelmä konkurssin ennakoinnissa.
Tutkimuksen tulosten perusteella havaittiin logistisen regression olevan luokittelutarkkuudeltaan k:n lähimmän naapurin menetelmää tarkempi ja erot olivat sitä selvempiä, mitä lähempänä konkurssihetkeä ennustus tehtiin. Menetelmien erot eivät kuitenkaan olleet tilastollisesti merkitseviä. Aineiston rakenteella ja otossuhteilla havaittiin olevan tilastollisesti merkitsevä vaikutus kummankin menetelmän luokittelutarkkuuteen. K:n lähimmän naapurin menetelmän osalta havaittiin lisäksi, että lähimpien naapureiden lukumäärällä ei ollut selkeää tilastollisesti merkitsevää vaikutusta luokittelutarkkuuteen, eikä myöskään selittävien muuttujien keskinäinen painotus lisännyt merkitsevällä tasolla mallien luokittelutarkkuutta.
K:n lähimmän naapurin menetelmä on luokittelualgoritmi, joka on kehitetty jo Coverin ja Hartin (1967) tekemässä tutkimuksessa 60-luvun loppupuolella. Menetelmää on hyödynnetty lukuisissa eri käyttökohteissa laskentatoimeen ja rahoitukseen liittyen. Vaikka menetelmä on hyvin tunnettu, ei sitä ole kansainvälisesti hyödynnetty kuin noin reilussa kymmenessä konkurssin ennakointitutkimuksessa. Suomalaisia tutkimuksia on tiettävästi vain yksi (Kiviluoto 1998). K:n lähimmän naapurin menetelmällä on tiettyjä vahvuuksia muihin koneoppimisen algoritmeihin verrattuna, kuten algoritmin intuitiivisuus, laskennallinen keveys ja yksinkertaisuus. Aikaisemman tutkimuksen suhteellisesti vähäinen määrä ja kattavan suomalaisen tutkimuksen puute kannustaa aihealueen ja menetelmän syvempään kartoittamiseen ja suorituskyvyn tutkimiseen.
Tässä tutkimuksessa koostettiin konkurssiyritysaineisto vuonna 2017 konkurssiin menneistä yrityksistä kolmen konkurssihetkeä edeltävän vuoden tilinpäätöstunnusluvuista. Lopullinen konkurssiyritysten määrä aineistossa oli 86 yritystä. Konkurssiyrityksille etsittiin vastinparimenettelyllä niitä rakenteellisesti vastaavat terveet yritykset (Beaver 1966). Terveiden yritysten avulla koostettiin kaksi otossuhteiltaan erilaista aineistoa, joissa konkurssiyritysten määrä oli vakio, mutta terveitä yrityksiä oli ensimmäisessä aineistossa 86 yritystä ja toisessa 744 yritystä. Aineiston otossuhteet vastasivat suhteessa 50/50 % ja 10/90%. Tutkimuksessa verrattiin k:n lähimmän naapurin menetelmän luokittelutarkkuutta ja siihen vaikuttavia tekijöitä logistiseen regressioon, joka on perinteisesti ollut käytetty menetelmä konkurssin ennakoinnissa.
Tutkimuksen tulosten perusteella havaittiin logistisen regression olevan luokittelutarkkuudeltaan k:n lähimmän naapurin menetelmää tarkempi ja erot olivat sitä selvempiä, mitä lähempänä konkurssihetkeä ennustus tehtiin. Menetelmien erot eivät kuitenkaan olleet tilastollisesti merkitseviä. Aineiston rakenteella ja otossuhteilla havaittiin olevan tilastollisesti merkitsevä vaikutus kummankin menetelmän luokittelutarkkuuteen. K:n lähimmän naapurin menetelmän osalta havaittiin lisäksi, että lähimpien naapureiden lukumäärällä ei ollut selkeää tilastollisesti merkitsevää vaikutusta luokittelutarkkuuteen, eikä myöskään selittävien muuttujien keskinäinen painotus lisännyt merkitsevällä tasolla mallien luokittelutarkkuutta.