Master datan eheyttäminen ja rikastaminen tekoälytyökalujen avulla
Pysyvä osoite
Kuvaus
Opinnäytetyö kokotekstinä PDF-muodossa.
Teollisuusyritysten master data eli perustiedot ovat tärkeä osa yritysten toimintaa. Ne muodostavat perustan hankinnalle, myynnille sekä materiaalien ja tuoterakenteiden hallinnalle. Tämän takia master datan laatu on kriittinen tekijä prosessien sujumisessa ja onnistumisessa. Master datan heikko laatu vaikuttaa negatiivisesti prosessien tehokkuuteen, lisää virheiden riskiä ja manuaalisen työn määrää sekä rajoittaa mahdollisuutta prosessien automaatiolle. Tässä diplomityössä tarkastellaan projektia, jossa kehitetään tekoälypohjaista master datan hallinta- ja rikastustyökalua. Tutkimuksen kohdeyritys on Arnon Oy ja projekti toteutetaan osana yrityksessä käynnistettyä tekoälyhanketta.
Tutkimuksen tavoitteena oli analysoida, miten tekoälyä voidaan hyödyntää master datan eheyttämisessä, rikastamisessa ja hallinnassa. Lisäksi tavoitteena oli tunnistaa dataan, tekniseen toteutukseen ja organisaatioon liittyviä tekijöitä, jotka vaikuttavat tekoälypohjaisen työkalun onnistuneeseen käyttöönottoon. Tutkimus pohjautuu Design Science Research -lähestymistapaan, jossa projektia verrataan teknisen artefaktin kehitykseen. Työn empiirinen aineisto koostui nykytila-analyysista ja käyttäjäkyselystä. Nykytila-analyysissä master datalle tehtiin kokonaisvaltainen data-analyysi, jossa tutkittiin master datan laatua kuuden ulottuvuuden pohjalta. Kyselytutkimus suunnattiin master datan käyttäjille, joiden työhön kehitettävä työkalu vaikuttaa. Lisäksi työssä suunniteltiin ja analysoitiin tekoälytyökalun arkkitehtuuria, joka perustui Azure AI Foundryssa kehitettyyn Retrieval-Augmented Generation (RAG) malliin.
Tutkimuksen tulokset osoittivat, että kohdeyrityksen master data on rakenteeltaan kattava, mutta laadullisesti puutteellinen ja epätasainen. Keskeisimmät ongelmat master datassa olivat puutteelliset attribuutit, epäyhtenäiset nimeämiskäytännöt ja duplikaattinimikkeet. Nämä master datan laadulliset ongelmat heikentävät sekä datan käytettävyyttä että tekoälytyökalun toimintaa. Kyselytutkimuksen vastausten perusteella nykyiset manuaaliset prosessit koetaan työläiksi ja tekoälyavusteiseen datan eheyttämiseen, rikastamiseen ja hallintaan suhtaudutaan myönteisesti. Käyttäjät korostivat kuitenkin ihmisen tekemää lopullista tarkastusta, käyttäjän kontrollia, lähteiden käytön läpinäkyvyyttä ja vaiheittaisen käyttöönoton merkitystä.
Projektissa kehitetyllä tekoälytyökalulla datan eheytys toimii siten, että työkalu pystyy tunnistamaan duplikaatteja, epäyhtenäisiä nimeämisiä ja puutteellisia attribuutteja. Tämän jälkeen työkalu muodostaa korjausehdotuksia havaituista ongelmista ja antaa ne loppukäyttäjän tarkistettavaksi. Datan rikastamisessa työkalu tunnistaa puuttuvia tietoja ja hakee niitä ennalta määritellyistä lähteistä. Haettujen tietojen perusteella muodostetaan rikastusehdotus, jonka loppukäyttäjä voi tarkistaa ja hyväksyä. Master datan hallinta toimii siten, että käyttäjä voi kysyä työkalua listaamaan tai etsimään nimikkeitä tiettyjen attribuuttien perusteella, joita ovat esimerkiksi mitat, kategoria tai materiaali.
Tutkimuksen perusteella tekoälypohjainen rikastustyökalu on toteuttamiskelpoinen kohdeyrityksessä, mutta vaatii vielä mallin kehitystä sekä master datan laadun korjausta. Projektissa kehitetty työkalu ei kyennyt riittävään tarkkuuteen viimeisessä kontrollissa, joten nykytilanteessa sitä ei voida ottaa tuotantokäyttöön. Työkalun jatkokehitys on merkittävä potentiaalinen kehityssuunta, mutta se vaatii samanaikaista master datan harmonisointia sekä panostusta tekniseen arkkitehtuuriin ja käyttäjälähtöiseen käyttöönottoon. Tämä työ tarjoaa käytännön suunnitelman tekoälytyökalun jatkokehitykselle ja tuottaa käytännönläheistä tietoa tekoälyn hyödyntämisestä master datan hallinnassa teollisuusyrityksen kontekstissa.
Master data in industrial companies is an important part of business operations. It forms the foundation for procurement, sales, and the management of materials and product structures. For this reason, the quality of master data is a critical factor in the smooth operation and success of processes. Poor master data quality negatively affects process efficiency, increases the risk of errors and the amount of manual work, and limits the possibilities for process automation. This master’s thesis examines a project in which an AI-based master data management and enrichment tool is developed. The case company of the study is Arnon Oy, and the project is carried out as part of an AI initiative launched within the company.
The objective of the study was to analyze how artificial intelligence can be utilized in the validation, enrichment, and management of master data. In addition, the objective was to identify data-, technical implementation-, and organization-related factors that affect the successful implementation of an AI-based tool. The study is based on the Design Science Research approach, in which the project is compared to the development of a technical artifact. The empirical material of the study consisted of a current state analysis and a user survey. In the current state analysis, a comprehensive data analysis was conducted on master data, examining its quality based on six dimensions. The survey was directed at master data users whose work would be affected by the tool under development. In addition, the study designed and analyzed the architecture of the AI tool, which was based on a Retrieval-Augmented Generation (RAG) model developed in Azure AI Foundry.
The results of the study showed that the case company’s master data is structurally comprehensive, but qualitatively deficient and inconsistent. The most significant problems in the master data were incomplete attributes, inconsistent naming practices, and duplicate items. These master data quality issues weaken both data usability and the functionality of the AI tool. Based on the survey responses, current manual processes are perceived as laborious, and AI-assisted data validation, enrichment, and management are viewed positively. However, users emphasized the importance of final human review, user control, transparency in the use of sources, and phased implementation.
In the AI tool developed in the project, data validation works in such a way that the tool is able to identify duplicates, inconsistent naming, and incomplete attributes. After this, the tool generates correction suggestions for the identified issues and provides them for end-user review. In data enrichment, the tool identifies missing information and retrieves it from predefined sources. Based on the retrieved information, an enrichment suggestion is generated, which the end user can review and approve. Master data management works in such a way that the user can ask the tool to list or search for items based on specific attributes, such as dimensions, category, or material.
Based on the study, the AI-based enrichment tool is feasible for implementation in the case company, but still requires further model development as well as correction of master data quality. The tool developed in the project was not able to achieve sufficient accuracy in the final control, and therefore it cannot currently be deployed in production use. Further development of the tool is a significant potential direction for development, but it requires simultaneous master data harmonization as well as investment in technical architecture and user-centered implementation. This study provides a practical plan for the further development of the AI tool and produces practical knowledge on the utilization of artificial intelligence in master data management in the context of an industrial company.
