Machine Learning for Predicting Production Lead Times using ERP Data

Talonpoika, Tuomas

Machine Learning for Predicting Production Lead Times using ERP Data

Talonpoika, Tuomas

2026-05-19

Pro gradu -tutkielma

Tietojärjestelmätiede

Uwasa_2026_Talonpoika_Tuomas.pdf

2.74 MB

cc by 4.0

Lataukset35

Pysyvä osoite

https://urn.fi/URN:NBN:fi-fe2026051949748

Kuvaus

Opinnäytetyö kokotekstinä PDF-muodossa.

Accurate prediction of production lead times is a critical challenge for manufacturing companies, as it directly impacts delivery reliability, resource management, and customer satisfaction. Tra- ditional forecasting methods may fail to incorporate the complex product characteristics that influence production duration. Machine learning can provide new opportunities to analyze large amounts of data and capture nonlinear relationships that can help with better prediction accu- racy. This study investigates whether machine learning models can effectively predict production lead times using historical data from ERP system, with a focus on understanding both the accuracy of such models and the factors that affect most predictions. Three explainable tree-based en- semble algorithms: Random Forest, XGBoost, and LightGBM are evaluated, and SHAP (Shapley Additive exPlanations) is used to interpret model outputs and identify which product specific features have the strongest influence on production lead time. The research follows a Design Science Research methodology and is conducted in collaboration with an electric motor manufacturing company. Historical production data from 2019 to 2024, comprising approximately 200,000 production orders, including product specifications and real- ized lead times, is used to train and validate the machine learning models using time-series cross-validation and hold-out. Products are grouped into manufacturing-relevant categories, and model performance is assessed using R-squared, Mean Absolute Error (MAE) and Root Mean Square Error (RMSE). SHAP analyses help interpret the predictions of the models. Results indicate that machine learning can provide substantially more accurate production lead time estimates than traditional planning practices. The findings reveal which algorithm performs the best and highlight the product characteristics that most significantly affect production dura- tion. The study contributes to both practice and theory by developing a validated construction that integrates explainable machine learning into production planning and increasing under- standing of interpretable AI approaches in a manufacturing context, while acknowledging that findings are specific to the case company and may not generalize to other manufacturing con- texts.

Tuotannon läpimenoaikojen tarkka ennustaminen on valmistusyrityksille keskeinen haaste, sillä se vaikuttaa suoraan toimitusvarmuuteen, resurssien hallintaan ja asiakastyytyväisyyteen. Pe- rinteiset ennustusmenetelmät eivät välttämättä kykene huomioimaan kaikkia tuotannon kes- toon vaikuttavia tekijöitä. Koneoppiminen voi tarjota uusia mahdollisuuksia analysoida suuria datamääriä ja tunnistaa epälineaarisia suhteita, jotka voivat auttaa parantamaan ennusteiden tarkkuutta. Tässä tutkimuksessa selvitetään, voivatko koneoppimismallit ennustaa tuotannon läpimeno- aikoja tehokkaasti ERP-järjestelmästä saadun historiallisen datan avulla. Tutkimuksessa keskity- tään ymmärtämään, sekä mallien tarkkuutta, että ennusteisiin eniten vaikuttavia tekijöitä. Tut- kimuksessa arvioidaan kolmea selitettävää puupohjaista koostealgoritmia: Random Forest, XGBoost ja LightGBM. SHAP-menetelmää (Shapley Additive exPlanations) käytetään tulkitse- maan mallien tuloksia ja tunnistamaan, mitkä tuotekohtaiset ominaisuudet vaikuttavat voimak- kaimmin tuotannon läpimenoaikaan. Tutkimus noudattaa suunnittelutieteellistä tutkimusotetta ja on toteutettu yhteistyössä sähkö- moottoreita valmistavan yrityksen kanssa. Koneoppimismallien opettamiseen ja validointiin käytetään historiallista tuotantodataa vuosilta 2019–2024. Aineisto koostuu noin 200 000 tuo- tantotilauksesta, sisältäen tuotespesifikaatiot sekä toteutuneet läpimenoajat. Validointimene- telminä hyödynnetään aikasarjojen ristiin validointia sekä hold-out menetelmää. Tuotteet on ryhmitelty valmistuksen kannalta olennaisiin kategorioihin ja mallien suorituskykyä arvioidaan selitysasteen (R2), keskimääräisen absoluuttisen virheen (MAE) sekä neliöllisen keskihavainnoin (RMSE) avulla. SHAP-analyysit auttavat tulkitsemaan mallien antamia ennusteita. Tulokset osoittavat, että koneoppiminen voi tarjota huomattavasti tarkempia tuotannon läpi- menoaikojen arvioita kuin perinteiset suunnittelukäytännöt. Löydökset paljastavat parhaiten suoriutuvan algoritmin ja korostavat niitä tuoteominaisuuksia, jotka vaikuttavat merkittävimmin tuotannon kestoon. Tutkimus edistää sekä käytäntöä että teoriaa kehittämällä validoidun raken- teen, joka integroi selitettävän koneoppimisen osaksi tuotannonsuunnittelua, sekä lisää ymmär- rystä tulkittavan tekoälyn lähestymistavoista tuotantoympäristössä, huomioiden samalla, että tulokset ovat yrityskohtaisia eivätkä välttämättä ole yleistettävissä muihin tuotantoympäristöi- hin.

machine learning forecasts production planning production production control artificial intelligence data mining

Tietueen kaikki tiedot

Machine Learning for Predicting Production Lead Times using ERP Data

Toimittaja(t)

Pysyvä osoite

Kuvaus

URI

DOI

Emojulkaisu

ISBN

ISSN

Aihealue

OKM-julkaisutyyppi

Machine Learning for Predicting Production Lead Times using ERP Data

Toimittaja(t)

Pysyvä osoite

Kuvaus

URI

DOI

Emojulkaisu

ISBN

ISSN

Aihealue

OKM-julkaisutyyppi

Avainsanat