Machine Learning for Predicting Production Lead Times using ERP Data
Pysyvä osoite
Kuvaus
Opinnäytetyö kokotekstinä PDF-muodossa.
Accurate prediction of production lead times is a critical challenge for manufacturing companies,
as it directly impacts delivery reliability, resource management, and customer satisfaction. Tra-
ditional forecasting methods may fail to incorporate the complex product characteristics that
influence production duration. Machine learning can provide new opportunities to analyze large
amounts of data and capture nonlinear relationships that can help with better prediction accu-
racy.
This study investigates whether machine learning models can effectively predict production lead
times using historical data from ERP system, with a focus on understanding both the accuracy
of such models and the factors that affect most predictions. Three explainable tree-based en-
semble algorithms: Random Forest, XGBoost, and LightGBM are evaluated, and SHAP (Shapley
Additive exPlanations) is used to interpret model outputs and identify which product specific
features have the strongest influence on production lead time.
The research follows a Design Science Research methodology and is conducted in collaboration
with an electric motor manufacturing company. Historical production data from 2019 to 2024,
comprising approximately 200,000 production orders, including product specifications and real-
ized lead times, is used to train and validate the machine learning models using time-series
cross-validation and hold-out. Products are grouped into manufacturing-relevant categories,
and model performance is assessed using R-squared, Mean Absolute Error (MAE) and Root
Mean Square Error (RMSE). SHAP analyses help interpret the predictions of the models.
Results indicate that machine learning can provide substantially more accurate production lead
time estimates than traditional planning practices. The findings reveal which algorithm performs
the best and highlight the product characteristics that most significantly affect production dura-
tion. The study contributes to both practice and theory by developing a validated construction
that integrates explainable machine learning into production planning and increasing under-
standing of interpretable AI approaches in a manufacturing context, while acknowledging that
findings are specific to the case company and may not generalize to other manufacturing con-
texts.
Tuotannon läpimenoaikojen tarkka ennustaminen on valmistusyrityksille keskeinen haaste, sillä
se vaikuttaa suoraan toimitusvarmuuteen, resurssien hallintaan ja asiakastyytyväisyyteen. Pe-
rinteiset ennustusmenetelmät eivät välttämättä kykene huomioimaan kaikkia tuotannon kes-
toon vaikuttavia tekijöitä. Koneoppiminen voi tarjota uusia mahdollisuuksia analysoida suuria
datamääriä ja tunnistaa epälineaarisia suhteita, jotka voivat auttaa parantamaan ennusteiden
tarkkuutta.
Tässä tutkimuksessa selvitetään, voivatko koneoppimismallit ennustaa tuotannon läpimeno-
aikoja tehokkaasti ERP-järjestelmästä saadun historiallisen datan avulla. Tutkimuksessa keskity-
tään ymmärtämään, sekä mallien tarkkuutta, että ennusteisiin eniten vaikuttavia tekijöitä. Tut-
kimuksessa arvioidaan kolmea selitettävää puupohjaista koostealgoritmia: Random Forest,
XGBoost ja LightGBM. SHAP-menetelmää (Shapley Additive exPlanations) käytetään tulkitse-
maan mallien tuloksia ja tunnistamaan, mitkä tuotekohtaiset ominaisuudet vaikuttavat voimak-
kaimmin tuotannon läpimenoaikaan.
Tutkimus noudattaa suunnittelutieteellistä tutkimusotetta ja on toteutettu yhteistyössä sähkö-
moottoreita valmistavan yrityksen kanssa. Koneoppimismallien opettamiseen ja validointiin
käytetään historiallista tuotantodataa vuosilta 2019–2024. Aineisto koostuu noin 200 000 tuo-
tantotilauksesta, sisältäen tuotespesifikaatiot sekä toteutuneet läpimenoajat. Validointimene-
telminä hyödynnetään aikasarjojen ristiin validointia sekä hold-out menetelmää. Tuotteet on
ryhmitelty valmistuksen kannalta olennaisiin kategorioihin ja mallien suorituskykyä arvioidaan
selitysasteen (R2), keskimääräisen absoluuttisen virheen (MAE) sekä neliöllisen keskihavainnoin
(RMSE) avulla. SHAP-analyysit auttavat tulkitsemaan mallien antamia ennusteita.
Tulokset osoittavat, että koneoppiminen voi tarjota huomattavasti tarkempia tuotannon läpi-
menoaikojen arvioita kuin perinteiset suunnittelukäytännöt. Löydökset paljastavat parhaiten
suoriutuvan algoritmin ja korostavat niitä tuoteominaisuuksia, jotka vaikuttavat merkittävimmin
tuotannon kestoon. Tutkimus edistää sekä käytäntöä että teoriaa kehittämällä validoidun raken-
teen, joka integroi selitettävän koneoppimisen osaksi tuotannonsuunnittelua, sekä lisää ymmär-
rystä tulkittavan tekoälyn lähestymistavoista tuotantoympäristössä, huomioiden samalla, että
tulokset ovat yrityskohtaisia eivätkä välttämättä ole yleistettävissä muihin tuotantoympäristöi-
hin.
