Demand forecasting in the retail environment : A comparative study of LightGBM, XGBoost, and MLP models
Pysyvä osoite
Kuvaus
Accurate demand forecasting is a critical operational factor in the retail environment, as organizational decision-making and management are increasingly dependent on it. Accurate forecasts enable strategic planning, inventory optimization, increased customer satisfaction, and reduction of surplus and waste. While advanced machine learning (ML) models are recognized for producing accurate forecasts, current literature often focuses on comparing algorithmic efficiency without sufficiently examining the contribution of external features to forecast accuracy.
This thesis aims to address this research gap by investigating how external variables, such as unemployment and inflation, influence the predictive accuracy of ML models and how feature selection affects their performance. The study conducts a comparative analysis of three algorithms: LightGBM, XGBoost, and Multilayer Perceptron (MLP). The models are tested and compared in relation to one another and benchmarked against a 52-week seasonal naïve forecast. The comparative analysis is based on comparing forecasts made with different feature sets, evaluating forecast accuracy using various error and performance metrics.
The empirical part of the research applies quantitative methods using simulated and anonymized time series data representing weekly sales figures from a U.S.-based retail chain operating in forty-five locations. The dataset covers approximately three years and includes seven original variables, consisting of macroeconomic, temporal, and store-specific features. Additional features were engineered to capture lagged and interaction effects within the data. The methodology involves data preprocessing, new feature engineering, a 65:35 train-test split, hyperparameter optimization, and evaluation using RMSE, MAE, MASE, and R2 metrics. Permutation feature importance is used to assess the contribution of different features.
The findings indicate that all machine learning models significantly outperformed the seasonal naïve baseline, demonstrating their capability to produce more accurate forecasts. Gradient boosting models achieved the best overall performance, with LightGBM outperforming XGBoost with a slight margin, while the MLP model provided the weakest performance and highest computational cost. Answering the research questions, the results confirm that feature selection has a decisive effect on model performance. Lag features representing short-term temporal dependencies were found to dominate feature importance scores across all models. The optimal lag length was identified as one week, while macroeconomic variables such as unemployment and inflation showed limited significance in short-term forecasts. MLP was the only model for which holiday-related features showed notable importance.
Tarkka kysynnän ennustaminen on katsottu olevan kriittinen operatiivinen tekijä vähittäiskaupassa, mistä organisaation päätöksenteko ja johtaminen ovat yhä enemmän riippuvaisia. Tarkat ennusteet mahdollistavat strategisen suunnittelun, varastojen optimoinnin, asiakastyytyväisyyden parantamisen sekä ylijäämän ja hävikin vähentämisen. Vaikka kehittyneet koneoppimismallit tunnetaan tarkkojen ennusteiden tuottamisesta, nykyisessä kirjallisuudessa keskitytään usein algoritmien tehokkuuden vertailuun ilman, että ulkoisten tekijöiden vaikutusta ennusteiden tarkkuuteen tarkastellaan riittävästi.
Tämän tutkielman tarkoitus on vastata aiemman tutkimuksen puutteellisuuteen selvittämällä, kuinka ulkoiset muuttujat, kuten työttömyys ja inflaatio, vaikuttavat ML-mallien ennustustarkkuuteen ja kuinka ominaisuuksien valinta vaikuttaa niiden suorituskykyyn. Tutkimuksessa on toteutettu vertaileva analyysi kolmesta algoritmista, jotka ovat LightGBM, XGBoost ja MLP. Analyysi perustuu eri ominaisuusjoukoilla tehtyjen ennusteiden vertailuun ja ennusteiden tarkkuuden arviointiin käyttämällä erilaisia virhe- ja suorituskykymittareita. Työn metodologiaan sisältyy datan esikäsittely, uusien dataominaisuuksien luonti, tietokannan jakaminen harjoitus- ja testidataan, hyperparametrien optimointi, sekä virhe- ja suorituskykymittareiden validointi.
Tutkimuksen empiirisessä osassa sovelletaan kvantitatiivisia menetelmiä käyttäen simuloitua ja anonymisoitua aikasarjadataa, joka koostuu yhdysvaltalaisen vähittäiskauppaketjun viikoittaisista myyntiluvuista, kerättynä 45 eri toimipisteestä. Aineisto kattaa noin kolmen vuoden ajanjakson ja sisältää kahdeksan alkuperäistä muuttujaa, jotka koostuvat makrotaloudellisista, ajallisista ja myymäläkohtaisista ominaisuuksista. Muuttujien vaikutusta ennustetarkkuuteen mitataan permutaatiomenetelmällä.
Tulokset osoittavat, että koneoppimismallit suoriutuivat merkittävästi paremmin kuin kausittainen naiivi vertailuarvo, mikä osoittaa niiden kyvyn tuottaa tarkempia ennusteita kuin perinteiset ennustemallit. Gradient boosting -mallit saavuttivat parhaan kokonaistehokkuuden, joista LightGBM suoriutui hieman paremmin kuin XGBoost. MLP-malli puolestaan suoriutui heikoiten. Tulokset vahvistavat, että ominaisuuksien valinta vaikuttaa ratkaisevasti mallin suorituskykyyn. Lyhytaikaisia ajallisia riippuvuuksia edustavat viiveominaisuudet osoittautuivat tärkeimmiksi ominaisuuksiksi kaikissa malleissa. Optimaaliseksi viiveen pituudeksi on havaittu yksi viikko, kun taas makrotaloudelliset muuttujat, kuten työttömyys ja inflaatio, ovat osoittautuneet merkitykseltään rajallisiksi lyhyen aikavälin ennusteissa.
