Enhancing Large Language Models Through Post-Training, External Tool Integration and External Information Integration
Pysyvä osoite
Kuvaus
Suuret kielimallit (Large Language Models, LLMs) ovat nousseet keskeiseksi osaksi nykyaikaista tekoälyä, mahdollistaen sovelluksia keskusteluboteista sisällöntuotantoon ja tutkimus-avustajiin. Vaikka laajamittainen esikoulutus tekstiaineistoilla on tuottanut vaikuttavia yleis-kielisiä kyvykkyyksiä, se on myös jättänyt merkittäviä luontaisia rajoituksia kuten taipumus hallusinaatioihin, vanhentunut tieto ja rajallinen päättelykyky. Tämä kandidaatintyö tarkastelee keinoja parantaa suurien kielimallien suorituskykyä jälkikoulutuksella sekä ulkoisten työkalujen ja informaation integrointia osaksi mallien toimintaa.
Työssä tutkitaan useita jälkikoulutusmenetelmiä, mukaan lukien valvottu hienosäätö (super-vised fine-tuning), vahvistusoppiminen ihmisen tai tekoälyn palautteen avulla (RLHF, RLAIF), suora preferenssien optimointi (DPO) sekä päättelytehoa kasvattava testiaikaskaalaus (Test-time scaling). Lisäksi käsitellään ulkoisten tietolähteiden hyödyntämistä, kuten hakuun perustuvaa tekstintuottoa (Retrieval-augmented generation) ja työkalujen sekä sovellusliittymien integrointia, mukaan lukien Model Context Protocol. Analyysi osoittaa, että nämä menetelmät täydentävät toisiaan, ja parhaan lopputuloksen saavuttamiseksi niitä kannattaa yhdistää järjestelmällisesti.
Tulokset osoittavat, että mikään yksittäinen menetelmä ei riitä ratkaisemaan kaikkia LLM-mallien haasteita. Sen sijaan suorituskyky ja luotettavuus paranevat selvästi, kun eri tekniikat yhdistetään harkitusti osaksi kokonaisuutta. Tämä työ tarjoaa katsauksen suurten kielimallien jälkikoulutus menetelmistä ja suosituksia älykkäämpien, kontekstitietoisempien sovellusten rakentamiseen.
Large Language Models (LLMs) have become a foundational component of modern artificial intelligence, powering applications from chatbots to research assistants. While pre-training on
massive text corpora has enabled impressive general language capabilities, it also imposes inherent limitations such as hallucinations, outdated knowledge, and limited reasoning skills. This thesis explores post-training enhancement techniques and external tool integrations as means of overcoming these limitations and extending the utility of LLMs. The study investigates various post-training strategies including supervised fine-tuning, reinforcement learning from human and AI feedback, direct preference optimization and test-time scaling. It also examines external augmentation methods such as retrieval augmented generation (RAG) and integration with tools and APIs, including recent advances like Model Context Protocol. Through analysis of their strengths, trade-offs, and use cases, the thesis demonstrates how these techniques can be combined into multi-layered systems that address the weaknesses of LLMs and unlock new capabilities. The findings suggest that no single method is sufficient on its own. The performance and reliability improve most when multiple techniques are thoughtfully integrated. This work provides an overview of the emerging post-training ecosystem and suggestions for building more robust and context-aware LLM-based applications.