Komplex, kritikus és heterogén IT rendszerek üzemeltetése rendkívül összetett feladat. Egy incidens esetén elengedhetetlen, hogy az IT üzemeltetők gyorsan és hatékonyan beazonosítsák és elhárítsák a hibát, amely gyakran a rendszerek mélyebb rétegeiben jelentkezik. Ehhez sokszor hiányos vagy nem egyértelmű dokumentációban kell eligazodniuk, miközben erősen támaszkodnak saját tapasztalataikra. Kritikus rendszerleállások esetén az üzleti hatás jelentős lehet: az e-közigazgatási szolgáltatások kiesése közvetlenül érinti az állampolgárokat, és gyakran szolgáltatási szint megállapodás (SLA) megsértést is eredményezi.
DONNA és RAG
A fenti kihívásokra válaszul az InfoLab keretében kifejlesztésre került a DONNA, egy Retriever-Augmented Generation (RAG) technológián alapuló digitális asszisztenst, amely kulcsszserepet játszik az IT üzemeltetők munkájának támogatásában és racionalizálásában. A DONNA egyesíti a beszélgetésalapú interakciót, a korábbi tudásanyagok visszakeresését, valamint az irányított gondolkodást egy egységes, ágensalapú munkafolyamatban. Ez lehetővé teszi az IT üzemeltetők számára, hogy gyorsan megtalálják és alkalmazzák a releváns megoldásokat az incidensek kezelésére, ezáltal csökkentve a hibaelhárítás idejét és növelve a szolgáltatások rendelkezésre állását.
A nagyvállalati környezetekben az IT üzemeltetők gyakran több száz rendszer felügyeletéért és karbantartásáért felelnek, amelyek számos közigazgatási szolgáltatás alapját képezik. Probléma esetén jellemzően jegykezelő rendszert (angolul ticketing system) használnak incidensek rögzítésére, a folyamat nyomon követésére és a hibaelhárítás koordinálására. A releváns tudásanyag azonban gyakran szétszórtan érhető el:
Ez a széttagolt tudásbázis jelentős akadályt jelent az üzemeltetők számára, különösen sürgős vagy kritikus helyzetekben. Bár a RAG architektúrák kiválóan alkalmasak a szétszórt információk elérhetővé tételére, viszont vállalati környezetbe történő integrálásuk komoly kihívásokat jelent. Az IT üzemeltetőknek nem csupán hasonló korábbi jegyekre van szükségük, hanem kontextusban gazdagított válaszokra, különböző megoldási lehetőségek ajánlására, valamint jól definiált hibaelhárítási folyamatokra is. A nyílt forráskódú nagy nyelvi modellek (LLM-ek) legújabb fejlődése jelentős hatással van az IT üzemeltetés támogatására is. Ezek a modellek ma már olyan teljesítményszintet érnek el, amely korábban kizárólag a nagy erőforrásokkal rendelkező technológiai óriások számára volt elérhető. Ennek köszönhetően lehetővé válik olyan specializált, szakterületre fókuszáló alkalmazások fejlesztését, mint a DONNA, amely költséghatékonyan üzemeltethetők saját infrastruktúrán, és képesek alapjaiban megreformálni az IT üzemeltetés működését.
Rendszerarchitektúra
DONNA egy saját infrastruktúrán üzemeltethető, GPU gyorsított, Kubernetes alapú rendszer, amely teljes mértékben nyílt forráskódú komponensekből épül fel. Ágensalapú munkafolyamat motorja az alábbi kulcselemeket tartalmazza:
DONNA egy webalapú chatbot-felületet kínál, amely a ChatGPT-hez hasonló módon működik, és lehetőséget biztosít az IT üzemeltetők számára, hogy testre szabják a rendszert saját munkafolyamataikhoz.
Fejlesztési kihívások és megoldások
A rendszer megvalósítása során számos technikai és üzemeltetési kihívás merült fel:
Tanulságok és jövőbeli tervek
A Proof of Concept (PoC) igazolta, hogy egy nyílt forráskódú, önállóan üzemeltetett RAG és ágensalapú architektúra mérhető hatékonyságnövekedést hozhat az IT-üzemeltetésben. A legfontosabb tanulságok:
A jövőbeli fejlesztések célja az automatikus naplóelemzés integrálása a proaktív anomália detekció érdekében, ahogy azt a “Anomaly Detection Algorithms for Real-Time Log Data Analysis at Scale” című tanulmányunkban is bemutattuk (https://ieeexplore.ieee.org/document/11105402)) , valamint DONNA hatásának formális értékelése az incidensek megoldási idejére a valós körülmények között.