AI-infrastructuur: de harde eisen van large language models

AI-infrastructuur: de harde eisen van large language models

AI-gerelateerde technologieën groeien uit tot een belangrijke factor voor innovatie in de digitale economie. Mits op juiste wijze ingezet kunnen ze bedrijven helpen om sneller en effectiever te reageren op marktontwikkelingen en de behoeften van klanten. Large language models (LLM’s) die gebruikmaken van deep neural networks en deep learning worden momenteel gezien als veelzijdig inzetbare zakelijke instrumenten. Voor sommige bedrijven kan het op de lange duur voordelig uitpakken om hun eigen AI-applicaties te ontwikkelen. Ze kunnen op die manier beschikken over meerdere ontwerpopties voor hun specifieke toepassingsscenario’s.

Large language models maken gebruik van deep learning. Dit is een vorm van machineleren die het cognitieve proces van het menselijke brein nabootst met behulp van kunstmatige neurale netwerken. De meeste bedrijven maken gebruik van vooraf getrainde large language models, die ze finetunen en aanpassen aan hun eigen behoeften. Afhankelijk van het toepassingsscenario kunnen ze dit verder uitwerken tot een complexer model. Een andere optie is het integreren en optimaliseren van beschikbare modellen zoals GPT.

Voor alle AI-applicaties geldt dat er hoge eisen worden gesteld aan de rekenkracht en opslagcapaciteit van de infrastructuur die aan het LLM ten grondslag ligt. Ze vragen bovendien om veilige netwerken met extreem lage latency. De eisen zullen verschillen afhankelijk van het ontwikkelingsstadium van een AI-model en de manier waarop het wordt toegepast.

Verzameling en voorverwerking van data

Of het nu gaat om de ontwikkeling en verfijning van een nieuw AI-model of de doorontwikkeling van een vooraf getraind AI-model, alle LLM’s vragen in eerste instantie om de verzameling van een grote hoeveelheid ongestructureerde data. Deze data vormen het kader waarbinnen de toekomstige AI-applicatie haar werk kan doen.

Zodra alle datasets zijn verzameld moeten ze worden voorbereid voor verder gebruik. Daarmee zijn we aanbeland bij de trainingsfase. Daarvoor wordt gebruikgemaakt van AI-frameworks zoals PyTorch, TensorFlow, Keras en ONNX.

Wat de infrastructuur betreft vragen de verzameling en voorverwerking van data om aanzienlijke opslagcapaciteit en rekenkracht. Apache Spark (een open source-project dat gebruikmaakt van een geavanceerde SQL engine) kan bijvoorbeeld veel van zijn berekeningen in het geheugen uitvoeren. Bedrijven zouden daarom minimaal over 8 tot 16 CPU-cores per computer in het netwerk moeten beschikken om Spark bij kleine tot middelgrote datasets efficiënt te laten schalen. Gaat het om grote of zeer grote datasets, dan is een configuratie met 64 cores of meer per machine aan te raden om de rekenprestaties te waarborgen. Daarnaast is voldoende RAM-geheugen essentieel voor een efficiënte verwerking van deze datasets, omdat Spark voor grote hoeveelheden data ook veel geheugen nodig heeft om de taken snel en nauwkeurig uit te voeren.

Snelheid speelt echter een ondergeschikte rol in dit stadium. Meestal volstaat het gebruik van op SSD of NVMe gebaseerde storage servers. Maar omdat er enorme hoeveelheden data worden overgedragen, zouden bedrijven vooral gebruik moeten maken van servers met een hoge bandbreedte om voldoende netwerkcapaciteit te behouden. Zeker als die data zich op een andere locatie (on premise) bevindt dan de gebruikte tools (de publieke cloud)

Training van AI: alles draait om rekenkracht

Zodra in de eerste fase aan alle basisvoorwaarden is voldaan moet het AI-model ‘leren’: conclusies trekken uit de aangeleverde data. Daarbij wordt ongeveer 80 procent van de voorbereide dataset gebruikt om het model te trainen.Rekenkracht speelt in dit stadium een beslissende rol. De intensiteit van de rekenkundige training is namelijk bepalend voor de uiteindelijke betrouwbaarheid van het AI-model. Het is voor bedrijven in deze fase belangrijk om te beschikken over voldoende rekenkracht, afgestemd op de grootte van de dataset en de complexiteit van het model.Het deep learning-proces van large language models gaat gepaard met omvangrijke workloads. Graphics processing units (GPU’s) zijn essentieel voor de verwerking daarvan. Verder is uitvoerig testen van belang om de kwaliteit van de AI-applicatie en daarmee het succes van het project te waarborgen.

Capaciteitsreductie na validatie en inzet van het model

In dit stadium wordt de resterende 20 procent van de dataset, die tot nu toe van training was uitgesloten, ingezet om de prestaties van het AI-model te evalueren en de juistheid van de resultaten te beoordelen. Als deze validatietests de beoogde resultaten opleveren, kunnen bedrijven het model overzetten naar hun productieomgeving en het vrijgeven voor gebruik. Het goede nieuws is dat de hoge eisen die tijdens de ontwikkelingsfase aan de rekenkracht en opslagcapaciteit werden gesteld nu onder bepaalde voorwaarden kunnen worden teruggeschroefd. Bedrijven moeten echter wel voorbereid zijn om snel en regelmatig opnieuw een beroep op deze capaciteit te doen. Dit is nodig omdat hertraining of finetuning van het model later vereist kan zijn, wat tijdelijk kan zorgen voor een piek in de benodigde rekenkracht. Ook tijdens de training kunnen piekbelastingen ontstaan, bijvoorbeeld wanneer het model grote hoeveelheden verzoeken parallel moet verwerken. LLM’s ontlenen hun kennis enkel en alleen aan de datasets waarop zij gebaseerd zijn; als de dataset moet worden aangepast is er weer grotere capaciteit nodig.

Wat er van de hostingprovider wordt gevraagd

De introductie van geavanceerde AI-modellen zoals LLM’s binnen bedrijven verloopt volgens een nauwgezet geplande digitale langetermijnstrategie. Bij het kiezen van geschikte hostingproviders is het belangrijk te controleren of zij in staat zijn om te voldoen aan de verschillende eisen die zich voordoen tijdens de levenscyclus van een AI-applicatie. De hostingprovider zou bijvoorbeeld in staat moeten zijn om dedicated servers in verschillende hardwareconfiguraties in te schakelen. Bedrijven moeten daarnaast speciale aandacht besteden aan de snelheid waarmee zij kunnen beschikken over de GPU’s die zij voor hun specifieke toepassing nodig hebben.

Hoe beter bedrijven hun infrastructuur kunnen aanpassen, hoe meer grip zij krijgen op de prijs-prestatieverhouding en hoe effectiever zij de infrastructuur op hun zakelijke strategie kunnen afstemmen.

Dit is een ingezonden bijdrage van Leaseweb. Via deze link vind je meer informatie over de mogelijkheden van het bedrijf.