Mit der Einführung von Large Language Models (LLMs) eröffnen sich neue Möglichkeiten, wie beispielsweise die Interaktion mit Maschinen durch Sprachassistenten.
Wir haben uns für dieses Beispiel drei typische Herausforderungen angeschaut:
1. Herausforderung: Ressourcenbedarf
Eine zentrale Frage beim Einsatz von LLMs auf Edge-Geräten ist, wie viel Leistung tatsächlich benötigt wird. Hier spielen die Modellgröße und das sogenannte Kontextfenster, also der Bereich, den ein Modell bei der Textgenerierung berücksichtigen kann, eine Rolle. Diese Faktoren sind entscheidend für die Wahl der geeigneten Edge-Hardware. Wir haben dies an zwei Systemen getestet: ein experimentelles System basierend auf dem "Jetson Orin Nano" von NVIDIA und einem für den realen Einsatz denkbaren industriellen Edge-Computer von WAGO.
Die Leistungsfähigkeit der Modelle wurde anhand der Metrik "Tokenverarbeitung pro Zeit" gemessen. Ein Token ist dabei ein elementarer Bestandteil eines LLMs und repräsentiert einzelne Teile eines Textes. Beim Vergleich der beiden Geräte mit dem Meta Llama 2 Modell mit 7 Milliarden Parametern wurde schnell klar, dass eine GPU einen signifikanten Leistungsschub bringen kann. Für den Kontext der industriellen Automatisierung ergibt sich daraus der Wunsch nach Geräten mit einer passiv gekühlten, industrietauglichen GPU.
2. Herausforderung: Softwarearchitektur
Die Nutzung von LLMs auf weniger leistungsstarken Geräten bringt Herausforderungen wie den Umgang mit Python-Code, Abhängigkeiten, Versionskonflikten und unvorhersehbaren Lebenszyklen von Bibliotheken mit sich. In einem industriellen Umfeld, in dem nachhaltige Lösungen gefragt sind, steht dies in Konflikt mit dem rasanten Entwicklungstempo der KI-Branche.
Eine Microservice-Architektur hat sich für uns als effektive Lösung erwiesen. Sie ermöglicht eine unabhängige Implementierung und Bereitstellung mittels Containertechnologie. Außerdem vereinfacht sie den Umgang mit Modellauswahl und Abhängigkeiten.
3. Herausforderung: Auswahl geeigneter Modelle
Durch eine Microservice-Architektur können wir schnell neue Modelle integrieren und testen. Besonders spannend ist, dass bei Geräten mit geringen Ressourcen die Quantisierung eine besondere Rolle spielen kann. Durch die Reduktion des Datentyps (z.B. von 16-Bit Float zu 4-Bit Integer) können erhebliche Einsparungen erzielt werden. Allerdings geht dies in der Regel mit einer geringeren Genauigkeit bei der Ausführung der Modelle einher. Eine weitere wichtige Stellschraube ist die Anzahl der Parameter. Unsere Versuche haben gezeigt, dass Modelle mit 3 bis 7 Milliarden Parametern sinnvoll sind.
Insgesamt bieten Edge AI und LLMs eine vielversprechende Kombination für die Zukunft, indem sie neue Anwendungsfelder eröffnen. Die damit verbundenen Herausforderungen können durch den Einsatz geeigneter Hardware, einer durchdachten Softwarearchitektur und einer sorgfältigen Modellauswahl bewältigt werden.