Inventage Tech-RadarInventage Tech-Radar

Self-Hosted-LLMs

AI
Trial

Ausgereifte Tools wie LM Studio, Ollama und Hugging Face erleichtern die Installation und den Betrieb von LLMs lokal auf dem eigenen Rechner. Durch Optimierungen wie MLX für Mac, Quantisierung und eine stetig wachsende Open-Source-Community werden diese Modelle immer effizienter und benötigen weniger Speicher und Rechenleistung.

Der grösste Vorteil von Self-Hosted-LLMs ist der Datenschutz. Sie ermöglichen die Verarbeitung sensibler Daten, ohne diese an Dritte weiterzugeben.

Auch in diesem Jahr wollen wir Self-Hosted-LLMs praxisnah testen. Wir möchten herausfinden, wie gut sich Self-Hosted-LLMs in unsere Arbeitsabläufe integrieren lassen und wie sie im Vergleich zu kommerziellen Lösungen abschneiden.

Assess

Self-hosted LLMs bieten eine Alternative für den Betrieb von Large-Language-Models, die keine umfangreiche GPU-Infrastruktur voraussetzen. Durch Techniken wie Quantisierung1 und Projekte wie llama.cpp2 können LLMs auf handelsüblicher Hardware mit reduziertem Speicherbedarf ausgeführt werden. Über Plattformen wie Hugging Face oder Ollama können LLMs bezogen und lokal ausgeführt werden.

Durch den Einsatz von Self-hosted LLMs streben wir eine Verbesserung des Datenschutzes an, denn diese können entweder auf firmeneigenen Servern oder lokal auf einem Laptop betrieben werden und somit vollständig offline genutzt werden.

Einerseits möchten wir die organisatorischen Möglichkeiten und Kosten für den Betrieb solcher LLMs abschätzen. Andererseits ist es uns wichtig zu untersuchen, wie gut die Qualität dieser Self-hosted LLMs ist und ob sie in bestimmten Anwendungsfällen mit kommerziellen Konkurrenten wie ChatGPT oder Gemini mithalten können.


1 Technik, um die Rechen- und Speicherkosten der Inferenz zu reduzieren, indem Gewichte und Aktivierungen mit Datentypen geringerer Genauigkeit dargestellt werden (z.B. 8-Bit Ganzzahlen anstatt der üblichen 32-Bit Fliesskommazahlen).
2 LLaMa-Architektur von Meta in effizientem C/C++, die eine leichtere und portable Alternative zu den schwergewichtigen Frameworks bietet.