Deshalb sind kleine Sprachmodelle die Zukunft der KI

Wesentliche Erkenntnisse

  • Führende Technologieunternehmen wie OpenAI, Google, Microsoft und Meta investieren beträchtlich in kleine Sprachmodelle (SLMs).
  • SLMs gewinnen in der Technologiebranche zunehmend an Bedeutung und werden als vielversprechende Zukunft der KI betrachtet.
  • Beispiele für bemerkenswerte SLMs sind Googles Nano, Microsofts Phi-3 und OpenAIs GPT-4o mini.

Die Einführung von ChatGPT durch OpenAI markierte den Beginn einer neuen Ära für große Sprachmodelle (LLMs). Seitdem haben viele Unternehmen eigene LLMs entwickelt. Jedoch beobachten wir eine wachsende Verlagerung hin zu kleineren Sprachmodellen (SLMs). Diese Entwicklung ist von großer Bedeutung, da SLMs eine immer wichtigere Rolle spielen und als richtungsweisend für die Zukunft der künstlichen Intelligenz angesehen werden. Aber was genau sind SLMs und wie unterscheiden sie sich von LLMs?

Was ist ein kleines Sprachmodell?

Ein kleines Sprachmodell (SLM) ist ein KI-Modell, das durch eine geringere Anzahl von Parametern gekennzeichnet ist (diese können als Werte betrachtet werden, die das Modell während des Trainings erlernt). Ähnlich wie LLMs können SLMs Texte generieren und verschiedene andere Aufgaben ausführen. Sie benötigen jedoch weniger Trainingsdaten, verfügen über weniger Parameter und erfordern geringere Rechenleistungen für Training und Betrieb.

SLMs konzentrieren sich auf die wesentlichen Funktionen, und ihre geringeren Anforderungen ermöglichen den Einsatz auf einer Vielzahl von Geräten, einschließlich mobiler Geräte mit geringerer Hardwareleistung. Ein anschauliches Beispiel ist Googles Nano, ein speziell für mobile Geräte konzipiertes SLM. Laut Google kann Nano aufgrund seiner geringen Größe lokal betrieben werden, unabhängig von einer bestehenden Netzwerkverbindung.

Google

Neben Nano existiert eine Fülle weiterer SLMs, die von führenden und aufstrebenden Unternehmen im Bereich der KI entwickelt werden. Zu den beliebtesten SLMs zählen Microsofts Phi-3, OpenAIs GPT-4o mini, Anthropics Claude 3 Haiku, Metas Llama 3 sowie Mistral AIs Mixtral 8x7B.

Es gibt auch Modelle, die man fälschlicherweise für LLMs halten könnte, die aber tatsächlich SLMs sind. Dies gilt insbesondere, da die meisten Unternehmen einen Multi-Modell-Ansatz verfolgen und eine Bandbreite von Sprachmodellen, sowohl LLMs als auch SLMs, in ihrem Portfolio anbieten. Ein Beispiel dafür ist GPT-4, das verschiedene Modelle umfasst, darunter GPT-4, GPT-4o (Omni) und GPT-4o mini.

Kleine Sprachmodelle vs. große Sprachmodelle

Bei der Betrachtung von SLMs dürfen wir ihre großen Gegenstücke, die LLMs, nicht außer Acht lassen. Der Hauptunterschied zwischen einem SLM und einem LLM liegt in der Modellgröße, die durch die Anzahl der Parameter quantifiziert wird.

Zum Zeitpunkt der Erstellung dieses Textes gibt es in der KI-Branche keine Einigkeit darüber, ab wie vielen Parametern ein Modell als SLM gilt und welche Mindestanzahl von Parametern für ein LLM erforderlich ist. Typischerweise besitzen SLMs jedoch Millionen bis einige Milliarden Parameter, während LLMs deutlich mehr Parameter, bis hin zu Billionen, aufweisen.

Beispielsweise hatte GPT-3, das 2020 veröffentlicht wurde, 175 Milliarden Parameter (und das GPT-4-Modell soll ungefähr 1,76 Billionen Parameter haben), während Microsofts SLMs Phi-3-mini, Phi-3-small und Phi-3-medium 3,8, 7 bzw. 14 Milliarden Parameter besitzen.

Microsoft

Ein weiteres Unterscheidungsmerkmal zwischen SLMs und LLMs ist die Menge der für das Training verwendeten Daten. SLMs werden mit kleineren Datenmengen trainiert, während LLMs umfangreiche Datensätze nutzen. Diese Unterschiede wirken sich auch auf die Fähigkeit des Modells aus, komplexe Aufgaben zu bewältigen.

Aufgrund der großen Datenmengen, die für das Training verwendet werden, eignen sich LLMs besser für die Bewältigung anspruchsvoller Aufgaben, die komplexes Schlussfolgern erfordern. SLMs hingegen sind besser für einfachere Aufgaben geeignet. Im Gegensatz zu LLMs verwenden SLMs weniger Trainingsdaten, aber die Qualität der verwendeten Daten muss hoch sein, um viele der Fähigkeiten von LLMs in einem kompakten Paket zu erreichen.

Warum kleine Sprachmodelle die Zukunft sind

Für die meisten Anwendungsfälle sind SLMs besser positioniert, um die Standardmodelle zu werden, die von Unternehmen und Verbrauchern für eine Vielzahl von Aufgaben eingesetzt werden. LLMs haben zwar ihre Vorzüge und sind für bestimmte Anwendungsbereiche, wie z.B. die Bewältigung komplexer Aufgaben, besser geeignet. Dennoch sind SLMs aus folgenden Gründen die Zukunft für die Mehrheit der Anwendungsfälle:

1. Geringere Trainings- und Wartungskosten

Timofeev Vladimir/Shutterstock

SLMs benötigen weniger Trainingsdaten als LLMs, was sie zur idealen Wahl für Einzelpersonen und kleine bis mittelständische Unternehmen macht, die über begrenzte Datensätze und finanzielle Mittel verfügen. LLMs benötigen riesige Mengen an Trainingsdaten und infolgedessen enorme Rechenressourcen für Training und Betrieb.

Um dies zu veranschaulichen, bestätigte Sam Altman, CEO von OpenAI, dass das Training von GPT-4 über 100 Millionen Dollar gekostet hat, wie er auf einer Veranstaltung am MIT mitteilte (laut Wired). Ein weiteres Beispiel ist Metas OPT-175B LLM. Meta gibt an, dass es mit 992 NVIDIA A100 80GB GPUs trainiert wurde, die jeweils etwa 10.000 Dollar kosten, laut CNBC. Das summiert sich auf etwa 9 Millionen Dollar, ohne andere Kosten wie Strom, Gehälter usw. zu berücksichtigen.

Angesichts solcher Zahlen ist es für kleine und mittelständische Unternehmen nicht realistisch, ein LLM zu trainieren. Im Gegensatz dazu haben SLMs aufgrund der geringeren Ressourcenanforderungen eine niedrigere Eintrittsbarriere und sind kostengünstiger im Betrieb, was dazu führt, dass immer mehr Unternehmen sie einsetzen werden.

2. Bessere Leistung

GBJSTOCK / Shutterstock

Die Performance ist ein weiteres Feld, in dem SLMs aufgrund ihrer kompakten Größe LLMs überlegen sind. SLMs haben geringere Latenzzeiten und sind daher besser geeignet für Situationen, in denen schnelle Antworten benötigt werden, wie beispielsweise bei Echtzeitanwendungen. Eine schnellere Reaktionszeit ist beispielsweise in sprachgesteuerten Systemen wie digitalen Assistenten vorteilhaft.

Die direkte Ausführung auf dem Gerät (dazu später mehr) bedeutet zudem, dass die Anfrage nicht an Online-Server gesendet werden muss, um beantwortet zu werden, was zu schnelleren Antworten führt.

3. Genauer

ZinetroN / Shutterstock

Bei generativer KI gilt der Grundsatz: „Müll rein, Müll raus“. Aktuelle LLMs wurden mit großen Datensätzen aus unaufbereiteten Internetdaten trainiert. Daher sind sie möglicherweise nicht in allen Situationen genau. Dies ist eines der Probleme mit ChatGPT und ähnlichen Modellen und erklärt, warum man nicht alles glauben sollte, was ein KI-Chatbot sagt. Andererseits wurden SLMs mit qualitativ hochwertigeren Daten trainiert als LLMs, was zu einer höheren Genauigkeit führt.

SLMs können zudem weiter verfeinert werden, indem sie auf spezifische Aufgaben oder Bereiche zugeschnitten werden, was im Vergleich zu größeren, allgemeineren Modellen zu einer höheren Genauigkeit in diesen Bereichen führt.

4. Kann auf dem Gerät laufen

Pete Hansen/Shutterstock

SLMs benötigen weniger Rechenleistung als LLMs und sind daher ideal für Edge-Computing-Szenarien. Sie können auf Edge-Geräten wie Smartphones und autonomen Fahrzeugen eingesetzt werden, die nicht über große Rechenleistung oder Ressourcen verfügen. Das Nano-Modell von Google kann direkt auf dem Gerät ausgeführt werden, was bedeutet, dass es auch ohne aktive Internetverbindung funktioniert.

Diese Fähigkeit ist ein Gewinn sowohl für Unternehmen als auch für Verbraucher. Erstens ist es ein Gewinn für den Datenschutz, da Benutzerdaten lokal verarbeitet werden, anstatt in die Cloud gesendet zu werden, was umso wichtiger ist, je mehr KI in unsere Smartphones integriert wird, die fast jedes Detail über uns enthalten. Zweitens ist es ein Vorteil für Unternehmen, da sie keine großen Server bereitstellen und betreiben müssen, um KI-Aufgaben zu bewältigen.

SLMs gewinnen immer mehr an Bedeutung, wobei die größten Akteure der Branche wie Open AI, Google, Microsoft, Anthropic und Meta entsprechende Modelle auf den Markt bringen. Diese Modelle sind besser geeignet für einfachere Aufgaben, was der Hauptanwendungsbereich von LLMs ist, und sind daher zukunftsweisend.

Dennoch werden LLMs nicht verschwinden. Sie werden vielmehr für fortgeschrittene Anwendungen eingesetzt, die Informationen aus verschiedenen Bereichen kombinieren, um Neues zu schaffen, wie beispielsweise in der medizinischen Forschung.

Zusammenfassung: Kleine Sprachmodelle (SLMs) gewinnen an Bedeutung und bieten Vorteile hinsichtlich der Kosten, Leistung, Genauigkeit und der Möglichkeit, direkt auf Geräten zu laufen. Im Gegensatz zu großen Sprachmodellen (LLMs) benötigen sie weniger Ressourcen und sind für eine Vielzahl von Anwendungen besser geeignet. Die Zukunft der KI-Integration wird zunehmend von SLMs geprägt, während LLMs weiterhin für spezialisierte, komplexe Aufgaben verwendet werden.