Das neueste Open-Source-KI-Modell von Meta ist das bisher größte.
Meta gab heute bekannt, dass es Llama 3.1 405B veröffentlichen wird, ein Modell mit 405 Milliarden Parametern. Die Parameter entsprechen in etwa den Problemlösungsfähigkeiten im Modell, und Modelle mit mehr Parametern schneiden in der Regel besser ab als solche mit weniger.
Mit 405 Milliarden Parametern ist Llama 3.1 405B keine absolute Zahl Größer Dies ist ein verfügbares Open-Source-Modell, aber das größte der letzten Jahre. Es ist auf 16.000 Nvidia H100-GPUs trainiert und nutzt modernste Trainings- und Entwicklungstechniken, die es laut Meta mit führenden proprietären Modellen wie GPT-4o von OpenAI und Claude 3.5 Sonnet von Anthropic konkurrenzfähig machen (mit einigen Einschränkungen).
Wie bei früheren Meta-Modellen steht Llama 3.1 405B zum Download oder zur Verwendung auf Cloud-Plattformen wie AWS, Azure und Google Cloud zur Verfügung. Es wird auch auf WhatsApp und Meta.ai verwendet und ist dort im Handel erhältlich. Verbessern Sie Ihr Chatbot-Erlebnis Für Benutzer mit Wohnsitz in den Vereinigten Staaten.
Neu und verbessert
Wie andere generative Open-Source- und Closed-Source-KI-Modelle kann Llama 3.1 405B eine Reihe verschiedener Aufgaben ausführen, von der Codierung und Beantwortung grundlegender mathematischer Fragen bis hin zur Zusammenfassung von Dokumenten in acht Sprachen (Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thailändisch). Es ist nur textbasiert, was bedeutet, dass es beispielsweise keine Fragen zu einem Bild beantworten kann, aber die meisten textbasierten Arbeitslasten – wie die Analyse von Dateien wie PDFs und Tabellenkalkulationen – fallen in seinen Anwendungsbereich.
Meta möchte bekannt geben, dass es mit Multimodalität experimentiert. In einem heute veröffentlichten Artikel schreiben Forscher des Unternehmens, dass sie aktiv Lama-Modelle entwickeln, die Bilder und Videos erkennen und Sprache verstehen (und erzeugen) können. Diese Modelle sind jedoch noch nicht für die allgemeine Veröffentlichung bereit.
Um Llama 3.1 405B zu trainieren, verwendete Meta einen Datensatz von 15 Billionen Symbolen aus dem Jahr 2024 (Tokens sind Teile von Wörtern, die Modelle leichter verstehen können als vollständige Wörter, und 15 Billionen Symbole ergeben unglaubliche 750 Milliarden Wörter). Es handelt sich nicht per se um eine neue Trainingssuite, da Meta den Kernsatz zum Trainieren früherer Llama-Modelle verwendet hat, aber das Unternehmen gibt an, bei der Entwicklung dieses Modells seine Datenkurationspipelines verfeinert und „strengere“ Qualitätssicherungs- und Datenfilterungsmethoden eingeführt zu haben.
Das Unternehmen verwendete auch synthetische Daten (Daten, die von generiert wurden). zuletzt Modelle der künstlichen Intelligenz) zur Anpassung von Llama 3.1 405B. Die meisten großen KI-Unternehmen, darunter OpenAI und Anthropic, erforschen Anwendungen synthetischer Daten, um die KI-Ausbildung zu erweitern, aber einige Experten Glaubt Das müssen synthetische Daten sein Die letzte Lösung Aufgrund ihres Potenzials, die Modellverzerrung zu verstärken.
Meta wiederum besteht darauf, dass es sich um eine „sorgfältige Abwägung“ handele[d]„Llama 3.1 405B-Trainingsdaten, weigerte sich jedoch, die genaue Quelle der Daten preiszugeben (außerhalb öffentlicher Webseiten und Webdateien). Viele Anbieter generativer KI sehen Trainingsdaten als Wettbewerbsvorteil und behalten diese und alle damit verbundenen Informationen Aber Einzelheiten zu Schulungsdaten sind auch eine potenzielle Quelle für Klagen wegen geistigem Eigentum, ein weiterer Anreiz für Unternehmen, zu viel preiszugeben.
In der oben genannten Arbeit schrieben Meta-Forscher, dass Llama 3.1 405B im Vergleich zu früheren Llama-Modellen auf einer größeren Mischung aus nicht-englischen Daten (um die Leistung in nicht-englischen Sprachen zu verbessern) und mehr „mathematischen Daten“ und Symbolen trainiert wurde ( um die mathematischen Denkfähigkeiten des Modells zu verbessern) und aktuelle Webdaten (um sein Wissen über aktuelle Ereignisse zu erweitern).
Aktueller Bericht von Reuters Meta enthüllte einmal, dass es trotz Warnungen seiner Anwälte urheberrechtlich geschützte E-Books zum Trainieren von KI verwendet habe. Das Unternehmen trainiert seine KI kontrovers auf Instagram- und Facebook-Posts, Fotos und Bildunterschriften. Macht es für Benutzer schwierig, sich abzumeldenDarüber hinaus ist Meta zusammen mit OpenAI Gegenstand einer laufenden Klage von Autoren, darunter der Komikerin Sarah Silverman, wegen der angeblich unbefugten Nutzung urheberrechtlich geschützter Daten durch die beiden Unternehmen zum Trainieren von Modellen.
In einem Interview mit TechCrunch sagte Raghavan Srinivasan, Vizepräsident für KI-Programmmanagement bei Meta: „Trainingsdaten sind in vielerlei Hinsicht wie das Geheimrezept und die Sauce, die in die Erstellung dieser Modelle einfließt.“ „Es wird eines dieser Dinge sein, die wir weiter verbessern werden.“
Mehr Kontext und Tools
Das Llama 3.1 405B verfügt über ein größeres Kontextfenster als frühere Llama-Modelle: 128.000 Zeichen oder ungefähr die Länge eines 50-seitigen Buches. Der Formularkontext oder das Kontextfenster bezieht sich auf die Eingabedaten (z. B. Text), die das Formular berücksichtigt, bevor es die Ausgabe generiert (z. B. zusätzlichen Text).
Ein Vorteil von Modellen mit größeren Kontexten ist ihre Fähigkeit, Textausschnitte und längere Dateien zusammenzufassen. Beim Einsatz von Chatbots ist es weniger wahrscheinlich, dass solche Modelle kürzlich besprochene Themen vergessen.
Meta stellte heute außerdem zwei neue, kleinere Modelle vor, Llama 3.1 8B und Llama 3.1 70B – aktualisierte Versionen der Modelle Llama 3 8B und Llama 3 70B, die das Unternehmen im April herausgebracht hatte – die ebenfalls Kontextfenster mit 128.000 Symbolen enthalten. Die Anzahl der Kontexte in früheren Modellen betrug 8.000 Symbole, was dies zu einem ziemlich großen Upgrade macht – vorausgesetzt, die neuen Llama-Modelle können diesen gesamten Kontext effektiv durchdenken.
Alle Llama 3.1-Modelle können Tools, Anwendungen und APIs von Drittanbietern verwenden, um Aufgaben zu erledigen, wie konkurrierende Modelle von Anthropic und OpenAI. Sie wurden sofort geschult, um Brave Search zur Beantwortung von Fragen zu aktuellen Ereignissen, die Wolfram Alpha API für mathematische und naturwissenschaftliche Abfragen und einen Python-Interpreter zur Codevalidierung zu nutzen. Darüber hinaus behauptet Meta, dass Llama 3.1-Modelle bestimmte Tools nutzen können, die sie noch nie zuvor gesehen haben – in gewissem Umfang.
Aufbau eines Ökosystems
Glaubt man Leistungsbenchmarks (nicht, dass Leistungsbenchmarks alles in der generativen KI sind), ist das Llama 3.1 405B in der Tat ein sehr leistungsfähiges Modell. Das wäre eine gute Sache, wenn man einige bedenkt Schmerzlich gesunder Menschenverstand Einschränkungen der Llama-Modelle der vorherigen Generation.
Das Papier stellt fest, dass die Leistung von Llama 3 405B mit der von OpenAIs GPT-4 vergleichbar ist und im Vergleich zu GPT-4o und Claude 3.5 Sonnet „gemischte Ergebnisse“ erzielt, so die von Meta beauftragten menschlichen Gutachter. Während der Llama 3 405B bei der Codeausführung und Schemagenerierung besser ist als GPT-4o, sind seine Mehrsprachigkeitsfähigkeiten im Allgemeinen schwächer und der Llama 3 405B hinkt dem Claude 3.5 Sonnet in der Programmierung und allgemeinen Logik hinterher.
Aufgrund seiner Größe ist für den Betrieb leistungsstarke Hardware erforderlich. Meta empfiehlt mindestens einen Serverknoten.
Vielleicht bewirbt Meta deshalb seine neuen, kleineren Modelle Llama 3.1 8B und Llama 3.1 70B für den Einsatz in allgemeinen Anwendungen wie dem Ausführen von Chatbots und der Codegenerierung. Nach Angaben des Unternehmens eignet sich der Llama 3.1 405B am besten für die Modelldestillation – den Prozess der Wissensübertragung von einem großen Modell auf ein kleineres, effizienteres Modell – und für die Generierung synthetischer Daten zum Trainieren (oder Feinabstimmen) alternativer Modelle.
Um die Verwendung synthetischer Daten zu fördern, hat Meta nach eigenen Angaben die Llama-Lizenz aktualisiert, um Entwicklern zu ermöglichen, die Ausgabe der Llama 3.1-Modellfamilie zur Entwicklung von KI-Generierungsmodellen von Drittanbietern zu verwenden (ob das eine kluge Idee ist oder nicht). Zur Diskussion). Am wichtigsten ist, dass die Lizenz erhalten bleibt schränkt ein Wie Entwickler Lama-Modelle bereitstellen können: App-Entwickler mit mehr als 700 Millionen monatlichen Nutzern müssen bei Meta eine spezielle Lizenz beantragen, die das Unternehmen nach eigenem Ermessen gewährt.
Diese Änderung der Lizenzierung rund um die Ausgabe mildert Große Kritik Die Aufnahme von Metamodellen in die KI-Community ist Teil der aggressiven Bemühungen des Unternehmens, einen größeren Anteil generativer KI zu gewinnen.
Zusammen mit der Llama 3.1-Familie bringt Meta ein sogenanntes „Referenzsystem“ und neue Sicherheitstools auf den Markt – viele davon können dazu führen, dass sich Llama-Modelle auf unerwartete oder unerwünschte Weise verhalten –, um Entwickler zu ermutigen, Llama an mehr Orten zu verwenden. Das Unternehmen prüft außerdem eine Vorschau und bittet um Kommentare zum Llama Stack, einer kommenden API für Tools, die zur Feinabstimmung von Llama-Modellen, zur Generierung synthetischer Daten mit Llama und zum Erstellen von „Agenten“-Apps verwendet werden können – Apps, die von Llama unterstützt werden und Maßnahmen ergreifen können im Namen des Benutzers.
„[What] Wir haben immer wieder von Entwicklern gehört, die daran interessiert sind, die tatsächliche Bereitstellung zu erfahren [Llama models] „In Produktion“, sagte Srinivasan. „Deshalb versuchen wir, ihnen eine Reihe verschiedener Tools und Optionen zur Verfügung zu stellen.“
Spielen um Marktanteile
In einem heute Morgen veröffentlichten offenen Brief legte Mark Zuckerberg, CEO von Meta, eine Vision für eine Zukunft dar, in der KI-Tools und -Modelle in die Hände von mehr Entwicklern auf der ganzen Welt gelangen und sicherstellen, dass Menschen Zugang zu den „Vorteilen und Chancen“ der KI haben.
Das ist sehr wohlwollend formuliert, aber die Botschaft beinhaltet implizit Zuckerbergs Wunsch, dass diese Werkzeuge und Modelle von Meta hergestellt werden.
Meta versucht, mit Unternehmen wie OpenAI und Anthropic gleichzuziehen, und verfolgt dabei eine bewährte Strategie: kostenlose Tools anzubieten, um das Ökosystem anzukurbeln, und dann langsam weitere hinzuzufügen Produkte Und Dienstleistungen, die teilweise zusätzlich zu den Spesen vergütet werden Milliarden Dollar Der Einsatz standardisierter Modelle hat auch den Effekt, dass die Preise der Konkurrenten von Meta unterboten werden und die KI-Version des Unternehmens breiter verbreitet wird. Es ermöglicht dem Unternehmen außerdem, Verbesserungen aus der Open-Source-Community in seine zukünftigen Modelle zu integrieren.
Lama erregt definitiv die Aufmerksamkeit der Entwickler. Meta behauptet, dass Llama-Modelle über 300 Millionen Mal heruntergeladen wurden und bis heute über 20.000 von Llama abgeleitete Modelle erstellt wurden.
Machen Sie keinen Fehler, die Meta spielt, um den Ball zu behalten. Er spendet Millionen Keines der Modelle von Llama 3.1 löst die hartnäckigen Probleme, mit denen die generative KI-Technologie heute konfrontiert ist, wie etwa ihre Tendenz, Dinge zu erfinden und problematische Trainingsdaten zu reproduzieren. Aber es stärkt eines der Hauptziele von Meta: zum Synonym für generative KI zu werden.
Hierfür fallen Kosten an. In der Forschungsarbeit weisen die Co-Autoren darauf hin – ganz im Sinne von Zuckerberg –, dass „die Leute sich das nicht leisten können“. Die neuesten Kommentare – Besprechen Sie energiebezogene Zuverlässigkeitsprobleme, indem Sie die ständig wachsenden generativen KI-Modelle von Meta trainieren.
„Während des Trainings können Zehntausende GPUs gleichzeitig den Stromverbrauch erhöhen oder verringern, beispielsweise weil alle GPUs auf den Abschluss von Kontrollpunkten oder Gruppenkommunikationen warten oder die gesamte Trainingsaufgabe starten oder beenden“, hieß es. Sie schrieben. „Wenn dies geschieht, kann es zu plötzlichen Schwankungen des Stromverbrauchs im gesamten Rechenzentrum in der Größenordnung von mehreren zehn Megawatt kommen, wodurch die Grenzen des Stromnetzes ausgereizt werden. Dies stellt für uns eine ständige Herausforderung dar, da wir den Schulungsumfang für die Zukunft erweitern. größere Lama-Modelle.“
Es bleibt zu hoffen, dass die Schulung dieser größeren Modelle nicht dazu führt, dass weitere Einrichtungen sie behalten müssen Alte Kohlekraftwerke in der Nähe.
„Entdecker. Entschuldigungsloser Unternehmer. Alkoholfanatiker. Zertifizierter Schriftsteller. Möchtegern-TV-Evangelist. Twitter-Fanatiker. Student. Webwissenschaftler.
More Stories
JPMorgan geht davon aus, dass die Fed ihren Leitzins in diesem Jahr um 100 Basispunkte senken wird
Die Zahl der Bitcoin-Millionäre ist um 111 % gestiegen – warum, wie und werden sie jetzt reicher?
Die Aktien des Chipriesen für künstliche Intelligenz Nvidia gaben trotz seines Rekordumsatzes von 30 Milliarden US-Dollar nach