November 5, 2024

HL-1.tv

Das Lübecker Statdfernsehen

Zuckerberg bewirbt Metas neueste KI-Videovision mit Nvidia-CEO Jensen Huang

Zuckerberg bewirbt Metas neueste KI-Videovision mit Nvidia-CEO Jensen Huang

Meta hatte letztes Jahr großen Erfolg mit Segment Anything, einem maschinellen Lernmodell, das fast alles in einem Bild schnell und zuverlässig erkennen und identifizieren kann. Der zweite Teil, den CEO Mark Zuckerberg am Montag bei SIGGRAPH auf der Bühne debütierte, trägt das Modell in den Videoraum und zeigt, wie schnell sich das Feld bewegt.

Segmentierung ist der Fachbegriff, der verwendet wird, wenn ein Visionsmodell ein Bild betrachtet und Teile heraussucht: „Das ist ein Hund, und das ist ein Baum hinter dem Hund“, hoffentlich, nicht „Das ist ein Baum, der aus einem Hund wächst.“ Das passiert schon seit Jahrzehnten, aber in letzter Zeit ist es viel besser und schneller geworden, und Segment Anything ist ein großer Fortschritt.

Alles Teil Zwei (SA2) Dies ist eine natürliche Folgemaßnahme, da sie sich nativ auf Videos und nicht nur auf Standbilder bezieht. Obwohl Sie das erste Modell natürlich für jedes Videobild einzeln ausführen können, ist dies nicht der effizienteste Arbeitsablauf.

„Wissenschaftler nutzen diese Dinge, um Korallenriffe und natürliche Lebensräume und ähnliches zu untersuchen“, sagte Zuckerberg in einem Gespräch mit Nvidia-CEO Jensen Huang. „Aber es auf Video zu machen, es genau festzuhalten und ihm zu sagen, was man will, ist schön.“ Cool.“

Die Videoverarbeitung ist natürlich rechenintensiver, was ein Beweis für die Fortschritte ist, die in der gesamten Branche dabei erzielt werden, wie effizient SA2 arbeiten kann, ohne dass es zu einem Zusammenbruch des Rechenzentrums kommt. Natürlich ist dies immer noch ein riesiges Modell und erfordert leistungsstarke Hardware, um zu funktionieren, aber eine schnelle und flexible Segmentierung war noch vor einem Jahr praktisch unmöglich.

Siehe auch  Eine kurze Tour durch den PDP-11, den einflussreichsten Mikrocomputer aller Zeiten
Bildnachweis: tot

Das Modell wird, wie das erste, offen und kostenlos nutzbar sein, und es gibt kein Wort über eine gehostete Version, die KI-Unternehmen manchmal anbieten. Es gibt aber eine kostenlose Testversion.

Natürlich erfordert das Training eines solchen Modells eine große Datenmenge, und Meta hat außerdem eine große und herausragende Datenbank mit 50.000 Videos veröffentlicht, die speziell für diesen Zweck erstellt wurde. In dem Papier, das SA2 beschreibt, wurde auch eine andere Datenbank mit über 100.000 „intern verfügbaren“ Videos für das Training verwendet, und diese Datenbank wurde nicht veröffentlicht – ich habe Meta um weitere Informationen darüber gebeten, was es ist und warum es nicht veröffentlicht wurde. (Wir glauben, dass es von öffentlichen Profilen auf Instagram und Facebook stammt).

Beispiele für gekennzeichnete Trainingsdaten.
Bildnachweis: tot

Meta ist seit mehreren Jahren Pionier der „offenen“ KI, obwohl es dies in Wirklichkeit (wie Zuckerberg in dem Gespräch betonte) schon seit langem tut und Tools wie PyTorch verwendet. Aber in jüngerer Zeit sind LLaMa, Segment Anything und einige andere Modelle, die ich kostenlos zur Verfügung gestellt habe, zu einer relativ zugänglichen Einschränkung der KI-Leistung in diesen Bereichen geworden, obwohl ihre „Offenheit“ umstritten ist.

Zuckerberg erwähnte, dass Metas Offenheit nicht nur aus Güte zustande kommt, das aber nicht bedeutet, dass ihre Absichten unrein sind:

„Das ist nicht nur eine Software, die man erstellen kann – man braucht ein Ökosystem um sie herum, wenn wir sie nicht als Open Source anbieten würden, oder? weil wir altruistische Menschen sind, obwohl ich denke, dass das gut für das Ökosystem ist – wir tun es, weil wir glauben, dass dies das, was wir bauen, zum Besten macht.“

Siehe auch  Das Pokemon Scarlett und Violet Patch erscheinen, da Nintendo verspricht, technische Probleme ernst zu nehmen

Es wird aber sicher sinnvoll genutzt. Besuchen Sie GitHub hier.