November 5, 2024

HL-1.tv

Das Lübecker Statdfernsehen

OpenAI, die humane Ignorierregel, die verhindert, dass Bots Webinhalte scrapen

OpenAI, die humane Ignorierregel, die verhindert, dass Bots Webinhalte scrapen

Wie Business Insider erfahren hat, ignorieren die beiden größten KI-Startups der Welt die Forderungen von Medienverlegern, ihre Webinhalte nicht mehr nach kostenlosen Beispiel-Trainingsdaten zu durchsuchen.

Es wurde festgestellt, dass OpenAI und Anthropic eine statische Webregel namens robots.txt, die das automatische Löschen von Websites verhindert, entweder ignorieren oder umgehen.

TollBit, ein Startup, das sich zum Ziel gesetzt hat, kostenpflichtige Lizenzverträge zwischen Verlagen und KI-Unternehmen zu vermitteln, stellte fest, dass sich viele KI-Unternehmen auf diese Weise verhielten, und informierte einige der großen Verlage am Freitag in einem Brief Reuters hatte zuvor darüber berichtet. Der Brief enthielt keine Namen der Unternehmen für künstliche Intelligenz, denen vorgeworfen wird, die Regel umgangen zu haben.

OpenAI und Anthropic haben öffentlich erklärt, dass sie die robots.txt-Datei respektieren und ihre eigenen Webcrawler wie GTBot und ClaudeBot blockieren.

Nach den Erkenntnissen von TollBit werden solche Sperren jedoch nicht wie behauptet eingehalten. KI-Unternehmen, darunter OpenAI und Anthropic, entscheiden sich dafür, die robots.txt-Datei einfach zu „umgehen“, um den gesamten Inhalt einer bestimmten Website oder Seite abzurufen oder zu extrahieren.

Eine OpenAI-Sprecherin lehnte es ab, über die Weisung von BI gegenüber einem Unternehmen hinausgehende Kommentare abzugeben Blogeintrag Seit Mai gibt das Unternehmen an, dass es Webcrawler-Berechtigungen „jedes Mal berücksichtigt, wenn wir ein neues Modell trainieren“. Ein Anthropic-Sprecher antwortete nicht auf E-Mails mit der Bitte um Stellungnahme.

Robots.txt ist ein Codestück, das seit den späten 1990er Jahren dazu verwendet wird, dass Websites Roboter-Crawlern mitteilen, dass sie nicht möchten, dass ihre Daten gelöscht und gesammelt werden. Es gilt weithin als eine der inoffiziellen unterstützenden Regeln des Webs.

Siehe auch  Wegmans schließt eines seiner größten Lebensmittelgeschäfte. Der ungewöhnliche Standort beeinträchtigte das Geschäft

Mit dem Aufkommen der generativen KI konkurrieren Startups und Technologieunternehmen darum, die leistungsstärksten KI-Modelle zu entwickeln. Die wichtigste Zutat sind qualitativ hochwertige Daten. Der Drang nach solchen Trainingsdaten hat robots.txt und die informellen Konventionen, die die Verwendung dieses Codes unterstützen, untergraben.

OpenAI steht hinter dem beliebten Chatbot ChatGPT. Der größte Investor des Unternehmens ist Microsoft. Anthropic steht hinter einem anderen relativ beliebten Chatbot, Claude. Sein größter Investor ist Amazon.

Beide Chatbots geben Antworten auf Benutzerfragen in einem menschlichen Ton. Solche Antworten sind nur möglich, weil die KI-Modelle, auf denen sie basieren, riesige Mengen an geschriebenem Text und Daten aus dem Internet umfassen, von denen die meisten urheberrechtlich geschützt sind oder Eigentum ihrer Ersteller sind.

Mehrere Technologieunternehmen argumentierten letztes Jahr vor dem US Copyright Office, dass nichts im Internet als urheberrechtlich geschützt betrachtet werden sollte, wenn es um KI-Trainingsdaten geht.

OpenAI hat einige Verträge mit Verlagen abgeschlossen, um auf Inhalte zuzugreifen, darunter Axel Springer, dem BI gehört. Das US Copyright Office wird seine Leitlinien zu künstlicher Intelligenz und Urheberrecht noch in diesem Jahr aktualisieren.

Sind Sie ein technischer Mitarbeiter oder jemand anderes, der Ratschläge oder Erkenntnisse weitergeben möchte? Verbinden Sie sich mit Callie Hayes unter [email protected] Oder über eine sichere Messaging-AppSignal Unter +1-949-280-0267. Kommunizieren Sie über ein nicht arbeitsfähiges Gerät.