November 5, 2024

HL-1.tv

Das Lübecker Statdfernsehen

KI-Modus zur Herzinfarktvorhersage lose mit „No-Code“-Tools

KI-Modus zur Herzinfarktvorhersage lose mit „No-Code“-Tools

Zoomen / Ah, der einfache Knopf!

Oric Lawson | Getty Images

Dies ist die zweite Episode unserer Erforschung des maschinellen Lernens ohne Code. In unserem ersten Artikelhaben wir unsere Problemstellung dargelegt und die Daten besprochen, die wir verwenden werden, um zu testen, ob ein hochautomatisiertes ML-Tool, das für Geschäftsanalysten entwickelt wurde, kostengünstige Ergebnisse nahe der Qualität von liefern kann Codeintensivere Methoden Es beinhaltet ein bisschen von Menschen angetriebene Datenwissenschaft.

Wenn Sie diesen Artikel noch nicht gelesen haben, kommen Sie wenigstens zurück überfliege es. Wenn Sie fertig sind, sehen wir uns an, was wir mit unseren Herzinfarktdaten unter „normalen“ (d. h. den Code-intensivsten) maschinellen Lernbedingungen machen werden, und werfen dann alles weg und drücken die „Einfach“-Taste.

Wie bereits erwähnt, arbeiten wir mit einer Reihe von Daten zur Herzgesundheit, die aus einer Studie der Cleveland Clinic und des Ungarischen Instituts für Kardiologie in Budapest (sowie anderer Orte, deren Daten wir aus Qualitätsgründen verworfen haben) stammen. Alle diese Daten sind in verfügbar Lagerhaus Wir haben es auf GitHub erstellt, aber seine ursprüngliche Form ist Teil von Datenlager Es wurde von der University of California-Irvine für Machine-Learning-Projekte gepflegt. Wir verwenden zwei Versionen des Datensatzes: eine kleinere, vollständigere Version, die aus 303 Patientenakten der Cleveland Clinic besteht, und eine größere Datenbank (597 Patienten), die HGI-Daten enthält, bei der jedoch zwei Arten von Daten aus dem kleineren Datensatz fehlen.

Es sieht so aus, als ob die beiden fehlenden Felder der ungarischen Daten wichtig sein könnten, aber die Daten der Cleveland Clinic selbst könnten für einige ML-Anwendungen zu klein sein, also werden wir versuchen, unsere Grundlagen abzudecken.

Siehe auch  Google testet einen dunkleren „Dark Mode“ für seine Android-App

der Plan

Da mehrere Datensätze zum Trainieren und Testen zur Verfügung stehen, ist es an der Zeit, mit dem Schleifen zu beginnen. Wenn wir es so machen würden, wie es Datenwissenschaftler normalerweise tun (und wie wir es letztes Jahr versucht haben), würden wir:

  1. Teilen Sie die Daten in eine Trainingsmenge und eine Testmenge auf
  2. Verwenden Sie Trainingsdaten mit einem vorhandenen Algorithmustyp, um das Modell zu erstellen
  3. Überprüfen Sie das Modell mit dem Testset, um seine Genauigkeit zu überprüfen

Wir können dies alles tun, indem wir es im Jupyter-Notebook codieren und das Modell modifizieren, bis wir eine akzeptable Genauigkeit erreichen (wie wir es letztes Jahr in einem fortwährenden Zyklus getan haben). Stattdessen probieren wir zunächst zwei verschiedene Methoden aus:

  • Ein „No-Code“-Ansatz mit AWS Sagemaker Canvas: Canvas nimmt die Daten als Ganzes, teilt sie automatisch in Training und Test auf und erstellt einen Vorhersagealgorithmus
  • Ein weiterer „No-/Low-Code“-Ansatz unter Verwendung von Sagemaker Studio Jumpstart und AutoML: AutoML ist ein Großteil dessen, was hinter Canvas steckt; Es wertet die Daten aus und probiert eine Reihe verschiedener Arten von Algorithmen aus, um den besten zu ermitteln

Danach wenden wir eine der vielen kampferprobten maschinellen Lernmethoden an, mit denen Datenwissenschaftler bereits mit diesem Datensatz experimentiert haben, von denen einige eine Genauigkeit von über 90 Prozent beanspruchen.

Das Endprodukt dieser Methoden sollte ein Algorithmus sein, den wir verwenden können, um eine Vorhersageabfrage basierend auf Datenpunkten auszuführen. Aber das eigentliche Ergebnis wird ein Blick auf die Kompromisse für jeden Ansatz in Bezug auf Zeit bis zur Fertigstellung, Genauigkeit und die Kosten der Rechenzeit sein. (In unserem letzten Test hat AutoML selbst praktisch das gesamte AWS-Kontoguthaben gesprengt.)

Siehe auch  Aus diesem Grund weigert sich Rivian, CarPlay zu unterstützen