trichtersoft
Registrierter Benutzer
- Zuletzt hier
- 26.12.24
- Registriert
- 14.06.21
- Beiträge
- 242
- Kekse
- 3.432
Interessantes Experiment, das auch auf andere ML Modelle anwendbar ist (zB Bildgeneratoren).Ein Erfahrungsbericht (inwieweit der OT ist oder nicht, mag die Moderation beurteilen):
Ich habe bei
https://suno.com/
ein wenig herumexperimentiert ...
Bei der Aufgabenstellung/Vorgabe "A jazzy, blues influenced song
in slow tempo about railway traffic" spuckte die Maschine in 2 Sekunden das da aus:
Anhang anzeigen 938447
Beu der Aufgabenstellung/Vorgabe "A 3 part fugue" spuckte die Maschine
interessanterweise gar nichts verwertbares aus: Das was herauskam, wollte
ich nicht einmal downloaden/speichern. Es war weder 3stimmig, noch eine Fuge.
Es war einfach seichtes Klaviergeklimper im Claydermann-Stil ...
LG
Thomas
Bei "jazzy, blues, ..." gibt es extrem viele Trainingsdaten und das Ergebnis ist weniger scharf definiert. Da geht es eher um eine Stimmung/Atmosphäre. Da sind die Vorraussetzungen gut um akzeptable Resultate zu erhalten.
Bei der dreistimmigen Fuge wird wohl deutlich weniger Trainingsmaterial vorhanden sein. Außerdem ist das Ergebnis leicht als gut (Fuge mit 3 Stimmen) oder schlecht (alles andere) erkennbar. Das macht es für den ML Algorithmus deutlich schwieriger gute Resultate zu produzieren.
Bei Bildgeneratoren passiert das gerne, wenn man zB Text im Bild haben möchte. Die können wunderbar Bilder in bestimmten Stilen zeichnen. Wenn man aber einen ganz bestimmten Text drin haben will und damit (ähnlich wie bei der 3 stimmigen Füge) ein hartes Kriterium für "korrekt" erzeugt, versagen die sehr schnell. Fehlende oder doppelte Buchstaben, komplett andere Wörter als vorgegeben. Das ist dann keine Seltenheit.
Insofern sehe ich ML aktuell als gutes Werkzeug im allgemeines "Füllmaterial" zu produzieren (Musik, Bilder, Texte,...). Für echte Auftragsarbeit muss noch einiges an Entwicklungsarbeit in die Modelle fließen.