Und wenn jemand immer noch glaubt das KI was mit maschinellem lernen zu tun hat und sich gruseln möchte:
View: https://www.youtube.com/watch?v=Sq1QZB5baNw
Achtet mal auf die weitergabe des Apfels, das würde kein programmierter Roboter tun. (ich habe früher Roboter programmiert). Und auf die Sprachpause und sein "Ähh"...
Die Modelle sind einfach gut. Ich denke Verwirrung herscht ein bisschen weil die Hersteller immer "neue" Versionen herausbringen (Sonu V1, V2, V3) das aber keine Veränderungen an den Modellen sind sondern nur erweiterte Trainigsversionen,
So ist Stable Diffusion 1.4 mit Laion 5B Bildern in 256 x 256 Pixeln trainiert,
Stable Diffusion 1.5 mit Bildern in 512 x 512 Pixeln
und Stable Diffusion XL mit Bildern in 1024 x 1024 Pixeln. Die Modelle sind gleich geblieben.
Auch im LLM Bereich. ChatGTP 4.0 ist ein Model das sich mit sich selbst unterhält und aus 8 Spezialisierten Chat GTP 3.5 Modellen besteht.
Also fehlt es der Musik KI an Trainigsdaten (s.o.).
Aber wenn erst mal einer das finanziert und das Model mit ALLEM auch aus der Theorie (Mittelalter, Klassik, Jazz, Moderne) trainiert wird kann man ihr sagen, hier habe ich ein schönes Rockriff, zeig mir mal ein Solo dazu in myxolidischer Skala...
braucht eine KI 3 Sekunden...