Um was gehts? Zur Verinnerlichung der theoretischen Konzepte des bestärkenden Lernen in meinem Studium, habe ich neulich beschlossen einen Labyrinthlöser zu implementieren. Dieser soll Q-Lernen verwenden, um über die Trainingszyklen hinweg den besten Weg zum Ziel herauszufinden.
Q-Lernen 🧑🎓 Q-Lernen ist ein modelfreier Ansatz zum bestärkenden Lernen. Modelfrei heißt, dass der Agent die Umgebung nicht kennt. Der Agent fängt damit an, zufällige Aktionen auszuführen, um so über die Zeit die Umgebung kennenzulernen. Für jede Status in dem der Agent sich befindet, ermittelt er die für alle möglichen Aktionen die Q-Werte.
...