Skip to content

Latest commit

 

History

History

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 

readme.md

Q-learning IntuitionL'intelligence artificielle


Équation de Bellman

Pourquoi le Q-learning ?

Ici, l’agent ne regarde pas la valeur, mais qualité. Donc Q pour Qualité remplace V pour Valeur.
L’approche Q-learning s’intéresse la valeur des états et des actions. Il y a un lien entre ces deux approches.

Les Valeurs sont connues qui aide à calculer les Qualités.

➜ Ces deux approches sont différentes, bien qu’elles résolvent le même problème !
Elles sont toutes les 2 valables et amènent au même résultat.
Le raisonnement est un petit peu différent.

Dans cette approche, l’agent calcul le Q(s,a) (le Q de s et de a), à savoir la qualité de l’action a dans l’état s.
Puis, l’agent obtient une récompense de prendre l’action dans l’état R(s,a). parce que l’agent à changer d’état.
Et, il pourrait être aller à droite, à gauche, en haut ou en bas et l’agent dispose d’une mesure pour évaluer leur valeur. L’agent pondère la valeur de chaque état, par exemple : 80 % x la valeurde l’état du dessus, 10 % x la valeur de l’état de droite, … en utilisant le facteur de réduction gamma.

Équation simplifiée de Q-learning

Le Q-learning consiste à prendre la meilleure action.


Cette équation n’est pas récursive, car Q ne dépend pas d’autre Q mais de V(s')..
V(s'). reprend l’expression complète notée en haut, remplacé par l’expression max a' Q(s',a')

Équation de Bellman réellement utilisée par l'IA

Donc, pour connaître la qualité de l’action dans l’état, l’agent s’appuie sur le calcul des qualités de prendre l’action a' s’il est dans l’état ‘s’’.


cf.
Markov Decision Processes: Concepts ans Algorithms