Name	Name	Last commit message	Last commit date
parent directory ..
readme.md	readme.md

Name

Last commit message

Last commit date

Q-learning Intuition

Pourquoi le Q-learning ?

Ici, l’agent ne regarde pas la valeur, mais qualité. Donc Q pour Qualité remplace V pour Valeur.
L’approche Q-learning s’intéresse la valeur des états et des actions. Il y a un lien entre ces deux approches.

Les Valeurs sont connues qui aide à calculer les Qualités.

➜ Ces deux approches sont différentes, bien qu’elles résolvent le même problème !
Elles sont toutes les 2 valables et amènent au même résultat.
Le raisonnement est un petit peu différent.

Dans cette approche, l’agent calcul le Q(s,a) (le Q de s et de a), à savoir la qualité de l’action a dans l’état s.
Puis, l’agent obtient une récompense de prendre l’action dans l’état R(s,a). parce que l’agent à changer d’état.
Et, il pourrait être aller à droite, à gauche, en haut ou en bas et l’agent dispose d’une mesure pour évaluer leur valeur. L’agent pondère la valeur de chaque état, par exemple : 80 % x la valeurde l’état du dessus, 10 % x la valeur de l’état de droite, … en utilisant le facteur de réduction gamma.

Le Q-learning consiste à prendre la meilleure action.

Cette équation n’est pas récursive, car Q ne dépend pas d’autre Q mais de V(s')..
V(s'). reprend l’expression complète notée en haut, remplacé par l’expression max a' Q(s',a')

Équation de Bellman réellement utilisée par l'IA

Donc, pour connaître la qualité de l’action dans l’état, l’agent s’appuie sur le calcul des qualités de prendre l’action a' s’il est dans l’état ‘s’’.

cf.
Markov Decision Processes: Concepts ans Algorithms

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

readme.md

Q-learning Intuition

Pourquoi le Q-learning ?

FilesExpand file tree

q-learningIntuition

Directory actions

More options

Directory actions

More options

Latest commit

History

q-learningIntuition

Folders and files

parent directory

readme.md

Q-learning Intuition

Pourquoi le Q-learning ?