AWS DeepRacer : banalisation du Reinforcement Learning (RL)

Le 30/11/2020

AWS

Cloud

3 minutes de lecture

Sommaire

Principes de base
AWS DeepRacer

Sommaire

Principes de base
AWS DeepRacer

Partage

AWS DeepRacer : banalisation du Reinforcement Learning (RL)

L’Intelligence Artificielle (IA) a été introduite dans énormément de domaines de notre quotidien, tous les grands groupes technologiques sont en compétition pour en être un leader. RL ou Reinforcement Learning, est un sous-domaine d’IA qui vise à tirer le meilleur de l’apprentissage à répétition par récompenses utilisé pour dresser les animaux, et de toute la puissance de l’approche du Deep Learning et de ses outillages logiciels et matériels.

Principes de base

Le principe est simple, le graphe ci-dessous schématise le fonctionnement du RL et les acteurs :

Image: Wikipédia

Un Agent robot, dans un environnement donné, prend des actions plus au moins bonnes, l’interpréteur fait part à l’agent des récompenses acquise (ou pénalités) et des paramètres de l’environnement. Donc, l’idée est que l’agent prenne beaucoup d’actions et constitue une base d’expériences qu’on appellera "Model". Ce Model sera amélioré au fur et à mesure des itérations pour faire des actions avec plus de récompenses, donc pertinentes. Mais on laisse quand même l’agent faire des actions arbitraires ou non contrôlées pour explorer de nouvelles possibilités que celle qu'il a pris l'habitude de prendre. En pratique, le grand défit est de définir ce qu'est une Récompense : c’est une fonction (reward function) qui selon l’observation des paramètres de l’environnement va retourner un score de la dernière action menée (Ex : -10 si on sort de la chaussée et +5 si on garde les 4 roues dans le couloir). Assez de théorie et place à l’amusement.

AWS DeepRacer

AWS DeepRacer offre un service complet d’implémentation des Modèles RL pour des courses de voitures miniatures 1/18, très simple à utiliser pour s’initier au RL. Il suffit d’adapter une fonction d’évaluation pour faire sa propre « IA » de compétition, la simulation, gestion des capteurs d’environnement, l’environnement informatique les Frameworks (Tensorflow…) et la puissance de calcul sont encapsulés pour nous. Une fois le modèle est créé et entrainé, on peut l’utiliser en simulation ou dans une vraie mini-voiture de course pour tester et voir ses performances. Voici les quelques étapes pour créer un premier modèle RL de course :

1. Création d'un nouveau Model avec le service DeepRacer

2. Choix du type de course

3. Choix du circuit d'entrainement (Pas nécessairement celui de la compétition)

4. Définition de la fonction de récompense (Python)

5. Validation et c'est parti pour une heure d'entrainement en mode accéléré

Pendant la durée d'entrainement, le graphe de suivi se met à jour pour voir l'avancée de l'apprentissage. J'ai mis un graphe au début et le graphe final :

Au début l'agent apprend rapidement à chercher les récompenses en restant sur la chaussée, mais on est loin d'avoir un robot capable de franchir la ligne d'arrivée.

A la fin de l'entrainement d'un durée d'une heure, le modèle a déjà vu un très grand nombre de cas de figures, ses actions sont plus prévisibles et pertinentes, mais ce n'est pas encore suffisant pour inquiéter Lewis Hamilton.

Partage

Ces articles pourraient vous intéresser

Moderniser l’IT dans un secteur financier en mutation : entre agilité et héritage technologique

24/02/2025

Le dilemme de l’héritage et de l’innovation dans le secteur financier Les institutions financières sont souvent ancrées dans des systèmes...

Comment repenser votre IBM i pour simplifier la transformation métier et stimuler l’innovation

01/11/2024

RDV le 13 novembre 2024 chez IBM France dès 13H30 à Bois-Colombes pour échanger avec les experts d’IBM, d’Easyteam et...

3 questions, réponses sur le FinOps

04/06/2024

Avant de franchir une étape pour faire évoluer son système d’information, il est légitime de se poser les bonnes questions....

AWS DeepRacer : banalisation du Reinforcement Learning (RL)

AWS DeepRacer : banalisation du Reinforcement Learning (RL)

Principes de base

AWS DeepRacer

1. Création d'un nouveau Model avec le service DeepRacer <img class="wp-image-45310 size-full alignnone" src="https://easyteam.fr/wp-content/uploads/2020/11/createModel.png" alt="" width="1770" height="918" />

2. Choix du type de course <img class="wp-image-45311 size-full alignnone" style="font-style: inherit; font-weight: inherit;" src="https://easyteam.fr/wp-content/uploads/2020/11/race-agent.png" alt="" width="1240" height="843" />

3. Choix du circuit d'entrainement (Pas nécessairement celui de la compétition) <img loading="lazy" class="wp-image-45309 size-full alignnone" style="font-style: inherit; font-weight: inherit;" src="https://easyteam.fr/wp-content/uploads/2020/11/circuit.png" alt="" width="1192" height="864" />

4. Définition de la fonction de récompense (Python) <img loading="lazy" class="wp-image-45313 size-full alignnone" style="font-style: inherit; font-weight: inherit;" src="https://easyteam.fr/wp-content/uploads/2020/11/reward_function.png" alt="" width="1398" height="785" />

5. Validation et c'est parti pour une heure d'entrainement en mode accéléré <img loading="lazy" class="wp-image-45314 size-full alignnone" style="font-style: inherit; font-weight: inherit;" src="https://easyteam.fr/wp-content/uploads/2020/11/Training.png" alt="" width="1427" height="756" />

Ces articles pourraient vous intéresser

1. Création d'un nouveau Model avec le service DeepRacer

2. Choix du type de course

3. Choix du circuit d'entrainement (Pas nécessairement celui de la compétition)

4. Définition de la fonction de récompense (Python)

5. Validation et c'est parti pour une heure d'entrainement en mode accéléré