You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Pour ma thèse, à CentraleSupélec à Rennes et Inria à Lille, j'ai étudié l'impact de l'apprentissage par renforcement, de type bandits multi-bras, utilisé par des objets de l'Internet des Objets, reconfigurables dynamiquement et opérant comme des radios intelligentes sans coordination et en bandes non licenciées.
J'ai proposé deux modèles de réseaux, avec ou sans retransmissions, pour lesquels j'ai développé des simulations numériques et une validation expérimentale réaliste.
Nous avons pu montré que la durée de vie des batteries et l'efficacité des réseaux peuvent être améliorées, si les appareils suivent des bons algorithmes de bandit, un apprentissage machine efficace et peu coûteux, pour optimiser automatiquement leur accès au spectre radio et l'efficacité de leurs communications sans fil.
Ces problèmes d'accès au réseau sont modélisés par des bandits multi-bras, multi-joueurs et non-stationnaires, mais sont trop difficiles à analyser, donc la suite de ma thèse étudie deux modèles restreints : des bandits multi-joueurs stationnaires, ou mono-joueurs non stationnaires.
J'ai aussi écrit la bibliothèque GitHub.com/SMPyBandits en Python pour simuler ces problèmes de bandits.