Learning to cooperate in a search mission via policy search

Författare:

  • Martin Daniel

Publiceringsdatum: 2002-01-01

Rapportnummer: FOI-R--0386--SE

Sidor: 50

Skriven på: Engelska

Nyckelord:

  • Reinforcement learning
  • policysökning
  • samverkande styrning
  • neuronnät
  • reinforcement learning
  • policy search
  • collaborating control
  • neural networks

Sammanfattning

Farorna vid och tiden som krävs för att rensa ett område från ammunition och artillerigranater som inte har exploderat kan minskas genom att använda ett system bestående av obemannade och självgående robotar. Systemet behöver mindre tid när flera robotar samverkar under avsökningen av området. Reinforcement learning-algoritmen GPOMDP utvärderas för att hitta en beslutsregel som möjliggör att, givet en karta och robotens position på kartan, automatiskt välja bland flera möjliga handlingar. Handlingarna leder till en nära optimal väg genom ett område där vissa delar behöver sökas av. Ett neuronnät används som funktionsapproximator för att lagra och förbättra beslutsregeln samt att hitta handlingar som följer den. Problemet expanderas till att innehålla två robotar som använder samma beslutsregel, distribuerad så att robotarna väljer handlingar efter sin egen rumsuppfattning oberoende av den andra robotens handling. För att åstadkomma samverkan mellan robotarna är de tränade att maximera en delad belöning, bestående av summan av individuella belöningar som har utdelats utifrån konsekvenserna av robotarnas handlingar. När den intränade policyn används för att söka av det största området som använts under experimenten behöver två robotar tränade med gemensamma belöningar 70% av tiden som en ensam optimal robot skulle behöva, medan två robotar som har tränats med individuella belöningar behöver 88%.