tfreinforcepomdp

TF Reinforce POMDP

f_train : entrainement du réseau RL
f_train_theta: pré-entrainement du réseau perception