TF Reinforce POMDP
f_train : entrainement du réseau RL
f_train_theta: pré-entrainement du réseau perception