RL之Q Learning:利用强化学习之Q Learning实现走迷宫—训练智能体走到迷宫(简单迷宫)的宝藏位置
RL之Q Learning:利用强化学习之Q Learning实现走迷宫—训练智能体走到迷宫(简单迷宫)的宝藏位置
输出结果
设计思路
实现代码
from __future__ import print_function
import numpy as np
import time
from env import Env
EPSILON = 0.1
ALPHA = 0.1
GAMMA = 0.9
MAX_STEP = 30
np.random.seed(0)
def epsilon_greedy(Q, state):
if (np.random.uniform() > 1 - EPSILON) or ((Q[state, :] == 0).all()):
action = np.random.randint(0, 4) # 0~3
else:
action = Q[state, :].argmax()
return action
e = Env()
Q = np.zeros((e.state_num, 4))
for i in range(200):
e = Env()
while (e.is_end is False) and (e.step < MAX_STEP):
action = epsilon_greedy(Q, e.present_state)
state = e.present_state
reward = e.interact(action)
new_state = e.present_state
Q[state, action] = (1 - ALPHA) * Q[state, action] + ALPHA * (reward + GAMMA * Q[new_state, :].max())
e.print_map()
time.sleep(0.1)
print('Episode:', i, 'Total Step:', e.step, 'Total Reward:', e.total_reward)
time.sleep(2)
测试记录全过程
开始
......... ......... . . ......... . . .A o . ......... . . .A o . . . ......... . . .A o . . . ......... ......... . . .A o . . . ......... ......... . . .A o . . . ......... ......... . . . A o . . . ......... ......... . . . A o . . . ......... ......... . . . A o . . . ......... ......... . . . A o . . . ......... ......... . . . A o . . . ......... ......... . . . o . . . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . o . .A . ......... ......... . . . o . .A . ......... ......... . . . o . .A . ......... ......... . . . o . .A . ......... ......... . . . o . .A . ......... ......... . . . o . .A . ......... ......... . . . o . .A . ......... ......... . . . o . .A . ......... ......... . . . o . .A . ......... ......... . . .A o . .A . ......... ......... . . .A o . . . ......... ......... . . .A o . . . ......... ......... . . .A o . . . ......... ......... . . .A o . . . ......... ......... . . .A o . . . ......... ......... . . .A o . . . ......... ......... . . .A o . . . ......... ......... . . .A o . . . ......... ......... . . .A o . . . ......... ......... . . .A o . . . ......... ......... . . .A o . . . ......... ......... . . .A o . . . ......... ......... . . .A o . . . ......... ......... . . .A o . . . ......... ......... . . . o . . . ......... ......... . . . o . .A . ......... ......... . . . o . .A . ......... ......... . . . o . .A . ......... ......... . . . o . .A . ......... ......... . . .A o . .A . ......... ......... . . .A o . . . ......... ......... . . .A o . . . ......... ......... . . .A o . . . ......... ......... . . .A o . . . ......... ......... . . . A o . . . ......... ......... . . . A o . . . ......... ......... . . . A o . . . ......... ......... . . . A o . . . ......... ......... . . . A o . . . ......... ......... . . . o . . . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . o . . A . ......... ......... . . . A . . A . ......... ......... . . . A . . . ......... ......... . . . A . . . ......... Episode:0 Total Step:17, Total Reward:100 . . . A . . . ......... Episode:0 Total Step:17, Total Reward:100 . A . . . ......... Episode:0 Total Step:17, Total Reward:100 . . ......... Episode:0 Total Step:17, Total Reward:100 ......... Episode:0 Total Step:17, Total Reward:100 ......... ......... . . ......... . . .A o . ......... . . .A o . . . ......... . . .A o . . . ......... ......... . . .A o . . . ......... ......... . . .A o . . . ......... ......... . . . A o . . . ......... ......... . . . A o . . . ......... ......... . . . A o . . . ......... ......... . . . A o . . . ......... ......... . . . A o . . . ......... ......... . . . A o . . . ......... ......... . . . A o . . . ......... ......... . . . A o . . . ......... ......... . . . A o . . . ......... ......... . . . A o . . . ......... ......... . . . A o . . . ......... ......... . . . A o . . . ......... ......... . . . A o . . . ......... ......... . . . A o . . . ......... ......... . A . . A o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . . . o . . . ......... ......... . . . A o . . . ......... ......... . . . A o . . . ......... ......... . . . A o . . . ......... ......... . . . A o . . . ......... ......... . A . . A o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . . . o . . . ......... ......... . . . A o . . . ......... ......... . . . A o . . . ......... ......... . . . A o . . . ......... [F[F[F[F
……
. A . . . ......... Episode:48 Total Step:6, Total Reward:100 . . ......... Episode:48 Total Step:6, Total Reward:100 ......... Episode:48 Total Step:6, Total Reward:100 ......... ......... . A . ......... . A . . o . ......... . A . . o . . . ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . . . o . . . ......... ......... . . . A . . . ......... ......... . . . A . . . ......... ......... . . . A . . . ......... Episode:49 Total Step:6, Total Reward:100 . . . A . . . ......... Episode:49 Total Step:6, Total Reward:100 . A . . . ......... Episode:49 Total Step:6, Total Reward:100 . . ......... Episode:49 Total Step:6, Total Reward:100 ......... Episode:49 Total Step:6, Total Reward:100 ......... ......... . A . ......... . A . . o . ......... . A . . o . . . ......... . A . . o . . . .........
……
......... . . . A . . . ......... Episode:73 Total Step:8, Total Reward:100 . . . A . . . ......... Episode:73 Total Step:8, Total Reward:100 . A . . . ......... Episode:73 Total Step:8, Total Reward:100 . . ......... Episode:73 Total Step:8, Total Reward:100 ......... Episode:73 Total Step:8, Total Reward:100 ......... ......... . A . ......... . A . . o . ......... . A . . o . . . ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . .........
……
......... . . . Ao . . . ......... ......... . . . A . . . ......... ......... . . . A . . . ......... ......... . . . A . . . ......... Episode:95 Total Step:10, Total Reward:100 . . . A . . . ......... Episode:95 Total Step:10, Total Reward:100 . A . . . ......... Episode:95 Total Step:10, Total Reward:100 . . ......... Episode:95 Total Step:10, Total Reward:100 ......... Episode:95 Total Step:10, Total Reward:100 ......... ......... . A . ......... . A . . o . ......... . A . . o . . . ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . . . o . . . ......... ......... . . . A . . . ......... ......... . . . A . . . ......... ......... . . . A . . . ......... Episode:96 Total Step:6, Total Reward:100 . . . A . . . ......... Episode:96 Total Step:6, Total Reward:100 . A . . . ......... Episode:96 Total Step:6, Total Reward:100 . . ......... Episode:96 Total Step:6, Total Reward:100 ......... Episode:96 Total Step:6, Total Reward:100 ......... ......... . A . ......... . A . . o . ......... . A . . o . . . ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . . . o . . . ......... ......... . . . A . . . ......... ......... . . . A . . . ......... ......... . . . A . . . ......... Episode:97 Total Step:8, Total Reward:100 . . . A . . . ......... Episode:97 Total Step:8, Total Reward:100 . A . . . ......... Episode:97 Total Step:8, Total Reward:100 . . ......... Episode:97 Total Step:8, Total Reward:100 ......... Episode:97 Total Step:8, Total Reward:100 ......... ......... . A . ......... . A . . o . ......... . A . . o . . . ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . . . o . . . ......... ......... . . . A . . . ......... ......... . . . A . . . ......... ......... . . . A . . . ......... Episode:98 Total Step:6, Total Reward:100 . . . A . . . ......... Episode:98 Total Step:6, Total Reward:100 . A . . . ......... Episode:98 Total Step:6, Total Reward:100 . . ......... Episode:98 Total Step:6, Total Reward:100 ......... Episode:98 Total Step:6, Total Reward:100 ......... ......... . A . ......... . A . . o . ......... . A . . o . . . ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . A . . o . . . ......... ......... . . . o . . . ......... ......... . . . A . . . ......... ......... . . . A . . . ......... ......... . . . A . . . ......... Episode:99 Total Step:6, Total Reward:100 . . . A . . . ......... Episode:99 Total Step:6, Total Reward:100 . A . . . ......... Episode:99 Total Step:6, Total Reward:100 . . ......... Episode:99 Total Step:6, Total Reward:100 ......... Episode:99 Total Step:6, Total Reward:100 Episode:99 Total Step:6, Total Reward:100
F:\AI\DL21TF\DL21examples\chapter_18>
赞 (0)