Posted 2024-04-29Updated 2024-04-29科研 / 强化学习10 minutes read (About 1566 words)

手写DQN

引用库文件

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
import random
import math
import numpy as np

创建神经网络

神经网络类以及初始化

初始化的输入是状态维度，动作维度，以及隐藏层。

class MLP(nn.Module):
    def __init__(self, state_dim,action_dim,hidden_dim=128):
        """ 初始化q网络，为全连接网络
            state_dim: 输入的特征数即环境的状态维度
            action_dim: 输出的动作维度
        """
        super(MLP, self).__init__()
        self.fc1 = nn.Linear(state_dim, hidden_dim) # 输入层
        self.fc2 = nn.Linear(hidden_dim,hidden_dim) # 隐藏层
        self.fc3 = nn.Linear(hidden_dim, action_dim) # 输出层

前向传播函数

def forward(self, x):
    # 各层对应的激活函数
    x = F.relu(self.fc1(x)) 
    x = F.relu(self.fc2(x))
    return self.fc3(x)

创建缓冲区

定义缓冲区类

class ReplayBuffer:
    def __init__(self, capacity):
        self.capacity = capacity # 经验回放的容量
        self.buffer = [] # 缓冲区
        self.position = 0

定义push函数

def push(self, state, action, reward, next_state, done):
    ''' 缓冲区是一个队列，容量超出时去掉开始存入的转移(transition)
    '''
    if len(self.buffer) < self.capacity:
        self.buffer.append(None)
    self.buffer[self.position] = (state, action, reward, next_state, done)
    self.position = (self.position + 1) % self.capacity

定义采样函数

def sample(self, batch_size):
    batch = random.sample(self.buffer, batch_size) # 随机采出小批量转移
    state, action, reward, next_state, done =  zip(*batch) # 解压成状态，动作等
    return state, action, reward, next_state, done

创建DQN

DQN类的创建以及初始化

定义动作维度，状态维度，以及优化器，目标网络，

class DQN:
    def __init__(self, state_dim, action_dim, cfg):
        self.action_dim = action_dim  # 总的动作个数
        self.device = cfg.device  # 设备，cpu或gpu等
        self.gamma = cfg.gamma  # 奖励的折扣因子
        # e-greedy策略相关参数
        self.frame_idx = 0  # 用于epsilon的衰减计数
        self.epsilon = lambda frame_idx: cfg.epsilon_end + \
            (cfg.epsilon_start - cfg.epsilon_end) * \
            math.exp(-1. * frame_idx / cfg.epsilon_decay)
        self.batch_size = cfg.batch_size
        self.policy_net = MLP(state_dim, action_dim,hidden_dim=cfg.hidden_dim).to(self.device)
        self.target_net = MLP(state_dim, action_dim,hidden_dim=cfg.hidden_dim).to(self.device)
        for target_param, param in zip(self.target_net.parameters(),self.policy_net.parameters()): # 复制参数到目标网路targe_net
            target_param.data.copy_(param.data)
        self.optimizer = optim.Adam(self.policy_net.parameters(), lr=cfg.lr) # 优化器
        self.memory = ReplayBuffer(cfg.memory_capacity) # 经验回放

创建动作选择函数

注意转变为tensor，再放入网络，以及取max

def choose_action(self, state):
    ''' 选择动作
    '''
    self.frame_idx += 1
    if random.random() > self.epsilon(self.frame_idx):
        with torch.no_grad():
            state = torch.tensor([state], device=self.device, dtype=torch.float32)
            q_values = self.policy_net(state)
            action = q_values.max(1)[1].item() # 选择Q值最大的动作
    else:
        action = random.randrange(self.action_dim)
    return action

网络更新函数

def update(self):
    if len(self.memory) < self.batch_size: # 当memory中不满足一个批量时，不更新策略
        return
    # 从经验回放中(replay memory)中随机采样一个批量的转移(transition)
    state_batch, action_batch, reward_batch, next_state_batch, done_batch = self.memory.sample(
        self.batch_size)
    # 转为张量
    state_batch = torch.tensor(state_batch, device=self.device, dtype=torch.float)
    action_batch = torch.tensor(action_batch, device=self.device).unsqueeze(1)  
    reward_batch = torch.tensor(reward_batch, device=self.device, dtype=torch.float)  
    next_state_batch = torch.tensor(next_state_batch, device=self.device, dtype=torch.float)
    done_batch = torch.tensor(np.float32(done_batch), device=self.device)
    q_values = self.policy_net(state_batch).gather(dim=1, index=action_batch) # 计算当前状态(s_t,a)对应的Q(s_t, a)
    next_q_values = self.target_net(next_state_batch).max(1)[0].detach() # 计算下一时刻的状态(s_t_,a)对应的Q值
    # 计算期望的Q值，对于终止状态，此时done_batch[0]=1, 对应的expected_q_value等于reward
    expected_q_values = reward_batch + self.gamma * next_q_values * (1-done_batch)
    loss = nn.MSELoss()(q_values, expected_q_values.unsqueeze(1))  # 计算均方根损失
    # 优化更新模型
    self.optimizer.zero_grad()  
    loss.backward()
    for param in self.policy_net.parameters():  # clip防止梯度爆炸
        param.grad.data.clamp_(-1, 1)
    self.optimizer.step()

main文件

库文件导入

1
2
3

import gym
import torch
from dqn import DQN

config类

class Config:
    '''超参数
    '''

    def __init__(self):
        ################################## 环境超参数 ###################################
        self.algo_name = 'DQN'  # 算法名称
        self.env_name = 'CartPole-v0'  # 环境名称
        self.device = torch.device(
            "cuda" if torch.cuda.is_available() else "cpu")  # 检测GPUgjgjlkhfsf风刀霜的撒发十
        self.seed = 10 # 随机种子，置0则不设置随机种子
        self.train_eps = 200  # 训练的回合数
        self.test_eps = 30  # 测试的回合数
        ################################################################################
        
        ################################## 算法超参数 ###################################
        self.gamma = 0.95  # 强化学习中的折扣因子
        self.epsilon_start = 0.90  # e-greedy策略中初始epsilon
        self.epsilon_end = 0.01  # e-greedy策略中的终止epsilon
        self.epsilon_decay = 500  # e-greedy策略中epsilon的衰减率
        self.lr = 0.0001  # 学习率
        self.memory_capacity = 100000  # 经验回放的容量
        self.batch_size = 64  # mini-batch SGD中的批量大小
        self.target_update = 4  # 目标网络的更新频率
        self.hidden_dim = 256  # 网络隐藏层
        ################################################################################
        
        ################################# 保存结果相关参数 ################################
        self.result_path = curr_path + "/outputs/" + self.env_name + \
            '/' + curr_time + '/results/'  # 保存结果的路径
        self.model_path = curr_path + "/outputs/" + self.env_name + \
            '/' + curr_time + '/models/'  # 保存模型的路径
        self.save = True # 是否保存图片
        ################################################################################

创建环境和智能体函数

def env_agent_config(cfg):
    ''' 创建环境和智能体
    '''
    env = gym.make(cfg.env_name)  # 创建环境
    state_dim = env.observation_space.shape[0]  # 状态维度
    action_dim = env.action_space.n  # 动作维度
    agent = DQN(state_dim, action_dim, cfg)  # 创建智能体
    if cfg.seed !=0: # 设置随机种子
        torch.manual_seed(cfg.seed)
        env.seed(cfg.seed)
        np.random.seed(cfg.seed)
    return env, agent

训练函数

def train(cfg, env, agent):
    '''
    训练
    '''
    print('开始训练!')
    print(f'环境：{cfg.env_name}, 算法：{cfg.algo_name}, 设备：{cfg.device}')
    rewards = []  # 记录所有回合的奖励
    ma_rewards = []  # 记录所有回合的滑动平均奖励
    for i_ep in range(cfg.train_eps):
        ep_reward = 0  # 记录一回合内的奖励
        state = env.reset()  # 重置环境，返回初始状态
        while True:
            action = agent.choose_action(state)  # 选择动作
            next_state, reward, done, _ = env.step(action)  # 更新环境，返回transition
            agent.memory.push(state, action, reward,
                              next_state, done)  # 保存transition
            state = next_state  # 更新下一个状态
            agent.update()  # 更新智能体
            ep_reward += reward  # 累加奖励
            if done:
                break
        if (i_ep + 1) % cfg.target_update == 0:  # 智能体目标网络更新
            agent.target_net.load_state_dict(agent.policy_net.state_dict())
    print('完成训练！')
    env.close()
    return rewards, ma_rewards

main函数

if __name__ == "__main__":
    cfg = Config()
    # 训练
    env, agent = env_agent_config(cfg)
    rewards, ma_rewards = train(cfg, env, agent)
    make_dir(cfg.result_path, cfg.model_path)  # 创建保存结果和模型路径的文件夹
    agent.save(path=cfg.model_path)  # 保存模型
    save_results(rewards, ma_rewards, tag='train',
                 path=cfg.result_path)  # 保存结果
    plot_rewards(rewards, ma_rewards, cfg, tag="train")  # 画出结果

手写DQN

https://jiangzeshuo.github.io/2024/04/29/手写DQN/

Author

jzs

Posted on

2024-04-29

Updated on

2024-04-29

Licensed under

#深度学习强化学习

手写DQN

引用库文件

创建神经网络

神经网络类以及初始化

前向传播函数

创建缓冲区

定义缓冲区类

定义push函数

定义采样函数

创建DQN

DQN类的创建以及初始化

创建动作选择函数

网络更新函数

main文件

库文件导入

config类

创建环境和智能体函数

训练函数

main函数

Author

Posted on

Updated on

Licensed under

Comments

Links

Categories

Recents

Archives

Tags