Tag: 深度学习

Posted 2024-12-30Updated 2024-04-29科研 / 强化学习10 minutes read (About 1566 words)

引用库文件

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
import random
import math
import numpy as np

初始化的输入是状态维度，动作维度，以及隐藏层。

做出动作，并影响于环境

返回作用后的状态，和上一步的奖励

是由环境给可显示智能体在某一步采取某个策略的表现如何？