My Blog

마르코프 리워드 프로세스(MRP) 상태가치함수(State Value Function)


에피소드 샘플 (Episode Sampling)

에피소드 샘플링은 마르코프 리워드 프로세스를 통해 실제로 어떤 상태에서 시작하여 경험한 에피소드(상태와 보상의 시퀀스)를 샘플링하는 과정입니다. 이를 통해 실제 환경에서 에이전트가 경험할 수 있는 상태 전이와 보상을 수집하고, 이 데이터를 사용하여 상태의 가치를 추정합니다. 에피소드는 시작 상태에서부터 종료 상태까지의 전체 경로를 포함하며, 각각의 전이에서 얻는 보상을 기록합니다. 이러한 에피소드 데이터는 상태 가치 함수의 추정, 정책 평가, 정책 개선 등 강화학습의 다양한 단계에서 사용됩니다. 에피소드 샘플링을 통해 얻은 데이터는 강화학습 알고리즘에서 경험 재생이나 몬테카를로 방법 등의 기초가 되며, 상태 가치 함수의 추정이나 정책 평가에 중요한 역할을 합니다. 우리에게 P(전이확률 행렬)이 주어져 있기 때문에 이런 샘플들은 원하면 무한히 뽑아낼 수 있고, 그 안에서 확률분포를 알수있는 방법을 사용하게 됩니다.

마르코프 리워드 프로세스에서 상태의 가치 (Value) 함수 계산

마르코프 리워드 프로세스에서 각 상태의 가치(Value) 또는 벨류는 그 상태에서 시작하여 미래에 얻을 수 있는 예상 보상의 총합을 나타냅니다. 이 가치는 상태 s의 가치 함수 V(s)로 표현되며, 미래 보상의 기대값으로 정의됩니다. 상태가치함수 V(s)의 계산 기대 보상의 합계: 상태 s에서 시작하여, 에이전트가 경험할 수 있는 모든 가능한 경로를 고려합니다. 각 경로에서 에이전트가 얻을 수 있는 보상을 계산하고, 이 보상들의 현재 가치의 합계를 구합니다. 할인 계수 적용: 미래의 보상은 시간이 지남에 따라 가치가 감소합니다. 이를 반영하기 위해 할인 계수 γ를 사용합니다. γ는 0과 1 사이의 값으로, 보상이 발생하는 시점에 따라 보상을 현재 가치로 환산합니다. 기대값 계산: 각 가능한 미래 경로에 대한 보상의 현재 가치를 모두 합산한 뒤, 이들의 평균을 취하여 기대값을 구합니다. 이 기대값이 상태 s의 가치 V(s)입니다. 결국 상태가치함수는 상태를 인풋으로 넣으면 그 상태의 밸류를 아웃풋으로 출력하는 함수입니다. 에피소드마다 리턴이 다르기 때문에 어떤 상태의 밸류는 기댓값 E를 이용하여 계산합니다. V(s)는 조건부로 붙는 St=s의 의미는 시점 t에서 상태s부터 에피소드가 끝날때까지의 리턴을 계산하라는 의미입니다. 예시 상태 s에서 시작하는 간단한 마르코프 리워드 프로세스를 가정해 보겠습니다. 이 상태에서 여러 가능한 경로를 통해 다음 상태로 전이하며, 각 경로마다 다른 보상을 얻을 수 있습니다. 예를 들어, 상태 s에서 시작하여 경로 A를 통해 5단위의 보상을, 경로 B를 통해 3단위의 보상을 얻을 수 있다고 가정합니다. 할인 계수 γ가 0.9일 때, 미래의 보상은 현재 가치로 환산됩니다. 각 경로에서의 할인된 보상을 계산하고, 이들의 평균을 취하면 상태 s의 가치 V(s)를 얻을 수 있습니다. 이 과정을 통해 각 상태의 가치를 평가하고, 전체 마르코프 리워드 프로세스에서의 최적의 결정과 행동을 안내하는 기준으로 사용할 수 있습니다. So에서 출발해서 발생할 수 있는 에피소드는 무한히 많고, 그때마다 리턴도 항상 다른데, 기대값을 구하려면 에피소드별로 해당 에피소드가 발생할 확률과 그때의 리턴값을 곱해서 더해주어야 합니다. 그런데 현실적으로 불가능하므로 샘플로 얻은 리턴의 평균을 통해 밸류를 근사하게나마 평균을 구해 계산하는 방법을 사용합니다.

기대값(expectation value) 설명

기대값(expectation value)은 확률적인 사건의 결과에 대해 가중 평균을 내어 계산한 값입니다. 다시 말해, 어떤 확률적인 사건이 주어졌을 때, 그 사건의 결과가 어떤 값들을 가지며, 각 결과가 발생할 확률에 따라 가중 평균한 값입니다. 이는 주어진 확률 분포 하에서 가능한 모든 결과의 평균적인 예상값을 나타냅니다. 수학적으로 기대값E(X)는 확률변수 X에 대해 이산확률변수(확률변수가 특정 값 xi 를 가질 때의 값에 그 확률을 곱한 것을 의미하며, 모든 가능한 값에 대해 합산하여 기대값을 구함), 연속확률변수(확률변수의 각 값에 그 값에서의 확률밀도를 곱한 것을 의미하며, 이를 전체 값의 범위에 대해 적분하여 기대값을 구함)의 계산법을 다릅니다. 기대값은 통계적으로 '평균적인 결과' 또는 '장기적으로 기대할 수 있는 값'을 나타냅니다. 예를 들어, 동전 던지기에서 앞면이 나올 확률이 0.5이고 뒷면이 나올 확률도 0.5일 때, 앞면을 1, 뒷면을 0으로 할당하면 기대값은 0.5×1+0.5×0=0.5가 됩니다. 이는 장기적으로 동전을 던질 때 평균적으로 절반의 확률로 앞면이 나온다는 것을 의미합니다. 마르코프 리워드 프로세스에서의 기대값 마르코프 리워드 프로세스에서 기대값은 주어진 상태에서 시작하여 미래에 얻을 수 있는 보상의 평균적인 총합을 나타냅니다. 각 상태와 행동에 대한 보상과 확률을 고려하여, 에이전트가 경험할 수 있는 모든 가능한 경로를 통해 얻을 수 있는 보상의 평균적인 총합을 계산합니다.

Blog Home Back to Post List