강화학습(마르코프 결정 프로세스에서 최적상태 가치함수 무한등비급수) 공부기록 2

등비수열 개념

먼저 수학의 등비수열 개념에 대해 살펴보겠습니다. 왕이 공을 세운 신하에게 상을 주려고 합니다. 신하는 쌀알을 첫날에는 한톨, 이튿날에는 두 배인 두톨, 그 다음날에는 그 두배인 네톨,... 과 같은 식으로 매일 전날의 두배를 받고 싶고 30일간만 받겠다고 했습니다. 이 말을 들은 왕은 욕심없는 신하라고 칭찬하여 흔쾌히 승낙하였다가 나중에 그 소원을 바꿔달라고 부탁하게 됩니다. 1+2+2^2+2^3+2^4...+2^29 = 2^30-1=10억 7,374aks 1,832톨이 됩니다. 이 처럼 등비수열의 합은 첫째항 a에 일정수 r을 차례차례 곱해서 얻는 수열을 등비수열이라고 합니다. 여기서 일정수 r을 공비라고 부릅니다. 수학에서의 등비수열 공식은 공비 r이 1이 아닐때만 성립합니다. 첫째항 a, 공비 r인 등비수열의 제n항까지의 합 Sn은, Sn = a(1-r^n)/1-r 위 식으로 계산할 수 있습니다. 이처럼 제n항까지의 유한하게 지정된 등비수열을 유한 등비수열의 합이라고 지칭합니다.

무한등비급수

무한등비급수(Infinite Geometric Series)는 등비수열의 항들을 무한히 더한 것으로, 각 항이 그 전 항에 일정한 비율(공비, common ratio)을 곱한 형태로 이루어진 수열의 합을 말합니다. 이 개념은 수학에서 중요한 역할을 하며, 강화학습을 포함한 다양한 분야에서 응용됩니다. 무한등비급수의 일반적인 형태는 다음과 같습니다: S=a+ar+ar^2+ar^3+⋯=∑n=0에서 ∞까지 ar^n a는 첫 번째 항, r은 공비(각 항이 이전 항에 곱해지는 비율), n은 항의 순서(0부터 시작). 무한 등비급수는 무한히 많은 항의 합을 계산할때 사용되며, 공식은 다음과 같습니다. S = a/1-r 단, 여기서 수렴의 조건은 공비 r의 절대값이 1보다 작을때만 성립합니다. ∣r∣<1일 경우 (수렴): 각 항은 점차 0에 가까워지므로, 항들의 합은 특정한 값으로 수렴합니다. 이 경우 무한 등비급수를 사용하여 그 합을 계산할 수 있습니다. r>1일 경우 (발산): 각 항은 무한대로 증가하므로, 항들의 합도 무한대로 발산합니다. 이런 경우 등비급수는 수렴하지 않습니다. r=1일 경우: 모든 항이 첫 번째 항과 동일하므로, 합은 항의 수에 비례하여 무한대로 증가합니다. 유한 등비수열: 유한한 항의 수에서는 공비가 1보다 크거나 작거나 관계없이 합을 계산할 수 있습니다. 무한 등비급수: 공비의 절댓값이 1보다 작아야만 그 합이 수렴합니다. 공비가 1보다 크거나 같으면 무한 등비급수는 발산하게 됩니다. 결론적으로, 공비의 크기는 무한 등비급수의 합이 수렴할지 발산할지를 결정하는 결정적인 요소입니다. ∣r∣<1이면 무한 등비급수는 특정 값으로 수렴하지만, r≥1이면 합은 무한대로 발산합니다. 무한등비급수는 각 항이 일정한 비율로 계속해서 작아지는 경우, 무한히 많은 항의 합이 특정한 값으로 수렴하는 성질을 가집니다. 이러한 특성 덕분에 복잡한 시스템에서 미래의 값들을 현재 가치로 요약하여 계산하는 데 사용될 수 있습니다.

강화학습에서 무한등비급수

강화학습에서 무한등비급수는 각 항이 이전 항에 일정한 비율(여기서는 할인율 γ)이 곱해진 수열의 무한합을 말합니다. 강화학습에서는 미래의 각 보상에 할인율을 연속적으로 곱해 현재 가치를 계산합니다. 이 수열은 다음과 같이 나타낼 수 있습니다. R=r1+γr2 +γ^2 r3 +γ^3 r4 +⋯=∑ t=1에서 ∞까지 γ^t−1 rt 여기서 rt는 시간 t에서 받는 보상이고, γ는 할인율(0 ≤ γ < 1)입니다. 강화학습에서 무한등비급수를 사용해 최적 상태 가치함수를 찾는 이유는 에이전트가 많은 시간에 걸쳐 얻을 수 있는 미래 보상의 총합을 현재 가치로 평가하기 위해서 입니다. 강화학습의 목표는 에이전트가 행동을 통해 최대의 누적 보상을 얻도록 하는 정책을 학습하는 것입니다. 이를 위해 미래의 보상을 현재 시점에서 얼마나 가치 있는지를 정량적으로 추정할 필요가 있습니다. 무한등비급수의 사용 할인 보상: 강화학습에서 미래 보상은 보통 시간에 따라 할인됩니다. 즉, 더 먼 미래의 보상은 현재의 가치에서 더 적게 평가됩니다. 이 할인 과정에서 무한등비급수가 사용되며, 각 미래 시점의 보상에 할인율 γ을 거듭제곱한 값을 곱해 현재 가치로 변환합니다. 수렴: 할인율 γ이 1보다 작을 경우(0 ≤ γ < 1), 무한등비급수는 수렴하며, 이를 통해 무한한 시간 동안 받을 수 있는 보상의 현재 가치를 한정된 값으로 나타낼 수 있습니다. 최적 가치 함수 계산: 최적 가치 함수는 미래의 모든 가능한 경로를 고려하여 얻을 수 있는 최대 보상을 나타냅니다. 이를 계산하기 위해 각 상태에서 시작하여 가능한 모든 행동과 그 결과로 나오는 상태들에 대한 보상을 할인된 형태로 합산해야 합니다. 상태 s에서 시작하여, 할인율 γ를 사용하고 미래에 얻을 수 있는 모든 보상을 고려한다고 할 때, 최적 가치 함수 V∗(s)는 미래의 모든 보상을 현재 가치로 평가한 것이 됩니다. 강화학습에서 무한등비급수를 사용하는 이유는 에이전트가 어떤 상태에서 최적의 행동을 취했을 때 기대할 수 있는 미래 보상의 총합을 현재 가치로 계산하기 위해서입니다. 이러한 계산을 통해 각 상태의 최적 가치를 결정하고, 에이전트는 이 정보를 바탕으로 최적의 행동을 결정할 수 있습니다.

강화학습 무한등비급수 예시

로봇 청소기 예시를 들어 강화학습에서의 최적 상태 가치 함수를 설명하겠습니다. 이 예시에서 로봇 청소기는 집안의 여러 방을 돌아다니며 청소를 수행하는 에이전트 역할을 합니다. 집은 여러 방으로 구성되어 있으며, 각 방은 상태 S1,S2,…,Sn을 나타냅니다. 로봇 청소기는 각 방에서 '청소하기' 또는 '다음 방으로 이동하기'와 같은 행동을 선택할 수 있습니다. '청소하기'를 선택하면 해당 방이 깨끗해지고 보상을 받습니다. 방이 이미 깨끗하면 작은 보상이나 패널티를 받을 수 있습니다. 최적 가치 함수 계산 할인율 γ는 0.9로 설정합니다. 이는 미래의 보상이 현재보다는 약간 적게 가치 있다는 것을 의미합니다. 예를 들어, 로봇이 S1 방에 있고 '청소하기'를 선택했다고 가정해 봅시다. S1 방을 청소하면 5점의 보상을 받습니다. 이어서 로봇은 S2로 이동하여 청소를 계속할 수 있습니다. 무한등비급수 사용 로봇이 계속 청소를 수행하면서 얻을 수 있는 미래 보상의 현재 가치는 무한등비급수를 통해 계산될 수 있습니다. 각 상태에서의 청소는 미래에도 반복될 수 있으며, 각 단계마다 할인율이 적용됩니다. 청소 작업으로 인한 미래 보상의 현재 가치는 다음과 같이 나타낼 수 있습니다: S1에서 청소한 후 받는 즉시 보상과, 미래에 계속해서 청소하며 얻을 수 있는 할인된 보상의 총합으로, 최적 상태 가치 함수를 계산할 수 있습니다. 이 예시를 통해 강화학습에서 로봇 청소기가 각 상태에서 최적의 행동을 선택하여 장기적으로 최대의 보상을 얻을 수 있는 경로를 결정하게 됩니다. 이는 각 상태에 대한 최적 가치 함수를 계산함으로써 달성됩니다. 이러한 강화학습 무한등비급수 계산에서 매회 시간이 지나면서 효율적이지 않은 움직임을 할때는 매 움직임마다 할인률이 늘어나면서 최적상태 가치함수의 수치가 작아지게 됩니다. 그래서 보상을 위한 가장 효율적인 움직임을 하는 최적상태 가치함수를 계산해서 가장 높은 점수를 얻는 정책을 찾아낼 수 있고, 이것이 마르코프 결정 프로세스에서 원하는 최적의 정책을 찾는 방법이 됩니다.