강화학습(몬테카를로 MC법 두번째) 공부기록10

몬테카를로법의 평가와 개선의 반복

몬테카를로 법에서 정책에 대한 평가를 하고 그 다음에는 최적의 정책을 찾는 정책 제어를 하게 됩니다. 정책의 평가 단계에서는 정책을 평가하여 가치함수를 얻게 되고, 정책의 개선 단계에서는 가치 함수를 탐욕화하여 정책을 개선합니다. 가치함수의 탐욕화는 그리디 정책(Greedy Policy)이라고도 합니다.

그리디 정책(Greedy Policy)

강화학습에서 사용되는 결정 방식 중 하나로, 주어진 상태에서 가능한 행동들 중에서 가장 높은 예상 보상을 제공하는 행동을 선택하는 방법입니다. 이 정책은 최적화 문제에서 매 순간 최적의 선택을 추구함으로써, 단기적인 보상을 극대화하는 데 초점을 맞춥니다. 그리디 정책의 주요 특징과 구현, 장단점에 대해 자세히 설명하겠습니다. 그리디 정책의 특징은 다음과 같습니다. 단순성과 효율성: 그리디 정책은 각 상태에서 가능한 행동들의 가치를 평가하고, 가장 높은 가치를 가진 행동을 선택합니다. 이 접근법은 계산적으로 간단하며, 의사 결정 과정이 빠르다는 장점이 있습니다. 결정적 정책: 그리디 정책은 주어진 상태에서 항상 동일한 행동을 선택하는 결정적인 방식을 취합니다. 이는 환경에 대한 정보가 충분하고 변동성이 낮을 때 효과적일 수 있습니다. 단기적 최적화: 그리디 정책은 현재 상태에서 가장 좋아 보이는 행동을 선택함으로써 단기적인 보상을 최대화합니다. 그러나 이는 장기적인 최적화를 보장하지 않을 수 있습니다. 그리디 정책의 구현 그리디 정책을 구현하기 위해서는 각 상태에 대한 가치 함수 또는 행동 가치 함수(Q-함수)가 필요합니다. 이 함수들은 각 상태나 상태에서의 행동이 가져올 수 있는 기대 보상을 평가합니다. 구현 단계는 다음과 같습니다: 가치 평가: 각 상태에서 가능한 모든 행동에 대한 가치(또는 기대 보상)를 평가합니다. 최대 가치 행동 선택: 평가된 가치 중 최대값을 가진 행동을 선택합니다. 만약 여러 행동이 최대 가치를 가진다면, 그 중 하나를 임의로 선택할 수 있습니다. 정책 실행: 선택된 행동을 실행합니다. 장점: 계산적 효율성: 가장 높은 가치의 행동만을 고려하기 때문에 계산 비용이 낮습니다. 간단한 구현: 다른 복잡한 정책에 비해 구현이 단순하고 이해하기 쉽습니다. 단점: 탐험 부족: 항상 최대 가치를 가진 행동만을 선택하기 때문에, 다른 잠재적인 행동을 탐험하지 않아 장기적으로 최적의 정책을 놓칠 수 있습니다. 환경 변화에 대한 적응 부족: 환경이 변할 경우 그리디 정책은 새로운 최적의 행동을 찾는 데 실패할 수 있습니다. 적용 그리디 정책은 환경이나 목표가 비교적 간단하고, 변동이 적을 때 잘 작동할 수 있습니다. 그러나 보다 복잡하거나 변동이 큰 환경에서는 ε-greedy 정책 같은 변형을 사용하여 탐험과 활용 사이의 균형을 맞추는 것이 효과적입니다. 이러한 정책은 대부분의 시간 동안 최고의 행동을 선택하면서도 일정 확률로 무작위 행동을 선택하여 탐험을 촉진합니다. 쉬운말로 Q함수의 값이 가장 큰 행동을 선택하되, 일부는 무작위로 낮은 확률대로 움직이도록 하는 정책입니다.

온 정책(On-policy)과 오프 정책(Off-policy)

온 정책(On-policy)과 오프 정책(Off-policy)은 강화학습에서 에이전트가 학습하는 방식을 구분하는 두 가지 기본적인 접근법입니다. 이 두 방법의 차이를 간단하고 이해하기 쉬운 예를 통해 설명하겠습니다. 온 정책 (On-policy) 온 정책 학습에서는 에이전트가 실제로 수행하는 정책을 직접 학습하고 평가합니다. 즉, 에이전트가 선택하는 행동을 바탕으로 학습하며, 이를 통해 정책을 개선해 나갑니다. 예시: 학습자가 자전거 타는 법을 배우는 상황 학습자는 자전거를 타면서 떨어지지 않기 위해 최선의 방법을 찾아가는 과정을 겪습니다. 이 과정에서 학습자는 스스로 시도하고 그 결과에 따라 자신의 타는 방법을 조정합니다. 즉, 실제로 실행하면서 동시에 배우고, 그 배움을 다시 실행에 적용하는 방식입니다. 오프 정책 (Off-policy) 오프 정책 학습에서는 에이전트가 실행하는 정책과는 별개의 정책을 학습하고 평가합니다. 이 방법은 에이전트가 직접 시행하는 행동과 다를 수 있는 다른 정책의 성능을 평가하고 개선합니다. 예시: 코치가 선수를 지도하는 상황 코치는 선수가 경기 중에 사용할 전략을 개발하고 있지만, 실제로 그 전략을 사용하는 것은 선수입니다. 코치는 경기를 관찰하며 선수가 시도하는 다양한 전략의 결과를 분석합니다. 하지만 코치 자신은 그 전략을 직접 실행하지 않습니다. 코치는 관찰한 정보를 바탕으로 최적의 전략을 개발하고, 이 전략은 선수가 실제 경기에서 사용할 수 있도록 조언을 제공합니다. 요약 온 정책: 에이전트가 학습하면서 동시에 자신이 사용하는 정책을 개선합니다. 학습과 실행이 동시에 일어납니다. 오프 정책: 에이전트(또는 코치)가 실행하는 정책과 다른 정책을 학습하며, 이를 통해 다른 가능성을 탐색하고 최적화합니다. 학습 대상과 실행 대상이 다를 수 있습니다. 이 두 접근법은 강화학습에서 서로 다른 상황과 목표에 따라 선택될 수 있으며, 각각의 방법이 가진 장단점을 이해하는 것이 중요합니다.

중요도 샘플링

오프 정책(off-policy) 학습 방법에서 중요도 샘플링(Importance Sampling)은 서로 다른 정책 간의 차이를 조정하여 평가하거나 최적화하는 데 사용되는 중요한 기법입니다. 이 방법은 특히 에이전트가 하나의 정책(행동 정책 behavior policy)을 따르면서 다른 정책(목표 정책 target policy)의 성능을 평가하거나 개선하고자 할 때 사용됩니다. 여기서 자세히 설명하겠습니다. 오프 정책 학습의 기본 개념 오프 정책 학습은 에이전트가 행동을 선택하고 경험을 수집하는 정책과는 별개로 다른 정책의 가치를 평가하거나 개선하려는 방법입니다. 이는 다음과 같이 두 종류의 정책을 구분합니다: 행동 정책 (Behavior Policy): 에이전트가 실제로 환경에서 행동을 선택할 때 사용하는 정책입니다. 이 정책에 따라 데이터(경험)가 수집됩니다. 목표 정책 (Target Policy): 평가하거나 개선하고자 하는 정책입니다. 이 정책의 가치를 추정하거나 최적화하려는 목적으로 사용됩니다. 중요도 샘플링의 필요성 오프 정책 학습의 핵심 문제는 행동 정책으로부터 수집된 데이터가 목표 정책을 따랐을 때의 데이터와 다를 수 있다는 것입니다. 따라서, 행동 정책으로 얻은 샘플을 사용하여 목표 정책의 가치를 정확하게 추정하려면, 샘플들의 "중요도"를 재조정해야 합니다. 중요도 샘플링의 정의 및 계산 중요도 샘플링은 목표 정책과 행동 정책 사이의 차이를 교정하는 비율로 계산됩니다. 주어진 상태 s에서 어떤 행동 a가 선택될 확률의 비율로 정의됩니다: Importance Sampling Ratio (ISR) =Importance Sampling Ratio (ISR)= π(a∣s) / b(a∣s) 여기서 π(a∣s)는 목표 정책에서 상태 s에서 행동 a를 선택할 확률이고, b(a∣s)는 행동 정책에서 같은 상태와 행동의 선택 확률입니다. 중요도 샘플링을 통한 가치 추정 중요도 샘플링 비율을 사용하여 목표 정책의 가치 함수를 추정할 때, 각 보상에 대해 이 비율을 곱하여 가중 평균을 취합니다. 이렇게 조정된 추정치는 목표 정책을 따랐을 때의 예상 가치에 더 가깝게 됩니다. 장단점 장점: 목표 정책과 다른 행동 정책을 사용하여 데이터를 수집하면서도 목표 정책의 성능을 정확하게 평가할 수 있습니다. 단점: 비율이 매우 크거나 작을 경우, 추정의 분산이 커져 안정성이 감소할 수 있습니다. 또한, 행동 정책에서 결코 선택되지 않는 행동은 평가할 수 없습니다. 중요도 샘플링은 특히 복잡한 환경에서 다양한 정책을 시험하고 비교할 필요가 있을 때 유용합니다. 하지만, 이 기법의 사용은 계산 비용과 분산 문제에 주의를 기울여야 합니다.

정리

몬테카를로 법을 이용하면 실제로 얻은 경험 데이터로부터 가치함수를 근사적으로 구할 수 있습니다. 몬테카를로법으로 Q함수를 평가하고 정책을 개선할 수 있고, 이러한 평가와 개선을 반복하면서 더 나은 정책을 얻게 됩니다. 정책 개선을 완전 탐욕적으로만 한다면 다른 더 좋은 방법이 있을 가능성을 더이상 탐색하지 않는 오류가 발생하므로, 적은 확률로 확률이 적은 탐색도 가능하도록 e-greedy 정책으로 활용과 탐색의 균형을 맞추게 됩니다. 이러한 행위들로 활용과 탐색의 균형을 맞추면서 최선의 행동을 찾을 수 있습니다. 행동 정책에 따라 실제 행동을 선택하고 그 선택들로 인해 경험을 쌓아 대상정책을 갱신하게 됩니다. 대상 정책과 행동 정책이 같은 경우를 On-policy, 대상 정책과 행동 정책이 다른 경우를 Off-policy라 하고, Off-policy에서 행동 정책에 따라 행동하면서 그 결과를 대상정책에 대한 기댓값을 계산하며, 이러한 계산이 가능하게 하는 것이 중요도 샘플링입니다.