본문 바로가기

트렌드 한눈에 보기/학계 트렌드

강화학습 파라미터를 통해 알아보는 사회적 거리두기의 경제적 비용 비교 3탄

2탄에서 이어집니다.


 보상함수에 대해 생각하면 할수록 답이 안나온다. 아래 식에서, 왼쪽 항은 중환자 수 제어, 오른쪽 항은 사회적거리두기 하향을 위해 작성되었다. 그런데, 중환자 수가 줄어드는 것에 비례하여 보상을 주는 게 맞을까? 줄어드는 것의 제곱에 비례하는게 맞지는 않을까? 

 

 사회를 모델링 하는 네트워크 이론에서는 Metcalfe의 법칙에 따라 기본적으로 구성 요소의 제곱을 사용한다. 사람들간의 모임을 생각해보면 납득이 가는 설명이다. 한 사람의 영향력은 다른 사람도 동일하게 가지고 있다는 전제 하에 n x n 이 성립되어 n 제곱이 되는 것이다. 그렇다면 위 식 역시 제곱으로 바꿔줘야 되진 않을까?


 이런 저런 고민을 하다 보면 끝이 없다. 일단 기본적으로 주어진 식에 대해서 최적의 해를 찾아보도록 하자. 사실 한국에서 중환자실이 부족했던 때는 작년 12월 말 3차 대유행 때 이후로 없었기에, 왼쪽 항은 그냥 전체 확진자 수를 따르도록 수정하는 것이 나을 것이다. 이에 따라 그래프를 그려보면 아래와 같다. 

 

 

 생각했던 것(a와 b에 따라 다이나믹하게 변하는 그래프)과는 많이 다른데(단조 증가), 이유는 당연하게도 확진자가 늘어나는 것은 당연히 안 좋은 것이고 추가 보상을 받을 수 있는 오른쪽 항은 당연히 커지는 것이 좋기 때문이다. 결국 보상함수를 그대로 사용하는 것은 소용이 없다는 뜻이 된다.


 이런 저런 시도를 해보면서 보상함수를 바꿔줬지만, 명확한 해답은 얻지 못했다. 미래의 나야 해결해줘!