본문 바로가기

트렌드 한눈에 보기/학계 트렌드

데이터 분석을 효과적으로 하는 방법은 없을까? - Matlab

 블로그에 이런 제목을 달고 글을 쓰면, 마치 효과적으로 데이터 분석을 하는 글을 쓰려는 것처럼 보일 수 있지만 사실은 하소연을 하려는 참이다. 데이터 분석을 효과적으로 할 수는 없을까?


 예를 들어보자. 나는 인체관절의 반복적인 움직임을 관찰하고 있다. 반복되는 움직임에서 힘이 얼마나 가해지는지, 그리고 어떻게 달라지는지를 확인하며 움직임이 신체에 미치는 영향을 보려는 것이다.

 

반복되는 움직임

 

 이를 통해 위와 같은 날 것의 데이터를 확보할 수 있다. 하지만, 인체의 움직임이라는 것이 그렇듯 일관된 움직임을 유지하는 것은 힘들다. 실험 도중 배를 긁는다던가, 어떤 동작을 취해야 하는지 까먹는 바람에 몇 초간 움직이지 않는 구간도 생기기 마련이다. 해당 구간들을 적절히 잘 파악해서 "이 구간은 분석하지마" 하고 컴퓨터에 말로 명령하면 좋겠다만 그렇게 녹록지 않다. 일일이 어디부터 어디까지는 무시하도록 데이터 범위를 설정하고, 나뉜 데이터들을 다시 하나로 모아서 분석을 진행해야 한다.

 

 

 그렇게 모인 데이터에서 insight를 얻는 과정 또한 난감한 것은 마찬가지다. 위 그래프는 2차원으로 그려져있던 것들을 3차원으로 모아놓은 것이다. 팔을 굽혔다 펴는 동작이었는데, 굽히는 동작은 빨간색 / 펴는 동작은 파란색으로 표시되어 있다. 미세하게 빨간색 그래프가 파란색보다 위에 존재하는 것을 확인할 수 있는데, 해당 발견이 정말로 의미있는 것인지 확인하기 위해서는 그 차이를 줄여서 다시 실험해 봐야한다. 

 

 게다가 빨간색 / 파란색으로 나누는 과정은 또 어떤가? 생각하기로는 "응, 팔을 굽히는 것은 빨간색, 펴는 것은 파란색이구나" 하고 넘어가지만, 컴퓨터에 입력할 때는 이야기가 다르다. "각도가 이전보다 커졌으면 펼쳐지는 과정이고, 이전보다 작아졌으면 굽히는 과정이야. 만약에 둘의 각도가 같으면, 이전 상태를 봐서 이전에 굽히는 동작이었으면 계속 굽히는 동작, 펼쳐지는 동작이었으면 펼치는 동작으로 구분하면 돼" 라는 것을 알려줘야 한다. 게다가 모든 데이터를 한번의 코드로 돌리는 게 아니기 때문에 피실험자별로 같은 내용을 동일하게 수행해줘야 하는 것이다.


 이렇다보니, 데이터 분석이랄 것도 없이 매크로의 하나가 된 느낌이다. 같은 내용을 서로 다른 데이터 범위에 대해서 수행하고 있기 때문이다. 그렇게 얻어낸 데이터를 확인하기 위해서는 새로운 실험을 구상해서 새로운 데이터를 얻은 뒤, 또 동일한 분석을 해줘야 한다. 함수를 만들어서 설정하면 한결 나아질 수 있겠지만, 데이터마다 특성이 다르기 때문에 (예를 들면, 배를 긁어서 실험이 중단되는 시점이 다를 수 있다) 함수를 일괄 적용하는 것은 무리가 있다. 결국 일일이 확인해줘야 한다는 뜻이다.


 이런 말들을 하면, "뭐 당연한 거 가지고 그래" 하고 대수롭지 않게 보는 데이터사이언티스트들도 많이 있을 테다. 실로 직업적으로 다루는 데이터보다야, 이렇게 만지는 것은 비할 수도 없이 간단한 수준이겠지. 하지만, 이렇게 작은 범위에서 데이터를 보는 동안, 조금이라도 노하우를 쌓았으면 하는 마음이다. 지금은 마냥 노가다처럼 보고 있는데, 보다 데이터 분석을 효과적으로 하는 방법은 없을까?