빅데이터(Big Data)를 활용한 경기지표(Business Indicator) 개발
안녕하세요, JOHN입니다.
경제학에서 가정하는 경제인(Homo Economicus)을 구성하는 중요한 특성 중 하나는 '완벽한 정보와 지식의 활용'이다. 인터넷 및 IT 기기의 보급으로 경제주체들은 필요한 정보를 즉각적으로 검색하고, 이용할 수 있게 되면서 합리적인 의사결정이 용이해지고 있다. 이런 상황에서 주목받는 기술이 바로 빅데이터(Big Data)다. 빅데이터 시대가 도래하면서 기업들은 소비자의 행동을 분석하여 효과적인 제품과 마케팅을 개발할 수 있고, 공공기관은 시민의 행동을 분석해 공공서비스의 질을 높일 수 있다.
그렇다면 경제정책을 수립하고 집행하는 기관에서도 빅데이터를 활용해 경제주체들의 행태를 파악할 필요가 있다. 이에 대해서 생각할 수 있는 것이 바로 빅데이터를 이용한 경기지표다.
1. 빅데이터(Big Data)와 경기판단지표
1) 기존 경기지표들과 문제점
경기는 상승과 하락을 끊임없이 반복한다. 정확히 말하자면 실질 GDP, 즉 소비와 투자, 고용과 같은 거시적인 집계변수들이 장기적 추세선을 중심으로 상승과 하락을 반복한다. 그리고 현재의 경기가 어떤 국면에 있는지, 경기흐름은 어떠한지를 단기적으로 신속하게 감지하기 위해 쓰는 것이 바로 경기지표다.
경기지표는 실물지표와 심리지표로 나뉘는데, 전자는 생산, 소비, 투자 등의 실제 데이터를 통해 경기의 단기적 동향을 파악하는 것이다. 후자는 기업 혹은 소비자들의 경제인식을 설문조사해 작성하는 지표로서 기업경기실사지수(BSI), 소비자동향지수(CSI), 그리고 경제심리지수(ESI) 등이 대표적이다. 그런데 이런 심리지표들은 전통적인 경제지표가 포착할 수 없는 경제주제들의 심리변화를 포착하는 데 유용하다. 또 아래 그림에서 볼 수 있듯이 심리지표와 실물지표는 상당히 높은 상관관계를 갖는 동시에, 심리지표가 GDP와 같은 실물지표를 선행하기 때문에 경기흐름을 속보적으로 파악하는 중요한 도구가 된다.
그런데 이런 심리지표들의 문제점은 무엇일까? 한국은행에서 매월 조사되는 ESI와 같은 심리지표들은 기존 실물지표보다 속보성이 있긴 하다. 하지만 월별 데이터이기에 외부적 충격이 있을 때 급변하는 경제흐름을 조기에 포착하지 못할 수 있다. 예를 들어 몇년 전 메르스(MERS) 사태가 발발했을 때, 우리 경제의 소비 및 서비스 업황이 급격히 둔화된 적이 있었다. 하루하루 침체 정도가 악화되는 당시엔 조기에 경기를 진단할 수 있는 지표들이 거의 없었다. 이처럼 지표의 속보성이 떨어지면, 급격한 경기침체에도 정책당국의 개입은 지연될 수밖에 없다. 이른바 정책의 인지시차가 발생한다. 이런 상황에서 보완적으로 쓸 수 있는 것이 빅데이터를 활용한 경기지표다.
2) 왜 빅데이터 경기지표가 필요한가
누군가가 인터넷에서 '경기'를 검색한다는 것은 잠재적으로 경기가 회복하는 것 혹은 침체되는 것에 대한 일련의 반응일 수 있다. 다시 말해 누군가 검색한 '경기회복(침체)'이라는 검색 키워드에는 현재 시점에서 가용한 정보를 취합한 결과, 경기가 회복(침체)한 결과라거나 혹은 향후 경기가 회복(침체)될 것이라는 기대가 담긴 것이라 해석할 수 있다. 이런 검색 행위들을 총체적으로 합할 수 있다면, 그것은 한 국가 내에서 현재 경기흐름이 어떻게 형성되고 있는지 또는 향후 어떻게 형성될 것인지를 짐작하는 데 유용한 지표로 활용할 수 있다.
2. 빅데이터 경기판단지표 : 네이버 검색 경기지수(Naver Search Index)
필자는 메르스(MERS) 사태가 심화되던 2015년 무렵, 기존 경기지표들의 속보성에 회의감을 느꼈고 빅데이터를 활용한 경기지표가 필요하다는 생각을 했다. 그리고 빅데이터를 이용한 경기판단지표 개발: 네이버 검색 경기지수 작성과 유용성 검토(2014)의 방법론을 따라 '네이버 검색 경기지수'를 재구성해 당시 상황을 분석한 적이 있다. 방법론은 논문과 거의 동일하므로 생략하고, 대략적인 개념과 분석의 결과를 소개해 보도록 하겠다.
네이버 검색 경기지수(NSI)는 네이버트렌드의 검색로그 데이터를 기초로 만들어진다. 네이버트렌드의 검색어 통계는 일별, 그리고 주별로 업데이트되기 때문에 이를 잘 활용하면 기존 심리지표보다 속보성 있는 지수를 만들 수 있다. 네이버 트렌드에서 호황 관련 5개 키워드(호황, 호경기, 경기호황, 경제호황, 경기회복)와 불황 관련 5개 키워드(불황, 불경기, 경기불황, 경제불황, 경기침체) 등을 활용해 100을 기준으로 지수화하면 네이버 검색 경기지수를 만들 수 있다.
아래 그림은 과거 필자가 월별 NSI를 만들어 다른 경제심리지수(ESI 및 BSI)와 비교한 것이다. NSI의 추세가 다른 심리지표들의 흐름과 거의 유사하고(교차상관분석 결과 0.8 이상), ESI를 1개월 선행하는 것으로 나타나 기존 지표를 충분히 보완할 수 있는 것으로 보인다.
속보성 면에서 조금 더 유용한 시사점을 주는 것은 NSI를 주별지표로 활용하는 것이다. 아래 그림은 메르스 사태가 심각한 2015년 6월 무렵, NSI를 주별로 만들어 메르스 격리자 수와 비교한 것이다. 메르스는 소비와 서비스업 매출에 큰 악영향을 끼치며 민간의 경제심리를 악화시켰다. 따라서 메르스 사태가 얼마나 심각한지를 설명하는 대리지표가 '메르스 격리자 수'라고 하고, NSI가 현재 경기흐름을 반영하는 지표라고 한다면 이는 분명한 음의 관계를 보여야 한다. 그리고 아래 그림처럼 주별로 심각해지는 상황을 NSI는 충분히 잘 반영하고 있었다.
위 분석은 2015년 중순까지 진행된 것이기에, 2016년이후부터 최근까지 시계를 넓혀 추가적인 분석을 진행해봤다. 아래 좌측에서 보듯이 여전히 NSI는 기타 심리지표들(ESI, CSI)과 밀접한 상관을 보이고 있고, 아래 우측 그림에서 볼 수 있듯이 NSI가 ESI를 1개월 선행하는 것으로 나타난다. 즉 NSI가 기존 경제심리지표들을 보완할 수 있음을 다시 확인한 셈이다.
이처럼 네이버 검색 경기지수는 '경기상황'에 대한 민간의 기대와 전망을 담고 있는 보조적인 지표로 기능할 수 있는 것으로 보인다. 하지만 필자가 분석한 위 지표는 네이버트렌드에서 추출한 경기 관련 키워드들을 단순합산 및 평균하고, 더 다양한 키워드를 고려하지 않았다. 따라서 더 많은 경기관련 검색 키워드를 고려하거나, 주성분 분석(Principal Component Analysis)으로 경기검색 키워드를 추출함으로써 가중평균하는 방식을 취하면 더 나은 결과를 얻을 수도 있지 않을까 생각된다.
데이터엔 사람의 행태와 심리가 들어있고, 사람의 행태와 심리는 경제와 사회를 구성하는 요소다. Jeff Bezos의 말대로 빅데이터 시대엔 "우리는 결코 데이터를 내다버리지 않을 것"이다. 데이터를 좀 더 잘 이해할 수 있게 되고 처리할 수 있으며, 그로부터 가치를 창출하는 능력은 점점 더 중요한 능력이 될 것이다.
논문 저자신가요? 흥미로운 글이네요ㅋㅋ @홍보해
저자는 아니예요 ㅎㅎ 방법론이 실린 원문이 한국은행 용역보고서인데, 2015년에 경제 지표만드는 것에 관심이 많아서 해당 논문 저자분과 컨택하면서 만드는 방법을 익혔어요 ㅎㅎ
관심 가져주셔서 감사드립니다 :)
혹시 이 글의 출처와 함께 SNEK의 독자분들에게 소개해도 될까요?^^
네, 물론이죠-! 제 글을 봐주시는 분이 있다면 저도 기쁜 일이니까요 :)
데이터의 질과 양이 적절하게 선택되기만 하면, 데이터 분석은 정말 놀라운 힘을 발휘하는 것 같습니다. 아래 링크는 시사인에서 나온 기사인데요, 한번 주의깊게 읽을만 합니다. http://www.sisain.co.kr/?mod=news&act=articleView&idxno=31381
오 좋은 기사네요, 공유해주셔서 감사합니다 :) IBM CEO는 '향후 모든 산업에서 데이터가 승자와 패자를 가를 것'이란 말을 했는데, 이 진의를 점점 실감하게 될 것 같아요.
글의 수준이 다릅니다. 엄지 척
크, 힘이 나는 댓글이네요. 정말 감사합니다!
와, 네이버검색수로 지수를 만들고 트렌드를 찾아내시다니 대단합니다.
어떻게 고도화 하는지에 따라 새로운 지표가 만들어지겠네요. 전 소비자 구매 쪽으로 적용해보고 싶어요.
네 맞습니다 :) 비슷한 방식으로 물가지수도 만들어 봤었는데, CPI를 3개월 선행하는 거로 나와서 기대 인플레이션 지표를 보완할 수 있을 거라 생각도 들더라구요. 오늘 금융 데이터도 익명처리해서 산업화할 수 있는 길이 열렸는데, 점점 데이터로 많은 부가가치가 창출될 거 같아요 :-) 관심 가져주셔서 감사합니다.
🤗
짱짱맨 호출로 왔습니다!
한주 수고하세요
감사합니다!
이런 정보까지 공유해 주시다니. 좋은 글 고맙습니다. ^^
저야말로 읽어주시고, 관심 가져주셔서 늘 감사한 마음입니다! :-)
euijin님의 글들은 하나같이 너무 가치있고 좋아서 리스팀 하게 됩니다:) 빅데이터란 결국 사람들의 심리를 반영하네요. 그래서 개발하신 NSI지수를 사용해보고 싶단 생각이 들었어요.
와, 칭찬 정말 감사해요 :) 저도 사람들의 심리는 행태로 이어지고, 그 행태는 데이터로 집약되기 때문에 어떻게 그것을 해석하고 활용하느냐가 중요해지는 거라 생각해요. 논문이 어렵지 않으니 한 번 읽어보시고, 지수를 만들 때 궁금하신 부분 물어보시면 언제든 답해드릴게요!
Congratulations @euijin! You have completed some achievement on Steemit and have been rewarded with new badge(s) :
Award for the total payout received
Click on any badge to view your own Board of Honor on SteemitBoard.
For more information about SteemitBoard, click here
If you no longer want to receive notifications, reply to this comment with the word
STOP
글 잘봤습니다ᆞ^^
읽어주셔서 감사드립니다 :-)