머신러닝으로 투자에 성공할 수 있을까?

image.png
투자관련 머신러닝 추천 영상입니다.


금융영역 딥러닝 문제점


문제점 1. 시계열 Feature 자체의 노이즈

다음 주가 = 현재 주가 + 정보 + 노이즈

문제는 노이즈 > 정보

lstm(RNN)을 이용한 주가 예측 -> 비슷하지만 오른쪽으로 Lagging

문제점 2. 시계열 Feature 종류 대비 짧은 시계열 길이 (부족한 데이터)

예) 자산배분

  • 자산군 데이터 : 금, 채권, 주식, 리츠, 원자재

  • 매크로 데이터 : 금리, 인플레이션, 장단기금리차

  • High Level Feature : 자산군 모멘텀 효과, 자산군 평균회귀 효과, 확장적 통화정책,

긴축적 통화정책 분류, 단기부채사이클, 장기부채사이클

  • 주로 Monthly Frequency 데이터 -> 40년 데이터 = 겨우 480개의 Sequence 길이

  • 고려할 수 있는 요소는 수십 ~ 수백개인데, 고려할 수 있는 데이터 길이는 너무 짧음 -> 차원의 저주

  • 고려할 요소가 늘어나면 그것을 사용할지 판단하기 위해서는 필요한 데이터가 기하급수적으로 늘어남

문제점 3. 문제점 1과 문제점 2로 인한 Overfitting

해결 방안


문제점 1. 시계열 Feature 자체의 노이즈

  • Time-series denoising
  1. Moving Average(MA, EMA, ...) -> 오른쪽으로 Lagging

  2. Bilateral Filter(어느 정도 denoising 할지?)

  3. CNN Stacked AutoEncoder 기반 Denoising Module (자동)

문제점 2. 시계열 Feature 종류 대비 짧은 시계열 길이

  • GAN 기반 데이터 생성

  • (간접적으로라도) 경제적 함의점을 내포하는 모델 설계

  • 데이터 -> 직관 -> 모델 -> 포트폴리오 생성

문제점 3. 문제점 1과 문제점 2로 인한 Overfitting

  1. Asynchronous Multi Network Learning
  • Overfitting이라고 해서 단순하게 L1, L2 Norm을 적용하면 안됨

  • 여러개 네트워크 학습 -> validation 경쟁 -> 네트워크 탈락, 추가 -> validation -> test -> 앙상블

  • 여러개 네트워크 학습 -> 경쟁 -> overfitting 정도에 따라 예측들이 다른 구간 -> 잘모르겠다 -> 보수적 투자

  1. Bayesian Inference - Uncertainty Quantification

a. Monte Carlo Dropout -> Tau, Dropout rate, Activation에 따른 영향도 높다는 단점

b. Monte Carlo Batch Normaliztion

c. Deep Learning Regression + Gaussian Process Regression

선지도학습 후 GPR 학습 -> 가장 심플하고 적용하기 간단

마지막 Fully Connected 하기 전의 노드들이

선형 독립적으로 Representation Learning이 잘 됐다는 가정 하에 효과적으로 GPR 학습 가능

금융 머신러닝 전문가들은 '머신러닝으로 투자하기'를 과연 긍정적으로 보는가?