딥러닝으로 분자의 다양한 특성을 예측하는 연구는 최근 수년 사이에 인기 있는 주제 중 하나입니다. 여러 특성들 중에서도 신약개발에서 가장 중요한 task는 분자의 bioactivity (단백질에 대한 결합, 혹은 효능)을 예측하는 것일 것입니다. 하지만, 다른 특성 예측과 비교하면 bioactivity 예측은 정확도가 낮습니다. 저는 그 이유가 단지 머신의 아키텍처나 학습 방식의 문제가 아니라고 생각합니다. 좀 더 근본적으로 데이터 자체가 가지는 문제를 생각해볼 수 있습니다. 호 머신러닝은 말 그대로 데이터로부터의 학습이고, 통계 이론의 적용을 받습니다. 통계에서 하는 일은, 표본 데이터로부터, 모집단의 확률분포를 유추하는 것이고, 머신러닝도 크게 다르지 않습니다. 그런데, 학습에 사용하는 데이터가 추정..