Drug/Computer-Aided Drug Discovery

인공지능과 분자의 bio activity, IC 50에 대해서

Novelism 2022. 5. 10. 23:34

 

 인공지능 신약개발을 공부할 때 곤란한 점들 중 하나는 생물학, 화학적 수치들에 대해 이해하기 어렵다는 점입니다.

 특히나 개별 논문에서 수치가 어떻게 정의되었는지 확인하는 것이 아니라, ChEMBL이나 DB나 DUD-E 같은 데이터셋에서 가져온 경우 이런 수치들을 그대로 인공지능 학습에 사용해도 되는지 의문이 듭니다.

 

 결론부터 말씀드리면, 확인 안 하고 사용하면 안 됩니다.

 

 IC 50 같은 경우도 실험마다 다르게 정의될 수 있습니다. 그것이 꼭 셀 실험과 엔자임 실험인지에 따라서만 나눠지는 것은 아닙니다.

 엔자임(효소) 중에서도 ATP를 기질로 하는 kinase도 있지만, peptide를 기질로 하는 peptidase 도 있습니다. 

 그리고 같은 단백질에 대한 IC 50이라 할지라도, ATP의 농도에 따라서 다른 값이 나올 수 있습니다.

IC 50을 풀어서 쓰면 half maximal inhibitory concentration입니다. 즉, 내가 테스트하려는 물질이 단백질과 얼마나 잘 결합하는가를 보는 수치가 아니라, 그 물질이 특정 생물학적, 혹은 생화 학정 기능을 얼마나 억제하는지를 의미합니다.

 kinase라면, ATP와의 결합을 얼마나 저해하는가로 볼 수 있겠죠. 다만, 실험에서도 직접 측정할 수 있는 수치는 많지 않기에 보고 싶은 것을 직접 보기 본다는 간접적으로 본다고 생각해야 할 것 같습니다

 
competitive inhibitor의 경우, IC 50을 Ki와 비교하면 
IC50 = Ki(1+ [S]/km)
입니다. 
Ki는 저해제의 dissociation constant, km은 기질의 dissociation constant입니다. 
[S]는 기질의 농도입니다. 
[S]/km이라면, 기질의 반응 상수에 비해 농도가 얼마나 높은가를 의미합니다. 
식을 보시면 아시겠지만, 기질의 농도가 높을수록, IC 50이 높아집니다. 
inhibitor가 기질과 경쟁해야 하다 보니, 기질이 많으면 아무래도 경쟁에서 밀리겠죠. 

그냥 간단하게 말해서, ATP 농도를 10배 늘리면 IC 50도 10배 가까이 높아집니다. 
따라서 내가 사용하는 IC50 값에서, ATP의 농도가 얼마나 되었는지, 그 ATP가 특정 엔자임과의 결합 상수가 얼마나 되는지를 모른다면 단순히 IC50 를 가지고 DTI를 학습하는 것은 무의미하다고 보입니다.

 경쟁적 억제제와 다른 타입의 억제제가 섞여있다면 더 복잡해지겠죠. 결합하는 포켓이 다른 경우도 있고요. 

 

저는 화학 전공이 아니라서 처음 인공지능 신약개발 분야에 들어왔을 때 이런 것들 때문에 너무 어려움을 느꼈습니다.  많은 사람들은 자기가 잘 이해하지 못하는 일, 어떻게 해야 하는지 모르는 일은 고려하지 않고, 그냥 무시해버리는 경향이 있습니다. 하지만, 생물학의 영역에선 그런 식으로 하면 제대로 된 결과가 나올 수 없습니다. 

 

뭐 저도 이 글을 쓰면서도 제대로 알고 쓰는 건 아닙니다... 간단한 것이라도 비전공자에겐 어려움이 큽니다. 옆에서 이다 아니다 확실히 말해주는 사람이 있으면 정말 좋겠습니다.   bioactivity data의 이런 복잡한 문제 때문에 지금처럼 인공지능보다는 룰 기반의 fragment based virtual screening을 사용하게 되었습니다. 분자가 단백질의 어디에 결합할지를 대략적으로 추측하는 방법도 있기도 하고요.