Drug/Computer-Aided Drug Discovery

TGFR1 DUD-E dataset 단백질 구조기반 분자 선별

Novelism 2022. 6. 20. 22:04

TGFR1 에 대한 단백질-리간드 결합 구조 분석은 

https://novelism.tistory.com/253

 

단백질-리간드 결합 구조와 스크리닝 예시: TGFR1 inhibitor

TGFR1 (Transforming growth factor beta receptor type-1 or TGFBR1)와 저해제들의 co-crystal 구조입니다. TGFR1 는 Tyrosine Kinase Inhibitors의 일종으로, 아래 그림은 ATP가 결합하는 포켓에 결합하는 저해..

novelism.co.kr

를 참고하세요. 

 

DUD-E dataset에 있는 TGFR1의 active와 decoy에 대해 단백질 구조 기반으로 분자 선별한 결과입니다. 

사용한 pdb id는 3 HMM입니다. 

여기서 두가지 옵션을 비교하였습니다. 

위 그림에서 단백질-리간드 양쪽에 붙어있는 물분자 (HOH)와, ligand에 속하는 3개의 aromatic ring이 있습니다. 

TGFR에 대해 결합구조가 알려진 ligand들 중 여럿은 저 3곳 근방에 aromatic ring이 위치합니다. 

첫 번째 옵션은 저 물분자를 도킹할 때 포함시키는가 포함시키지 않는가이고, 

두 번째 옵션은 도킹된 리간드의 aromatic ring들이 저 3개의 reference 위치 근방에 올 경우 가산점을 주는 것입니다. 조금 크게 잡은 것 같지만, aromatic ring이 reference의 위치 근처인가 아닌가를  판단하는 기준의 cutoff 값은 2.5A입니다. 이 방법은 3D pharmacophore model의 일종이라고 생각해도 됩니다. (aromatic ring만을 사용한다는 점이나, aromartic ring이 aromatic interaction을 하지 않는다는 좀 특이한 경우이긴 하지만...)

 

아래가 결과입니다. 그림은 ROC이고, 표는 AUC와 Enrichment Factor 1%입니다. 

TGFR 자체는 비교적 vina로 도킹이 잘 되는 타깃이고, 기본적으로 점수가 높은 편입니다. 

water를 포함한 경우가 포함하지 않은 경우에 비해 예측 성능이 높습니다. 또한 aromatic ring의 위치를 reference와 비교하여 가중치를 준 경우가 주지 않은 경우에 비해 성능이 높습니다. 

 물론 기본 vina 옵션 이외에 사용한 조건들은, 경우에 따라서 바이어스로 작용할 수도 있습니다. 예를 들면 저 물분자를 떼어내고 결합할 수 있는 리간드가 있다면, 이 옵션으로 도킹했을 때는 그런 리간드가 오히려 결합하지 못하는 것처럼 예측될 가능성이 높습니다. 또한 꼭 3개의 aromatic ring이 reference와 유사한 위치에 오지 않는 활성 분자도 존재합니다만, 이런 분자들은 오히려 탐색이 잘 안 될 것입니다. 

 저는 보통 구조기반 약물탐색을 할 때, 미리 머릿속으로 어떤 분자들을 선별할지 대략 윤곽을 정해두고, 그러한 분자가 잘 선별되는 룰을 도킹 전 후에 사용합니다. 당연히 해당 분자와 다른 타입의 분자들은 선별이 안될 가능성이 높아지지만, 원하는 분자들이 높은 스코어를 가지고 선별될 가능성은 높아집니다. 

룰을 잘 적용할 경우 전반적 성능을 보여주는 AUC도 향상되지만, 높은 스코어를 가지는 분자들 중에서 활성 분자가 얼마나 존재하는가를 보여주는 평가 지표인 Enrichment factor가 특히 높아집니다. 

 

 

  ROC AUC EF 1%
vina + water 0.928 35.474
vina + water + aro 0.954 48.305
vina 0.893 14.341
vina +aro 0.948  32.455

 일반적으로 (PubChem의 HTS 데이터) 다양성이 높은 분자 라이브러리에서 활성 분자는 ~1/1000 정도의 비율로 존재합니다. 10만 개라면 100개 정도의 hits가 존재하는데, 100개를 선별해서 10개의 hits이 나왔다면, enrichment factor 0.1% 는 100입니다. 가상 스크리닝은 실험을 진행할 분자를 빠르게 추려내기 위한 것이라 최소한의 수량의 분자에 대해서만 실험을 진행하고자 한다면, EF가 높은 메서드가 유용합니다. 

 다만 룰을 너무 엄격하게 사용할 경우, 기존 분자와 구조적으로 너무 유사한 분자들만이 탐색된다는 문제가 있으니, 주의해서 잘 설계해야 합니다. 의약화학자가 옆에 붙어서 잘 지도해주면 좋겠습니다만, 애석하게도 제 주변엔 없어서 그냥 제가 공부해서 하고 있습니다. 

 

 AI신약개발하라고 뽑아놨더니 그냥 제가 룰을 만들어서 스크리닝 하고 있습니다. 이것도 알고리즘이고 (규칙 기반) 인공지능이라고 생각합니다. 그냥 딥러닝이 아닐 뿐... 솔직히 저도 이거 일일이 만들기 참 번거로운데 딥러닝으로 되면 좋겠네요.