Physics and Informatics

아미노산 종류에 따른 residue-residue contact 비율

Novelism 2022. 12. 12. 20:43

 

아래 그림은 2018년도에 모니터 화면을 찍은 것입니다. 

생각해보면 좀 아쉬운데... 

단백질 구조들을 모아서 아미노산 종류에 따른 contact 비율을 그려본 것입니다. (노말라이즈도 이미 했습니다.)

x,y축은 각각 아미노산의 종류고 (20종) color는 contact 비율입니다.

 아미노산마다 residue-residue contact 비율이 다름을 볼 수 있습니다. 

 당연히 그렇겠죠. 서로 같은 전하를 가진 아미노산이 접촉되기는 어렵고, 서로 다른 전하를 가진 아미노산들은 상대적으로 서로 접촉되기 쉬울 테니... 

4번의 가장 밝은 노란색이 무슨 아미노산인지는 안봐도 추측할 수 있습니다. 시스테인입니다. 

시스테인은 다른 시스테인과 disulfide 결합을 하는데, 다른 조합에 비해서 contact 비율이 높습니다.

 

 저당시 direct coupling analysis (DCA)를 활용해서 residue-residue 공진화로부터 contact을 예측하는 방법에 AI를 도입하는 연구들이 많이 나왔습니다. 

 그런데, 당시에는  DCA 결과로부터 다음과 같은 식으로 coupling 을 계산하였고, 이를 바로 contact score로 사용하거나,   AI에 입력으로 넣었습니다. 

.ε_ ij (a,b) 는 i,j 번째 residue의 아미노산 이 각각 a,b 일 때의  pairing potential입니다. 

 아미노산 종류에 따라서 contact 선호도가 다른데 그러한 가중치가 반영되지 않고 단순히 제곱의 합계를 계산했습니다.

 이 스코어만 적절히 바꿔줘도 바로 성능이 향상될 것처럼 보이더군요. 그래서 간단히 모델을 만들어서 테스트까지 해봤는데 바로 성능이 향상되는 것은 확인했습니다. 

 그래서 본격적인 연구를 하려고 모델을 설계했는데, 당시 제가 AI를 잘 활용지 못해서 다른 사람들에게 도움을 청했지만 서로 시간을 맞추기도 어렵고 이 연구에 대해 이해시키지 못해서 결국 더 진행하지 못했습니다. 

 그때 안되겠다 싶어서 AI를 제대로 공부하기로 결심했습니다. 

 그리고 1년쯤 후에 David T Jones 교수님이 만든 contact prediction method에 저 아이디어도 반영되어 있더군요. 

 동일한 시기에 그분은 AlphaFold 개발에도 참여하였고요. 

 

아이디어는 있어도 실력이 부족해서 못하는 일들이 있어서 아쉽습니다.