Physics and Informatics 21

bioinformatics: CCLE expression 데이터 gene symbol, entrez id로 찾기

Cancer Cell Line Encyclopedia (CCLE) 는 천여개의 Cancer Cell line에 대해 copy number, sormatic mutation, expression 등을 수록한 데이터베이스 입니다. 지금은 DepMap (Dependency Map) 과 통합되었고, DepMap portal을 통해서 제공됩니다. DepMap은 Cancer Cell line의 gene knockout/knockdown 에 대한 세포 생장 변화 여부를 수록한 데이터베이스 입니다. 최신 공개 버전은 23Q4 입니다. https://depmap.org/portal/download/all/ 포털에서 데이터를 그래프로 볼 수도 있고 다운로드를 할 수도 있습니다. protein coding genes에 대한..

bioinformatics: gene symbol, entrez id 변환

이전 글 ( https://novelism.tistory.com/381 )에서 언급한 gene symbol과 entrez ID 를 변환하는 코드 예시입니다. DB를 배포할 때, 서로 중복될 여지가 있는 gene symbol 말고도 풀네임이나 ID 를 함께 배포하면 좋겠습니다만, 그렇지 못한 경우가 여럿 있습니다. 일단 저는 정보를 추출할 때 다음 2개의 파일을 사용합니다. 하나는 HGNC이고, 다른것은 NCBI gene info 입니다. HGNC는 당연히 HGNC symbol 이 기준이고, NCBI는 entrez id 가 기준입니다. https://ftp.ebi.ac.uk/pub/databases/genenames/hgnc/tsv/hgnc_complete_set.txt https://ftp.ncbi.nl..

bioinformatics: gene symbol, 유전자 이름에 대해서

보통 bioinformatics라고 하면 주로 DNA, RNA에 대한 연구를 생각합니다. 저는 단백질 구조예측으로 단백질 서열-구조-기능-진화에 대한 연구에서 시작하였습니다. 관련 분야중에는 단백질체학이라는 분야도 있지만, 개개의 단백질에 대해 보는 것이 아니라 단백질체로 분석하기에 차이가 있습니다. 단백질 구조에 대한 연구는 물리화학이나 생물물리학적인 접근방법도 있지만, 저는 bioinfomatics에 가까운 방향으로 연구를 했습니다. 다양한 서열정보를 활용한다는 점에서 그렇습니다. 그동안 단백질 구조와 관련된 약물 탐색 관련 일을 했지만, 원래는 유전체 관련 연구를 하고 싶었습니다. 고등과학원을 그만두면서 유전체 분석 예비 전문가 과정 교육을 받기도 했고, 후에 회사로 갈 때도 유전체에 대한 연구를 ..

상보성 원리: 대립적인 것은 상호 보완적이다.

요즘 세상이 너무 날카로워지고 있는 것 같습니다. 화합과 존중과 평화의 시대는 끝났고 대립, 미움, 분노, 증오, 좌절이 지배하고 있는 것 같습니다. 그래서 세상의 화합을 바라는 마음으로 대립의 시대에 살던 한 과학자의 사상에 대한 이야기를 하려고 합니다. contraria sunt complementa 덴마크의 물리학자 닐스 보어의 가문 문장에 적힌 글입니다. 대립적인 것은 상호 보완적이다. 물리학자들은 세상의 원리를 발견하기를 희망합니다. 좀 심하게 나가면, 그 원리로 세상 모든 것을 설명하거나, 모든 분야에 그 원리를 응용하려는 생리를 가지고 있습니다. 양자역학의 창시자 중 한 사람인 닐스 보어는 아마도 상보성 원리가 세상 모든 것을 설명하는 가장 핵심적인 원리라 생각한 것 같습니다. 사실 저도 동..

Protein bioinformatics: 구조-기능-진화와 머신 러닝

저는 조금 다양한 분야를 연구한 것 같습니다. 그중에서도 저에게 가장 흥미 있는 분야는 생물정보학이라고 생각합니다. 오늘은 단백질 생물정보학과 머신러닝의 관계에 대해 이야기하겠습니다. 저는 단백질 생물정보학에서 처음 머신러닝을 접하였습니다. 머신러닝에서 중요한 주제 중 하나는 데이터의 분포와 매니폴드입니다. 예를 들어 28*28 픽셀의 그림에서, 오직 흑과 백 두 가지 경우만 존재한다고 생각해 봅시다. 이때, 이 픽셀에 흰점과 검은 점을 조합할 수 있는 총경우의 수는 2^(28*28) 가지입니다. 이 그림 파일의 각 가능한 조합의 경우를 28*28 bit로 표현할 수 있을 것입니다. 그런데, 대부분의 조합들은 아마도 우리가 신호 없는 모니터에서 보는 흑백이 랜덤 하게 뿌려진 노이즈에 해당할 것입니다. 질..

아미노산 종류에 따른 residue-residue contact 비율

아래 그림은 2018년도에 모니터 화면을 찍은 것입니다. 생각해보면 좀 아쉬운데... 단백질 구조들을 모아서 아미노산 종류에 따른 contact 비율을 그려본 것입니다. (노말라이즈도 이미 했습니다.) x,y축은 각각 아미노산의 종류고 (20종) color는 contact 비율입니다. 아미노산마다 residue-residue contact 비율이 다름을 볼 수 있습니다. 당연히 그렇겠죠. 서로 같은 전하를 가진 아미노산이 접촉되기는 어렵고, 서로 다른 전하를 가진 아미노산들은 상대적으로 서로 접촉되기 쉬울 테니... 4번의 가장 밝은 노란색이 무슨 아미노산인지는 안봐도 추측할 수 있습니다. 시스테인입니다. 시스테인은 다른 시스테인과 disulfide 결합을 하는데, 다른 조합에 비해서 contact 비율..

논문 리뷰 Condo: 공진화 정보를 이용한 단백질 도메인 경계 예측

저에게 가장 의미 있는 두 편의 논문중 하나입니다. 저는 좋은 연구를 하고 싶은 분들께 이 연구를 추천해드리고 싶습니다. 당시에 좋은 연구란 무엇인가에 대해 고민을 많이 했습니다. 그리고 이 논문이 제 결론이었습니다. 좋은 아이디어는 그것만으로도 연구로서의 가치를 가지고 있습니다. 다만 논문은 개판으로 못썼고, 논문의 구성도 형편없습니다. 논문을 작성하는 분들에게는 구성이 안 좋은 논문의 예시로서 보여드릴 수 있겠습니다. 이 논문에서 단백질 도메인 경계 예측문제를 예측하기 위한 당시로선 획기적인 방법을 제시하였습니다. 제목은 Condo: protein domain boundary prediction using coevolutionary information 입니다. 2018년도에 나온 논문이고, 에디터는..

데이터 분석: 유사성과 정렬

복잡한 데이터들을 분석하는 과정에서 하는 일중 하나는 데이터의 유사성을 찾는 것입니다. 유사성을 비교하기 위해선 데이터를 정렬해야 합니다. DNA나 단백질 염기 서열에 대해 연구하는 bioinformatics 분야에서 많이 하는 일중 homology 탐색이 있습니다. 유사한 서열을 탐색하는 것입니다. 서로 다른 서열의 유사성을 비교하기 위해선 정렬을 해야 합니다. 서로 무관한 것들을 정렬하는 것은 의미가 없습니다. 약물 탐색도 마찬가지입니다. 특정 타깃 단백질에 대해서 결합하는 약물들을 그냥 뿌려두면, 분석하기 매우 어렵습니다. 이럴 때 2D, 3D 구조 정렬, Maximum common subgraph 같은 다양한 정렬 방법을 활용하면 약물들 사이의 유사성을 확인할 수 있습니다. 그리고 유사한 약물들끼..

인공지능은 물리학를 학습할 수 있을까?

과학은 현실을 다루는 학문입니다. 여기서 말하는 현실이란, 우리가 살고 있는, 즉, 관찰자인 우리 자신이 있고, 관찰자에게 측정된 사실들로 이루어진 세계입니다. 과학은 논리의 학문이지만, 논리만으로 성립하지 않습니다. 실험 혹은 측정은 과학에서 가장 중요한 요소입니다. 다른 말로 과학이란 관측한 현상들을 논리적으로 설명하는 학문이라고 할 수 있습니다. 과학에선 기본적으로 우리가 살고 있는 세상이 논리적이라고 가정합니다. 어떠한 가정이 현실 세계에서 참이라면, 그 가정으로부터 논리적으로 전개되는 결과도 현실세계에서 참이어야 한다는 것입니다. 예를 들면, 아인슈타인의 특수 상대성 이론은 진공에서의 광속이 일정하다는 것과, 상대성 원리라는 두 가지 가정으로부터 논리적으로 유도됩니다. 만약 우리가 살고 있는 세..

연구자로서 미래를 보는 것에 대해서

저는 대학원생 시절 매우 무능한 연구자였습니다. 학업 성적은 나쁘지 않았지만, 알고 있는 지식을 연구에 거의 활용하지 못했습니다. 연구 결과에 대한 판단은 전적으로 교수님께 의지할 뿐이었습니다. 그러던 어느 날, 다른 학생의 발표를 보고 그동안 제가 무엇을 잘못하고 있었는지 알게 되었습니다. 그 학생분은 자신의 연구를 자신의 연구라고 생각하고 연구를 하고 있었습니다. 스스로 정보를 찾고, 생각하고 판단하는 것을 보고, "아... 저것이 자신의 연구이구나..."라고 알게 되었습니다. 결국 어떤 연구에 대해서 가장 잘 아는 사람은, 연구자 본인이어야 합니다. 내가 한 일을 내가 가장 잘 알아야지 나보다 더 잘 아는 사람이 있으면 이상하지 않습니까?... 아무튼 저는 그때까지 몰랐습니다. 그게 제가 연구자로서..