Physics and Informatics/bioinformatics

bioinformatics: gene symbol, 유전자 이름에 대해서

Novelism 2023. 11. 18. 11:35

 

 보통 bioinformatics라고 하면 주로 DNA, RNA에 대한 연구를 생각합니다. 

 저는 단백질 구조예측으로 단백질 서열-구조-기능-진화에 대한 연구에서 시작하였습니다.  

 관련 분야중에는 단백질체학이라는 분야도 있지만, 개개의 단백질에 대해 보는 것이 아니라 단백질체로 분석하기에 차이가 있습니다.

 단백질 구조에 대한 연구는 물리화학이나 생물물리학적인 접근방법도 있지만, 저는 bioinfomatics에 가까운 방향으로 연구를 했습니다. 다양한 서열정보를 활용한다는 점에서 그렇습니다. 

 

그동안 단백질 구조와 관련된 약물 탐색 관련 일을 했지만, 원래는 유전체 관련 연구를 하고 싶었습니다. 고등과학원을 그만두면서 유전체 분석 예비 전문가 과정 교육을 받기도 했고, 후에 회사로 갈 때도 유전체에 대한 연구를 하고 싶다 하였지만, 제 본 직무가 아니다 보니 참여하긴 어려웠습니다. 그러다가 올해 초에 이직하면서 우연한 기회로 바이오인포메틱스로 직무를 변경하였습니다. 

 

 그래서 당분간은 이일을 하면서 배운것에 대해 이야기하려고 합니다.

 

 저는 데이터를 활용해서 일을 하고 있습니다. 당연히 데이터에는 메타정보들이 포함이 되어있습니다. 유전자에 대한 정보(이름, ID 등) 세포에 대한 정보라거나... 

 일단... (사실 단백질이나 유전자나 서로 어느 정도 매칭 되기 때문에 예전부터 알고 있던 일이긴 합니다만... )

 유전자 이름이 정말 심하게 문제입니다. 

 풀네임이면 크게 문제가 없을 수도 있는데, 심볼이(단축 이름) 문제입니다. 

 동일한 유전자에 별칭이 많은 경우도 있고, 서로 다른 유전자를 동일한 심벌을 가지는 경우도 많습니다.

 보통 풀네임에서 이니셜을 택해서 심볼을 정하는데, 문자 길이가 짧다 보니 이니셜이 중복되는 일도 있습니다.

심한 경우 유전자심볼 뒤에 숫자가 붙은 경우 (패밀리이거나, 함께 작용하는 단백질 그룹인 경우) 동일한 유전자를 지칭하는데 숫자가 다른 경우도 있습니다. 예를 들어 GENE1, GENE2, GENE3이라는 유전자가 있는데, GENE2의 별칭에 GENE3이 적혀있기도 합니다. 

 대충 왜 그런 일이 생겼을지 추측은 가능합니다. 

 그 계열에서 GENE1이 최초로 발견되어 GENE이라는 이름이 붙어서 보고되었는데, 어떤 연구자가 그와 비슷한 패밀리 맴버를  발견해서 GENE2라는 이름을 붙입니다. 그런데 또 다른 연구자가 별개로 연구를 진행하면서 2개의 패밀리 멤버를 발견해서 GENE3, GENE2라는 이름을 붙입니다. 즉.. 동일한 유전자에 누구는 GENE2, 누구는 GENE3이라는 이름을 붙여서 각자 후속 연구를 하는 것입니다. 아마 이런 상황 때문에 이름이 다르게 붙은 게 아닐까 추측합니다.  후에 표준화를 진행하면서 GENE2라는 이름을 쓰기로 해도, 기존에 GENE3이라는 이름으로 연구된 문헌들이 있기에 그 이름을 삭제할 수도 없습니다. 

 

뭐... 이외에도 진짜 별거 다있습니다. 동일한 패밀리에 대해서 GENE1, GENE2, GENE3, GENE4가 있는데, 다른 명칭은 각각 GEEN2 GEEN1 GEEN3 GEEN4 같이 대응될 수도 있고... 혹은 서로 다른 유전자인 줄 알았더니 동일한 유전자로 밝혀지는 경우도 있고... 

 

 지금이야 인터넷이 있고 좋은 검색 툴도 있어서 서로 소통이 빠르지만, 예전에는 전세계 연구진들이 서로의 연구를 거의 전부 실시간으로 파악하는 것은 불가능했겠죠. 논문도 컴퓨터로 검색할 수 있는 게 아니고 책으로 읽어야 했으니, 누락되기도 쉬웠을 것입니다. 게다가 냉전 시기에 서로 다른 진형에 속한 연구자들 사이의 교류도 어려웠죠. 

 

 아무튼... 유전자 이름, symbol에 대한 표준은 있습니다.

 HUGO Gene Nomenclature Committee (HGNC) 라는 곳에서 정합니다.

(HUGO: Human Genome Organisation)

 그래서 HUGO symbol이 기본적으로 표준이긴 합니다.

 

 그러면 내가 어떤 유전자에 대한 결과를 검색하고 싶거나, 두 데이터베이스의 데이터를 연결하고 싶을 때

그냥 HGNC symbol (혹은 HUGO symbol)을 사용하면 되는가 싶겠지만, 데이터베이스가 HGNC symbol을 사용하지  않은 경우도 여럿 있기 때문에 안됩니다. 몇몇 DB는 어떤 gene symbol 체계를 따르고 있는지도 확인하는 게 쉽지 않습니다. 또하나 문제는, HGNC symbol도 시간에 따라 변하기도 한다는 점입니다. DB중에서 HGNC symbol 을 사용했지만, 시간이 지나면서 바뀌어버리는 바람에 현재 시점에서의 HGNC symbol과 달라진 경우도 있습니다.

 하나의 유전자에 고유한 이름 하나만이 대입되면 일이 쉬워지겠지만... 적어도 gene symbol은 그렇게 사용하기에 적합하지 않습니다. 

그래서 가능하면 HGNC ID, NCBI Gene ID  (Entrez_id)를 사용하거나, Ensembl id를 사용하거나, 단백질 같은 경우는 Uniprot ID를 사용하는 편이 좋습니다. 


HGNC 홈페이지입니다.

https://www.genenames.org/

data 파일은 여기서 받을 수 있습니다. 

https://ftp.ebi.ac.uk/pub/databases/genenames/hgnc/tsv/hgnc_complete_set.txt


수시로 바뀔 수도 있기 때문에 받은 파일의 버전을 기록해두는 편이 좋습니다. 

 

 NCBI gene info 파일은 여기서 받을 수 있습니다. 
https://ftp.ncbi.nlm.nih.gov/gene/DATA
Homo sapiens는 다음 파일에 있습니다. 

https://ftp.ncbi.nlm.nih.gov/gene/DATA/GENE_INFO/Mammalia/Homo_sapiens.gene_info.gz

 

계속 업데이트되고, pseudo gene이 삭제되는 경우도 종종 있습니다.