Physics and Informatics 21

과학 연구에서 중요한것

흔히들 과학 연구에서 넘치는 창의력과 틀에 매이지 않는 아이디어가 중요하다고 생각합니다. 하지만, 새로운 가설을 제시하는 것보다는, 가설을 어떻게 검증할 것인가가 과학의 본질이라고 볼 수 있습니다. 과학은 크게 실험/경험/측정과 이론으로 나뉩니다. 우리가 측정을 통해서 알 수 있는 사실들이 있습니다. 측정에 오류가 있지 않았다면, 그것이 사실입니다. 이론은 그 측정 결과의 원인이나, 측정 결과들 사이의 관계를 설명하는 것입니다. 아마도 창의력을 이야기하는 것은 실험보다는 이론의 영역에 대한 것 같습니다. 유명한 과학자들은 보통 실험보다는 이론분야의 종사자들이 많기 때문입니다. 실험은 보통 절차와 방법론이 정해져 있습니다. 예를 들면 특정 신물질을 만들었다면, 기존 물질에서 측정하던 물성들을 그 물질에 대..

물리학과 인공지능 겨울학교 온라인 강의 (2022)

한국 물리학회와 고등과학원 AI 기초과학센터 주관으로 물리학과 인공지능 겨울학교가 개최되는군요. 2022년 2월 21일 (월) - 25일 (금)까지 진행됩니다. 등록 3일째인데 400명 가까이 등록했습니다. 물리학과에서도 AI가 인기있다는게 느껴지네요. 다만 실전적이라기보다는 이론적, 기초적인 내용이 위주라서 얼마나 흥미를 끌지 모르겠습니다. 학부생이 배우는 수업과, 실제 대학원에서 연구하는 내용에는 차이가 많기도 하죠. 특히 물리학 분야에서 그런게 심하게 느껴집니다. 2022 물리학과 인공지능 겨울학교 (kias.re.kr) 2022 물리학과 인공지능 겨울학교 현대 물리학은 기계학습을 비롯한 다양한 인공지능 알고리즘을 활용하여 현재 강력한 시너지 효과를 경험하고 있으며, 이 두 가지 방법론이 점점 더 ..

단백질과 머신러닝: 2차구조 예측

단백질 구조 예측 연구를 시작하고, 머신러닝을 배워야겠다고 결심한 계기가 된 논문이 있습니다. David T. Jones의 단백질 2차 구조 예측 논문 PSIPRED입니다. Protein secondary structure prediction based on position-specific scoring matrices - ScienceDirect Protein secondary structure prediction based on position-specific scoring matrices A two-stage neural network has been used to predict protein secondary structure based on the position specific scoring ..

AlphaFold CASP14 논문이 나왔네요.

https://www.nature.com/articles/s41586-021-03819-2?fbclid=IwAR2-w88mv6s0fUQzsBWQ3JIF2L2ztOElJj8n64bbhpZ4oxoozdXpNeHd_9I 제목 참 심플하네요. Highly accurate protein structure prediction with AlphaFold 하는 김에 깃허브 공개까지 되었습니다. https://github.com/deepmind/alphafold?fbclid=IwAR2gEAd6akjuDwiVUlMsQ8ORSpiw43SchfQ4ztjqk7MHnNNUdn46RmVliu0 나오는 김에 David Baker 그룹 논문도 나왔네요. https://science.sciencemag.org/content/early/..

protein bioinformatics: 4. UniProt

어떤 단백질에 대한 정보를 알고 싶다면, 위키피디아와 UniProt 에서 찾아볼 수 있습니다. 위키피디아는 굳이 설명할 필요가 없으니 uniprot 에 대해서만 이야기하면 되겠네요. https://www.uniprot.org/ UniProt The mission of UniProt is to provide the scientific community with a comprehensive, high-quality and freely accessible resource of protein sequence and functional information. UniProtKBUniProt KnowledgebaseSwiss-Prot (565,254)Manually annotated and reviewe www.un..

protein bioinformatics: 3. 단백질 삼차원 구조 예측 개요

단백질은 아미노산들의 1차원 사슬로 이루어져 있고 (1차 구조), 지역적으로 helix, strand, coil 의 2차 구조를 형성하고 이들이 모여서 고유의 3차원 접힘 구조 (3차 구조)를 이룹니다. 혹은 3차 구조들이 여러개 모여 4차구조를 이루기도 합니다. 단백질 3D 구조 예측은 단백질의 서열로부터 고유의 3차원 접힘 구조를 예측하는 문제입니다. 단백질 구조 예측 문제를 어떻게 풀어야 하는가를 설명하기 위해서 일단 제 전공에 대한 이야기부터 해야겠는데요. 저는 원래 대학교, 대학원에서 물리학을 전공했습니다. 그러다가 졸업 후에 국내에서 단백질 구조 예측 연구를 전문적으로 한다는 연구실로 박사 후 연구원으로 취직을 했습니다. 저는 물리학을 전공한 사람이다보니, 처음엔 단백질도 물리적인 대상이니까 ..

protein bioinformatics: 2.1 pdb 파일 포멧, 3d 구조 파싱 주의사항

PDB 는 protein data bank 로, 실험적으로 밝혀진 (혹은 일부 시뮬레이션된) 단백질의 구조를 업로드하고 배포하는 곳입니다. https://www.rcsb.org/ 여기서 많이 사용되는 파일포멧이 pdb 입니다. 이 파일포멧의 단점으로 다른 포멧을 사용하는 사람들도 있긴 하지만... 여전히 제일 많이 사용되는 파일 포멧입니다. pdb 파일을 파싱할 때 가장 중요한 점은 메뉴얼을 읽어야 한다는 점입니다. 메뉴얼은 여기서 찾으실 수 있습니다. https://www.wwpdb.org/documentation/file-format pdb 파일은 각 열마다 고유의 의미가 있습니다. 따라서 pdb 파일을 파싱할 때, 절대로 line.strip() 같은거 쓰면 안됩니다. 이중 단백질 구조를 담고 있는 ..

protein bioinformatics: 1. 단백질 서열 정렬 (NWalign) 및 유사성

서열정렬 (sequence alignment) bioinformatics 생명정보학, 생물정보학, 생정보학... 이 분야가 무엇이라고 한마디로 규정하기 어렵지만, 생물과 관련된 정보를 사용하는 분야이고, 대량의 데이터를 다루기에 컴퓨터를 사용하는 일이 많습니다. 대표적으로는 유전체 분석.. 유전체의 서열과 발현을 다루는 일이 있습니다. 사실 단백질도 유전체로부터 나오기에, 단백질 관련 연구도 중요한 주제입니다. 저는 단백질 구조 및 기능 분야에서 일하고 있고, 당분간 바이오인포메틱스적인 관점에서 단백질을 어떻게 연구하는지, 그리고 어떤 스킬이 필요한지에 대해 이야기하고자 합니다. 서열 정렬을 어떻게 해야하는지, pdb를 어떻게 파싱해야할지 같은 이야기입니다. 예제코드는 제 github에 있습니다. htt..

과학과 돈

저는 대학, 대학원에서 물리학을 전공하였습니다. 그것도 기초과학 분야이고, 이론적이고 원리를 밝혀내는 부류의 소위 돈 안되는 연구에 가까웠습니다. 지금은 물리학과는 좀 다른 분야, 그것도 회사에서 일하고 있습니다. 어찌보면 지금 하는일과 전공이 무슨 상관이 있냐?... 박사 뭐하려고 했냐? 의미 없는 시간 아니었냐 라고 할 수도 있지만, 오늘의 자신이 있는 것은 과거의 자신이 있었기 때문이라고 생각합니다. 오늘은 그냥 제가 살아오면서 느껴온 이야기들을 좀 적어보고 싶습니다. 제가 물리학에 매료된 것은 상대성 이론과 양자역학이 나온 시대를 동경하고 그리고 그 시대를 살아가던 훌륭한 선배님들을 동경했기 때문이었습니다. 그 중에는 워낙 대중적으로도 유명해서 모르는 사람이 없을만한 분들도 계십니다. 아인슈타인,..