생물정보학에서 일반적인 문제들을 풀기 위한 과정

출처 : http://hongiiv.tistory.com

과학적인(Bioinformatics) 문제를 풀기 위한 일반적인 과정은 다음과 같다.



Step 1 : Figure out what it is you wnat to do.

어떠한 문제를 해결하고자 할것인지, 다루는 데이터와 해야할 일에 대해 생각하는 단계이다.



Setp 2: Conceptualize the flow of data and the individual steps in the process.

어떠한 알려진 DNA, RNA, protein 서열로 부터 인간의 진화적인 관련성을 결정하기 위한 과정을 다음과 같이 나타낼 수 있다.



사용자 삽입 이미지



Setp 3. Identify sources, and applications or services to perform each setp.

각 단계마다 필요한 데이터나 도구, 서비스를 결정하는 단계이다.



사용자 삽입 이미지



Setp 4. Make some decisions on the details.

어떠한 서열 데이터베이스를 찾을 것인지, 검색 파라메터는 어떻게 할것인지, 어떠한 메소드를 사용하여 phylogeny를 정의 할지, 어떠한 트리 모양으로 보여줄 것인지 등을 결정하는 단계로 각 서비스나 도구들의 옵션을 설정하는 과정이라고 보면 되겠다.



Setp 5. DO the work.

이 단계에서 워크플로우를 만들고 실행한다.

*** Known Sequences 와 Searching 단계 사이에 sequences를 최적화하기 위한 숨은 절차들이 있어보임. 아래는 서울대 천연구소의 분석 pipeline 임.
사용자 삽입 이미지



sorting by barcode는 시퀀스 기계를 통해 알아낸 시퀀스 데이터에 추적 가능하게 바코드를 장착하는데, 해당 바코드를 분석하기 전에 분류하는 작업이다.

    -> 시퀀스 기계로 물리적인 염기서열을 알아낼때, 기본적으로 100개의 이상의 대상체가 모여야 기계를 가동 시킨다고 함. 그래서 100개 대상의 염기서열을 나중에 분류하기 위해 바코드를 장착한다고 함.

prescreen by quality 은 시퀀스 길이를 통해 품질별로 분류를 하는 작업임.

removing non-target sequences 작업은 시퀀스의 유효데이터 길이를 기준으로하여 불필요한 시퀀스 내용을 잘라내는 작업임. 시퀀스 기계로 부터 얻어내는 시퀀스 정보 중 유효한 정보가 저장된 부분만을 선별해 되는 작업이라 보면 됨.

trimming primer sequences 순수 DNA 시퀀스만 분리해냄

이후작업은 최적화된 시퀀스를 기존의 DB와 비교 대조하는 작업으로 이루어짐.

서진우

슈퍼컴퓨팅 전문 기업 클루닉스/ 상무(기술이사)/ 정보시스템감리사/ 시스존 블로그 운영자

You may also like...

페이스북/트위트/구글 계정으로 댓글 가능합니다.