생물정보학에서 일반적인 문제들을 풀기 위한 과정
*** Known Sequences 와 Searching 단계 사이에 sequences를 최적화하기 위한 숨은 절차들이 있어보임. 아래는 서울대 천연구소의 분석 pipeline 임.
sorting by barcode는 시퀀스 기계를 통해 알아낸 시퀀스 데이터에 추적 가능하게 바코드를 장착하는데, 해당 바코드를 분석하기 전에 분류하는 작업이다.
-> 시퀀스 기계로 물리적인 염기서열을 알아낼때, 기본적으로 100개의 이상의 대상체가 모여야 기계를 가동 시킨다고 함. 그래서 100개 대상의 염기서열을 나중에 분류하기 위해 바코드를 장착한다고 함.
prescreen by quality 은 시퀀스 길이를 통해 품질별로 분류를 하는 작업임.
removing non-target sequences 작업은 시퀀스의 유효데이터 길이를 기준으로하여 불필요한 시퀀스 내용을 잘라내는 작업임. 시퀀스 기계로 부터 얻어내는 시퀀스 정보 중 유효한 정보가 저장된 부분만을 선별해 되는 작업이라 보면 됨.
trimming primer sequences 순수 DNA 시퀀스만 분리해냄
이후작업은 최적화된 시퀀스를 기존의 DB와 비교 대조하는 작업으로 이루어짐.