생물정보학에서 일반적인 문제들을 풀기 위한 과정
![사용자 삽입 이미지](https://i0.wp.com/nblog.syszone.co.kr/wp-content/uploads/1/6718051781.jpg?resize=182%2C240)
![사용자 삽입 이미지](https://i0.wp.com/nblog.syszone.co.kr/wp-content/uploads/1/7462710147.jpg?resize=500%2C332)
*** Known Sequences 와 Searching 단계 사이에 sequences를 최적화하기 위한 숨은 절차들이 있어보임. 아래는 서울대 천연구소의 분석 pipeline 임.
![사용자 삽입 이미지](https://i0.wp.com/nblog.syszone.co.kr/wp-content/uploads/1/5653728701.jpg?resize=500%2C386)
sorting by barcode는 시퀀스 기계를 통해 알아낸 시퀀스 데이터에 추적 가능하게 바코드를 장착하는데, 해당 바코드를 분석하기 전에 분류하는 작업이다.
-> 시퀀스 기계로 물리적인 염기서열을 알아낼때, 기본적으로 100개의 이상의 대상체가 모여야 기계를 가동 시킨다고 함. 그래서 100개 대상의 염기서열을 나중에 분류하기 위해 바코드를 장착한다고 함.
prescreen by quality 은 시퀀스 길이를 통해 품질별로 분류를 하는 작업임.
removing non-target sequences 작업은 시퀀스의 유효데이터 길이를 기준으로하여 불필요한 시퀀스 내용을 잘라내는 작업임. 시퀀스 기계로 부터 얻어내는 시퀀스 정보 중 유효한 정보가 저장된 부분만을 선별해 되는 작업이라 보면 됨.
trimming primer sequences 순수 DNA 시퀀스만 분리해냄
이후작업은 최적화된 시퀀스를 기존의 DB와 비교 대조하는 작업으로 이루어짐.
relaxing piano