1000 genome 데이터를 이용한 염기 서열 분석
출처 : hongiiv.tistory.com
이전 포스팅에서 잠깐 언급했던 솔렉사의 시퀀서 – 한국인 최초 공개 Whole Genome Sequencing도 이 솔렉사 시퀀서를 이용했습니다.
1000 genomes(인간 천명의 염기서열을 DB화) 프로젝트도 이 기계를 사용하는데, 그 결과가 속속 공개되고 있습니다. 제가 즐겨 찾는 YOKOFAKUN 블로그에 데이터에 대한 이야기가 나와서 몇가지 찾아봤습니다.
우선 현재 기계 한계상 한꺼번에 인간의 모든 염기서열을 읽어내는 것은 불가능합니다. 그럼 어떻게 읽을까요? 처음부터 끝까지 순서대로~ 예 언젠가는 차차차세대 시퀀서가 나온다면야 가능하겠지만, 우선 현재 기술로는 불가능하기 때문에 여러가지 방법중에 하나가 Shotgun 방법을 이용하는 것입니다.
출처 : https://eapbiofield.wikispaces.com/Ch+21+Genomes+and+Their+Evolution+LEW
위에 그림에서와 같이 조각 조각난 단편들을 모아서 하나로 합치는 방법을 사용하게 됩니다. 자 여기서 여러가지 문제가 발생하겠죠 ^^ 뭐를 기준으로 저 조각들을 모을것인가? 하는 문제가 있을 수 있겠습니다. 퍼즐이야 원본 그림이 있으니 그것을 기준으로 맞춘다지만,,, ^^;;
저런 수많은 단편들은 또 어떠한 포맷으로 만들어서 사용할까요? FASTQ와 SAM 이라는 포맷으로 수많은 단편의 정보들이 만들어지고 있고 현재 1000 genome에서 다운로드 할 수 있습니다.
YOKOFAKUN 블로그에서는 솔렉사 기계에서 뛰쳐나온 천여명의 데이터를 어떻게 데이터베이스에 넣어서 분석해야 할지에 대해 고민하고 있는데,, Sanger에서는 데이터베이스에 넣고 사용하지 않고 SAM 파일 포맷을 BAM이라는 바이너리 포맷으로 바꾸어서 분석하고 있다네요.
FASTQ 포맷(Fasta포맷에 여러가지 정보를 덧 넣은)은 Maq라는 프로그램으로, SAM 포맷은 BAM으로 변경해서 SAMTools로~~
FASTQ 파일 포맷
SAM 파일 포맷
우선 1000 genome 프로젝트의 FTP에서 bam 파일을 하나 다운로드 합니다.
1) 우선 소팅을 수행합니다.
# samtools sort test.bam
2) 인덱스를 생성하고,
# samtools index test.sorted.bam
3)자신이 원하는 부분을 검색하거나,
# samtools view test.sorted.bam 22:1000-2000
4)align된 형태로 보기도 합니다.
# samtools tview test.sorted.bam
자~ 이제 엄청난 데이터를 가지고 놀아볼 준비가 되었습니다. 뭘 하고 놀지는 각자 알아서~