takashimatomoya0806

ノート

個人的な備忘録として活用していきたいと思います。 このブログにおけるいかなる発言も所属団体・共同研究を代表するものではなく、 個人の見解であります。またNGS解析は見習い段階であり参考にするとしても 自己責任でお願い致します。

25 7月

Ensemblからリファレンスを取得した際のチェックサム

メモ

Ensembからftpでリファレンス(FASTA・GTF)を取得する際の一例
wget ftp://ftp.ensembl.org/pub/release-97/gtf/oryctolagus_cuniculus/*

ワイルドカードで該当ディレクトリに存在する
File:CHECKSUMS 1 KB 5/31/19 7:35:00 PM GMT+9
File:Oryctolagus_cuniculus.OryCun2.0.97.abinitio.gtf.gz  3611 KB 5/26/19 3:28:00 AM GMT+9
File:Oryctolagus_cuniculus.OryCun2.0.97.chr.gtf.gz 5818 KB 5/26/19 3:19:00 AM GMT+9
File:Oryctolagus_cuniculus.OryCun2.0.97.gtf.gz 7741 KB 5/26/19 3:23:00 AM GMT+9
File:README 10 KB 5/26/19 3:24:00 AM GMT+9

がダウンロードされる。

この時にデータの破損がないかをCHECKSUMで確認するわけですが、どうも見慣れないハッシュ値が書かれている。
これに関する投稿も存在した。

結論からいうといつも見慣れているハッシュ値はmd5sumによるmd5チェックサムとは違う別のアルゴリズムによって算出された値である。
先の投稿のアンサーとしてCRC32があげられているが、正しくは16ビットのチェックサムであり、該当するコマンドはsumコマンドである。

あとはsumでダウンロードしたfasta.gzやgtf.gzのハッシュ値を出してdiffコマンドでチェックする。
19 11月

samtoolsが依存関係で動かない、解決したメモ

MacでONTリードの解析中

Bioconda経由でインストールした何かしらのパッケージ(NGMLRかPilon,Raconらへんだったかな)の依存関係のせいでSamtoolsが

(py36) labonoMacBook-Pro:~ labo$ samtools

dyld: Library not loaded: @rpath/libcrypto.1.0.0.dylib

  Referenced from: /Users/labo/miniconda2/envs/py36/bin/samtools

  Reason: image not found

Abort trap: 6


とのエラーが出てしまった。
一応、condaでpython3.5環境で設定したenvではsamtoolsはワークするのだが、minimap2でアライメントしたものをsamtoolsでBam出力し、そのままVarScanに投げるというスクリプトを組んでいたためこのエラーは面倒である。

オチから話すと、今回ダウンロードしたツールは一切使う予定がないのでとりあえずの方法で解決

env:py36のsamtools(/Users/labo/miniconda2/envs/py36/bin/samtools)が依存する@rpath/libcrypto.1.0.0.dylibがロードできないことが問題。

この場合の@rpathとは/Users/labo/miniconda2/envs/py36/libを示す

lib内には確かにより新しいlibcrypto.1.1.dylibが存在した。

libcrypto.dylibというシンボリックリンクがあり、それが今までは旧版を参照していたが、現在は最新版を参照するように書き換えられたためエラーとなっている。

libcrypto.1.1.dylibのファイル名を書き換えてリンクを切る、Samtoolsコマンドをうつ

(py36) labonoMacBook-Pro:lib labo$ samtools

dyld: Library not loaded: @rpath/libcrypto.1.1.dylib

  Referenced from: /Users/labo/miniconda2/envs/py36/lib/libcurl.4.dylib

  Reason: image not found

Abort trap: 6


ははん、エラーメッセージが変わった 。
つまり/Users/labo/miniconda2/envs/py36/lib/libcurl.4.dylibが最終的な原因なわけね
こちらも名前を書き換える。
すると旧版のものにリンク先がシフトするためクリアするはず
Samtoolsコマンドポチり

(py36) labonoMacBook-Pro:lib labo$ samtools


Program: samtools (Tools for alignments in the SAM format)

Version: 1.9 (using htslib 1.9)


Usage:   samtools <command> [options]


Commands:

  -- Indexing

     dict           create a sequence dictionary file

     faidx          index/extract FASTA

     fqidx          index/extract FASTQ

     index          index alignment


  -- Editing

     calmd          recalculate MD/NM tags and '=' bases

     fixmate        fix mate information

     reheader       replace BAM header

     targetcut      cut fosmid regions (for fosmid pool only)

     addreplacerg   adds or replaces RG tags

     markdup        mark duplicates


  -- File operations

     collate        shuffle and group alignments by name

     cat            concatenate BAMs

     merge          merge sorted alignments

     mpileup        multi-way pileup

     sort           sort alignment file

     split          splits a file by read group

     quickcheck     quickly check if SAM/BAM/CRAM file appears intact

     fastq          converts a BAM to a FASTQ

     fasta          converts a BAM to a FASTA


  -- Statistics

     bedcov         read depth per BED region

     depth          compute the depth

     flagstat       simple stats

     idxstats       BAM index stats

     phase          phase heterozygotes

     stats          generate stats (former bamcheck)


  -- Viewing

     flags          explain BAM flags

     tview          text alignment viewer

     view           SAM<->BAM<->CRAM conversion

     depad          convert padded BAM to unpadded BAM


おわり
7 9月

(メモ)ラットのリファレンスゲノム

iGenomesよりダウンロードしたラットゲノムを使って解析している。

今回ダウンロードしたのはRattus norvegicusのEnsembl(Rnor_6.0)をダウンロードして使っている。
同じダウンロードファイル内にあるgtfファイルで一般的なRNA-seq解析パイプラインを動かしていた。

ところがどっこい、UCSCのテーブルブラウザからダウンロードしたアノテーションファイル(.UCSC)での解析がうまくいかない。
はてさてなんでだろうと思ったところ、すぐに原因が分かった。
このiGenomes上のラットゲノムとテーブルブラウザ上の染色体番号の扱いが異なっていた。

一番染色体を表す場合、iGenomes版では”1”、テーブルブラウザ上では”chr1”となっていた。
なぜiGenomes版はこんな面倒な番号になっているのだろうか...。

ちなみに同じくiGenomes上のUCSC版では、普通にchr1になっていた。
Ensembleだからってことなのかな...?

#追記(2018/10/11)
iGenomesのマウス(mm10)- Ensembleでも同様の表記になっていました。
なるほど。
アクセスカウンター
  • 今日:
  • 昨日:
  • 累計:

  • ライブドアブログ