メモ

Ensembからftpでリファレンス(FASTA・GTF)を取得する際の一例
wget ftp://ftp.ensembl.org/pub/release-97/gtf/oryctolagus_cuniculus/*

ワイルドカードで該当ディレクトリに存在する
File:CHECKSUMS 1 KB 5/31/19 7:35:00 PM GMT+9
File:Oryctolagus_cuniculus.OryCun2.0.97.abinitio.gtf.gz  3611 KB 5/26/19 3:28:00 AM GMT+9
File:Oryctolagus_cuniculus.OryCun2.0.97.chr.gtf.gz 5818 KB 5/26/19 3:19:00 AM GMT+9
File:Oryctolagus_cuniculus.OryCun2.0.97.gtf.gz 7741 KB 5/26/19 3:23:00 AM GMT+9
File:README 10 KB 5/26/19 3:24:00 AM GMT+9

がダウンロードされる。

この時にデータの破損がないかをCHECKSUMで確認するわけですが、どうも見慣れないハッシュ値が書かれている。
これに関する投稿も存在した。

結論からいうといつも見慣れているハッシュ値はmd5sumによるmd5チェックサムとは違う別のアルゴリズムによって算出された値である。
先の投稿のアンサーとしてCRC32があげられているが、正しくは16ビットのチェックサムであり、該当するコマンドはsumコマンドである。

あとはsumでダウンロードしたfasta.gzやgtf.gzのハッシュ値を出してdiffコマンドでチェックする。