EGA(European Genome-Phenome Archive)是EMBL-EBI(欧洲分子生物学实验室-欧洲生物信息研究所)与CRG(基因组调控中心)联合运营的基因组-表型数据存储库,属于ELIXIR(欧洲生命科学基础设施)核心数据资源。

主要功能
存储和管理基因组、表型及关联数据,支持医学研究和罕见病分析。 ‌
提供数据访问申请流程,需通过DAC(数据访问委员会)审批。 ‌

https://ega-archive.org/
官方提供的文件下载工具之一是pyega3(https://ega-archive.org/access/download/files/pyega3/

但是若您获准访问的数据集ID以EGAD5XXXXXXX开头,请参阅Live Outbox分发。

那么如何安装pyega3?建议使用conda环境配置

1.使用conda安装pyEGA3

conda config --add channels bioconda 
conda config --add channels 
conda-forge conda install pyega3

2.升级pyEGA3(如果需要)

conda update pyega3

3.测试是否安装成功

pyega3 --help

当然如果conda不太好用,建议尝试micromamba管理conda

pyEGA3命令一览

u

sage: pyega3.py [-h] [-d] [-cf CONFIG_FILE] [-sf SERVER_FILE] [-c CONNECTIONS] [-t] [-ms MAX_SLICE_SIZE] {datasets,files,fetch} ...

Download from EMBL EBI's EGA (European Genome-phenome Archive)

positional arguments:
  {datasets,files,fetch}
                        subcommands
    datasets            List authorized datasets
    files               List files in a specified dataset
    fetch               Fetch a dataset or file

optional arguments:
  -h, --help            show this help message and exit
  -d, --debug           Extra debugging messages
  -cf CONFIG_FILE, --config-file CONFIG_FILE
                        JSON file containing credentials/config e.g.{"username":"user1","password":"toor"}
  -sf SERVER_FILE, --server-file SERVER_FILE
                        JSON file containing server config e.g.{"url_auth":"aai url","url_api":"api url", "url_api_ticket":"htsget url", "client_secret":"client secret"}
  -c CONNECTIONS, --connections CONNECTIONS
                        Download using specified number of connections (default: 1 connection)
  -t, --test            Test user activated
  -ms MAX_SLICE_SIZE, --max-slice-size MAX_SLICE_SIZE
                        Set maximum size for each slice in bytes (default: 100 MB)

常用命令

pyega3 -c 5 -cf </Path/To/CREDENTIALS_FILE> fetch EGAD<NUM> --output-dir </Path/To/OutputDirectory>

CREDENTIALS_FILE是账户密码验证,格式如下(命名为default_credential_file.json)

{
    "username": "ega-test-data@ebi.ac.uk",
    "password": "egarocks"
}

CREDENTIALS_FILE是账户密码验证,格式如下(命名为default_credential_file.json)

更多用法参考:https://github.com/EGA-archive/ega-download-client