如何使用pyega3从ega下载数据
EGA(European Genome-Phenome Archive)是EMBL-EBI(欧洲分子生物学实验室-欧洲生物信息研究所)与CRG(基因组调控中心)联合运营的基因组-表型数据存储库,属于ELIXIR(欧洲生命科学基础设施)核心数据资源。
主要功能
存储和管理基因组、表型及关联数据,支持医学研究和罕见病分析。
提供数据访问申请流程,需通过DAC(数据访问委员会)审批。
https://ega-archive.org/
官方提供的文件下载工具之一是pyega3(https://ega-archive.org/access/download/files/pyega3/)
但是若您获准访问的数据集ID以EGAD5XXXXXXX开头,请参阅Live Outbox分发。
那么如何安装pyega3?建议使用conda环境配置
1.使用conda安装pyEGA3
conda config --add channels bioconda
conda config --add channels
conda-forge conda install pyega3
2.升级pyEGA3(如果需要)
conda update pyega3
3.测试是否安装成功
pyega3 --help
当然如果conda不太好用,建议尝试micromamba管理conda
pyEGA3命令一览
u
sage: pyega3.py [-h] [-d] [-cf CONFIG_FILE] [-sf SERVER_FILE] [-c CONNECTIONS] [-t] [-ms MAX_SLICE_SIZE] {datasets,files,fetch} ...
Download from EMBL EBI's EGA (European Genome-phenome Archive)
positional arguments:
{datasets,files,fetch}
subcommands
datasets List authorized datasets
files List files in a specified dataset
fetch Fetch a dataset or file
optional arguments:
-h, --help show this help message and exit
-d, --debug Extra debugging messages
-cf CONFIG_FILE, --config-file CONFIG_FILE
JSON file containing credentials/config e.g.{"username":"user1","password":"toor"}
-sf SERVER_FILE, --server-file SERVER_FILE
JSON file containing server config e.g.{"url_auth":"aai url","url_api":"api url", "url_api_ticket":"htsget url", "client_secret":"client secret"}
-c CONNECTIONS, --connections CONNECTIONS
Download using specified number of connections (default: 1 connection)
-t, --test Test user activated
-ms MAX_SLICE_SIZE, --max-slice-size MAX_SLICE_SIZE
Set maximum size for each slice in bytes (default: 100 MB)
常用命令
pyega3 -c 5 -cf </Path/To/CREDENTIALS_FILE> fetch EGAD<NUM> --output-dir </Path/To/OutputDirectory>
CREDENTIALS_FILE是账户密码验证,格式如下(命名为default_credential_file.json)
{
"username": "ega-test-data@ebi.ac.uk",
"password": "egarocks"
}
CREDENTIALS_FILE是账户密码验证,格式如下(命名为default_credential_file.json)
暂无标签