【生物信息学】批量下载UCSC测序数据,以人类基因组为例
请确保在使用这种自动化下载脚本时遵守目标网站的使用条款和条件,并确保你有权限下载这些文件。
脚本代码:
#!/bin/bash
# 询问用户输入URL
echo "Please enter the URL:"
read url
# 获取链接并保存到list.txt
wget -qO- "$url" | grep -oP 'href="\K[^"]+' | grep '\.' | sed "s|^|$url|" > list.txt
echo "Links have been saved to list.txt"
# 询问下载路径
echo "Please enter the file path for downloads:"
read filepath
# 使用aria2c下载文件
aria2c -x 16 -m 0 -d "$filepath" -c -s 10 -i list.txt
echo "Download completed. Check the downloaded files in the directory: $filepath"
wget -qO- [URL]
:从指定的 URL 获取网页内容,并输出到标准输出。grep -oP 'href="\K[^"]+'
:使用正则表达式提取 href 属性中的链接。grep '\.'
:过滤出包含点(.)的字符串,通常这表示这是一个文件。sed"s|^|$url|"
:添加基础 URL 到每个链接前,形成完整的下载地址。
你可以自行将aria2替换为wget ,不过建议用aria2多线程下载
暂无标签