Galaxy Project是一款开源的基于Web的生信分析平台,该项目由 NSF、 NHGRI、 The Huck Institutes of the Life Sciences、 The Institute for CyberScience at Penn State、Johns Hopkins University提供支持。
该项目已经诞生很久,算是云平台/生信平台的一个起始。国外除了Galaxy Project还有一款Genepattern也是比较早期的生信的平台;在国内比较早的生信云平台最早由华大和港中大合作基于Galaxy Project开发过一款平台,但后续好像没继续做下去,再后来华大开发了自己的云平台BGI online,现在国内的云平台已经遍地开花了,基本各个生物公司都有自己的云平台,大同小异,但是作为学习对象 Galaxy Project 还是比较经典的作品。
Galaxy Project 也是目前生物医学研究领域最受欢迎的在线生物信息分析工具之一,目前已经整合了7829 个小工具(截至2020/09/11),涵盖各个组学分析流程,最新版的还加入了tensorflow作为默认的深度学习库:
工具地址:https://toolshed.g2.bx.psu.edu/
其本体是基于Python语言开发,部署过程需要安装Python环境:
- UNIX/Linux 或者 Mac OSX ( 如果是 安装单机版可以在windows下用docker部署,但是依旧推荐在Linux测试)
- Python 3.6 or 3.5(推荐用3.6,最新的python可能有些函数会报错)
1)下载最新的源码
# 一般不推荐这么做,这样会下载整个仓库包括日志,国内可能会比较慢,推荐直接
# 在https://github.com/galaxyproject/galaxy/releases下载,然后解压
git clone -b release_20.05 https://github.com/galaxyproject/galaxy.git
一般个人用户选择稳定版发布版即可,如果需要学习或者基于Galaxy开发,那么你就可能需要:
# 更新已有的仓库
git fetch origin && git checkout release_20.05 && git pull --ff-only origin release_20.05
# 下载最新的开发板的代码
git clone https://github.com/galaxyproject/galaxy.git
2)安装部署,这一块开发人员已经把安装过程封装好了,默认用 virtualenv
建立一个虚拟环境,所以安装的python包不会影响系统环境,只需要执行:
# 整个过程比较缓慢,需要安装很多python依赖包,和系统软件,建议执行后喝杯咖啡再来
# 查看,国内用户建议修改scripts/common_startup.sh目录下201行左右,pip install 后面的参数,可以加上pip install -i 国内源(比如清华源、科大源等等)
sh run.sh
如果安装成功默认访问
http://localhost:8080
即可进入,按Ctrl-C
终止。
3)配置文件,系统会采用默认配置,如果需要修改,比如端口、管理员设置等等,可以通过修改 config/galaxy.yml
来配置。
帮助文档汇总:
管理员文档:访问
小工具安装指导:访问
开发者文档:访问
公开服务器:访问(目前部署了galaxy对外开放的单位约80余家)
Git仓库:访问
参考资料:
1.https://galaxyproject.org/admin/get-galaxy/
2.https://docs.galaxyproject.org/en/master/admin/index.html
3.https://github.com/galaxyproject/galaxy
4.https://usegalaxy.org/