推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

简述利用Python批量下载生物序列

更新时间:2019-12-25 15:40:51 大小:2M 上传用户:songhuahua查看TA发布的资源 标签:python 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

随着生命科学和计算机科学的迅猛发展,研究人员可以通过Entrez访问NCBI的多个数据库并下载所需生物数据,当所需数据较少时,手工查询与利用Python程序查询差别不大,一旦需要的数据成百上千时,利用Python程序中Biopython模块批量访问下载生物数据,较手动查询更快捷、便利且正确率高.Biopython致力于通过创造高质量的和可重复利用的模块及类,从而使得Python在生物信息学中的应用变得更加容易.


部分文件列表

文件名 大小
简述利用Python批量下载生物序列.pdf 2M

部分页面预览

(完整内容请下载后查看)
TECHNOLOGY AND INFORMATION  
信息化技术应用  
简述利用 Python 批量下载生物序列  
邹刚刚ꢀ 雍金贵ꢀ 吴楠  
通用生物系统(安徽)有限公司ꢀ 安徽ꢀ 滁州ꢀ 239000  
摘ꢀ 要ꢀ 随着生命科学和计算机科学的迅猛发展,研究人员可以通过Entrez访问NCBI的多个数据库并下载所  
需生物数据,当所需数据较少时,手工查询与利用Python程序查询差别不大,一旦需要的数据成百上千时,  
利用Python程序中Biopython模块批量访问下载生物数据,较手动查询更快捷、便利且正确率高。Biopython  
致力于通过创造高质量的和可重复利用的模块及类,从而使得Python在生物信息学中的应用变得更加容易。  
关键词ꢀ NCBI;Biopython;生物数据;批量下载  
前言  
目前,生命科学和计算机科学相结合形成的一门新学  
科,生物信息学,它通过综合利用生物学,计算机科学和  
信息技术而揭示大量而复杂的生物数据所赋有的生物学奥  
秘。Python,是一种面向对象的解释型计算机程序设计语  
言,它具有丰富和强大的库,在计算机科学中日益流行。  
Python易学,语法明晰,并且能很容易地使用以CC++或  
FORTRAN编写的模块实现扩展。BiopythonPython的计  
算分子生物学和生物信息学工具包,它使得python在生物学  
数据处理中变得更加强大和高效,为使用和研究生物信息  
学的开发者提供了一个在线的资源库,包括模块、脚本以  
及一些基于Python的软件的网站链接。Biopython致力于通  
过创造高质量的和可重复利用的模块及类,从而使得Python  
在生物信息学中的应用变得更加容易[1]。  
1.2 程序查询一条序列  
那么,如何利用程序查询其对应的生物数据呢?  
Python程序[3]和结果如下:  
NCBI,美国国立生物技术信息中心,研究人员一般通  
过访问该网站获取所需的生物数据。Entrez是一个给客户提  
NCBI各个数据库(如PubMed,GeneBank,GEO等)访问的  
检索系统[2]。用户可以通过浏览器手动输入查询条目访问  
Entrez,也可以使用BiopythonBio.Entrez模块以编程方式  
来访问Entrez。如查询的条目较少,手动查询或程序查询效  
果差别不大,一旦查询的条目成百上千,手动查询就显得  
耗时耗力,而且大量手动重复性操作带来的错误率也随之  
升高,此时,用编程方式访问就变得正确且高效。  
1ꢀ ꢀ 手动查询和程序查询一条序列ꢀ  
1.1 手动查询一条序列  
首先,以查询一个条目为例对程序进行说明。已知  
AccessionsBC032736,在NCBI网站上查询结果如下图所  
示,如果需CDS区序列,点击CDS可直接看到  
上面的程序是将结果直接打印到控制台程序中,通  
常,为避免在运行脚本的时候重复下载同样的文件并减轻  
NCBI服务器的负载,是把序列数据保存到一个本地文件  
中,然后使用Bio.SeqIO来解析。  
2ꢀ ꢀ 手动查询和程序查询多条序列ꢀ  
上述例子描述的是搜索1条序列,手动搜索和程序访  
问两种方法差别不大,如果现在有1000或者10000条序列,  
如果手动搜索,则费时费力,并且会有误差,此时程序访  
问方法就显得更加便利了[4]。具体的Python程序如下,将基  
因编号放在id_list.txt文件中,将结果写到sequences.txt文件  
中。  
ꢀ ꢀ  
科学与信息化2017年7月下  
7
TECHNOLOGY AND INFORMATION  
信息化技术应用  
部分结果图如下:  
如想得到这些序列的CDS区序列,并以fasta格式呈现  
可以看出,简短的几句python程序就可实现批量下载生  
物数据的功能,完成了手动查询很难完成的任务,为生物  
研究提供了较大便利,是计算机语言在生物研究上的又一  
成功应用。  
出来,则需进一步编写python程序,程序如下,genbank格  
式序列存放在sequences.txt文件中,fasta格式的CDS区序列  
存放在result.txt文件中  
参考文献  
[1] 赵屹,谷瑞升,杜生明.生物信息学研究现状及发展趋势[J]. 医  
学信息学杂志,2012,33(5):2-6.  
[2] 王哲,黄高升.NCBI的数据库资源及其应用[J].生命科学,2002,  
14(1):59-62.  
[3] Bassi S.Python for Bioinformatics[M].Python for  
bioinformatics. Jones and Bartlett Publishers,2012:221.  
[4] 张良均.Python数据分析与挖掘实战[M].北京:机械工业出版  
,2016:39.  
(上接第6页)  
由于D-lib Magazine是免费获取的纯网络电子期刊所以  
并没有使用许可方面的问题。同时,在其使用许可方面,  
D-lib Magazine也做出了详尽的说明(a引用文献是务必表明  
所引用的著者以及D-lib杂志名称;b 删节、更改和编辑相关  
内容时,不得改变作者的原意;c 如果用于商业目的时需要  
获得CNRL的授权许可)。  
中的被引情况、收录情况,以及“纯网络电子期刊的访问  
量”这两个指标是定量指标,其余的评价标准都是定性评  
价。  
3.3 评价指标中不分定量指标不易实现  
在对“纯网络电子期刊的访问量”这一指标进行评  
价的过程中,笔者发现不论是该纯网络电子期刊的登录次  
数、同时在线人数,还是期刊被检索次数、被链接数等数  
据都无法通过其网站简单的获得。因此,对该指标的评价  
并不容易实现。  
通过上述评价指标,对D-lib Magazine可以进行一个大  
致的客观评价。总体来看,D-lib Magazine无论是内容、排  
版还是出版发行等方面都有着较高的水准,尤其是内容质  
量和发行、传播质量都非常高,是一个比较成功的纯网络  
电子期刊的范例。但同时,也应当注意到,D-lib Magazine  
在与用户的互动以及用户个性化服务方面仍存在不足。  
3.4 部分评价指标抽象性太强无法具体评价、  
例如“纯网络电子期刊的内容实用性”这一指标针对  
不同领域的研究者,不同程度的研究者都有不一样的评价  
结果难以给出一个准确的衡量结果,只能大致限定一个学  
科领域进行评价。  
3ꢀ ꢀ 评价体系存在的不足  
3.1 评价指标过于概括  
再如“纯网络电子期刊的权威性”也难以给出准确的  
评价,只能通过期刊的出版、发行方,期刊作者以及期刊  
编辑等几个方面从侧面进行评价。  
通过实测发现,评价体系中的部分一级指标概括性过  
强,其包括的内容过多,在评价时容易造成不便。  
3.2 评价指标以定性指标居多  
在上述评价指标中,只有“纯网络电子期刊权威性”  
ꢀ ꢀ  
8
科学与信息化2017年7月下  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载