推荐星级：

简述利用Python批量下载生物序列

更新时间：2019-12-25 15:40:51 大小：2M 上传用户：songhuahua 查看TA发布的资源 标签：python 下载积分：1分评价赚积分（如何评价?）打赏收藏评论(0) 举报

资料介绍

随着生命科学和计算机科学的迅猛发展,研究人员可以通过Entrez访问NCBI的多个数据库并下载所需生物数据,当所需数据较少时,手工查询与利用Python程序查询差别不大,一旦需要的数据成百上千时,利用Python程序中Biopython模块批量访问下载生物数据,较手动查询更快捷、便利且正确率高.Biopython致力于通过创造高质量的和可重复利用的模块及类,从而使得Python在生物信息学中的应用变得更加容易.

部分文件列表

文件名	大小
简述利用Python批量下载生物序列.pdf	2M

立即下载

【关注B站账户领20积分】

部分页面预览

（完整内容请下载后查看）

TECHNOLOGY AND INFORMATION

信息化技术应用

简述利用 Python 批量下载生物序列

邹刚刚ꢀ 雍金贵ꢀ 吴楠

通用生物系统（安徽）有限公司ꢀ 安徽ꢀ 滁州ꢀ 239000

摘ꢀ 要ꢀ 随着生命科学和计算机科学的迅猛发展，研究人员可以通过Entrez访问NCBI的多个数据库并下载所

需生物数据，当所需数据较少时，手工查询与利用Python程序查询差别不大，一旦需要的数据成百上千时，

利用Python程序中Biopython模块批量访问下载生物数据，较手动查询更快捷、便利且正确率高。Biopython

致力于通过创造高质量的和可重复利用的模块及类，从而使得Python在生物信息学中的应用变得更加容易。

关键词ꢀ NCBI；Biopython；生物数据；批量下载

前言

目前，生命科学和计算机科学相结合形成的一门新学

科，生物信息学，它通过综合利用生物学，计算机科学和

信息技术而揭示大量而复杂的生物数据所赋有的生物学奥

秘。Python，是一种面向对象的解释型计算机程序设计语

言，它具有丰富和强大的库，在计算机科学中日益流行。

Python易学，语法明晰，并且能很容易地使用以C，C++或

者FORTRAN编写的模块实现扩展。Biopython是Python的计

算分子生物学和生物信息学工具包，它使得python在生物学

数据处理中变得更加强大和高效，为使用和研究生物信息

学的开发者提供了一个在线的资源库，包括模块、脚本以

及一些基于Python的软件的网站链接。Biopython致力于通

过创造高质量的和可重复利用的模块及类，从而使得Python

在生物信息学中的应用变得更加容易^[1]。

1.2 程序查询一条序列

那么，如何利用程序查询其对应的生物数据呢？

Python程序^[3]和结果如下：

NCBI，美国国立生物技术信息中心，研究人员一般通

过访问该网站获取所需的生物数据。Entrez是一个给客户提

供NCBI各个数据库（如PubMed,GeneBank,GEO等）访问的

检索系统^[2]。用户可以通过浏览器手动输入查询条目访问

Entrez，也可以使用Biopython的Bio.Entrez模块以编程方式

来访问Entrez。如查询的条目较少，手动查询或程序查询效

果差别不大，一旦查询的条目成百上千，手动查询就显得

耗时耗力，而且大量手动重复性操作带来的错误率也随之

升高，此时，用编程方式访问就变得正确且高效。

1ꢀ ꢀ 手动查询和程序查询一条序列ꢀ

1.1 手动查询一条序列

首先，以查询一个条目为例对程序进行说明。已知

Accessions是BC032736，在NCBI网站上查询结果如下图所

示，如果需CDS区序列，点击CDS可直接看到

上面的程序是将结果直接打印到控制台程序中，通

常，为避免在运行脚本的时候重复下载同样的文件并减轻

NCBI服务器的负载，是把序列数据保存到一个本地文件

中，然后使用Bio.SeqIO来解析。

2ꢀ ꢀ 手动查询和程序查询多条序列ꢀ

上述例子描述的是搜索1条序列，手动搜索和程序访

问两种方法差别不大，如果现在有1000或者10000条序列，

如果手动搜索，则费时费力，并且会有误差，此时程序访

问方法就显得更加便利了^[4]。具体的Python程序如下，将基

因编号放在id_list.txt文件中，将结果写到sequences.txt文件

中。

ꢀ ꢀ

科学与信息化2017年7月下

TECHNOLOGY AND INFORMATION

信息化技术应用

部分结果图如下：

如想得到这些序列的CDS区序列，并以fasta格式呈现

可以看出，简短的几句python程序就可实现批量下载生

物数据的功能，完成了手动查询很难完成的任务，为生物

研究提供了较大便利，是计算机语言在生物研究上的又一

成功应用。

出来，则需进一步编写python程序，程序如下，genbank格

式序列存放在sequences.txt文件中，fasta格式的CDS区序列

存放在result.txt文件中

参考文献

[1] 赵屹,谷瑞升,杜生明.生物信息学研究现状及发展趋势[J]. 医

学信息学杂志,2012,33(5):2-6.

[2] 王哲,黄高升.NCBI的数据库资源及其应用[J].生命科学,2002,

14(1):59-62.

[3] Bassi S.Python for Bioinformatics[M].Python for

bioinformatics. Jones and Bartlett Publishers,2012:221.

[4] 张良均.Python数据分析与挖掘实战[M].北京:机械工业出版

社,2016:39.

（上接第6页）

由于D-lib Magazine是免费获取的纯网络电子期刊所以

并没有使用许可方面的问题。同时，在其使用许可方面，

D-lib Magazine也做出了详尽的说明（a引用文献是务必表明

所引用的著者以及D-lib杂志名称；b 删节、更改和编辑相关

内容时，不得改变作者的原意；c 如果用于商业目的时需要

获得CNRL的授权许可）。

中的被引情况、收录情况，以及“纯网络电子期刊的访问

量”这两个指标是定量指标，其余的评价标准都是定性评

价。

3.3 评价指标中不分定量指标不易实现

在对“纯网络电子期刊的访问量”这一指标进行评

价的过程中，笔者发现不论是该纯网络电子期刊的登录次

数、同时在线人数，还是期刊被检索次数、被链接数等数

据都无法通过其网站简单的获得。因此，对该指标的评价

并不容易实现。

通过上述评价指标，对D-lib Magazine可以进行一个大

致的客观评价。总体来看，D-lib Magazine无论是内容、排

版还是出版发行等方面都有着较高的水准，尤其是内容质

量和发行、传播质量都非常高，是一个比较成功的纯网络

电子期刊的范例。但同时，也应当注意到，D-lib Magazine

在与用户的互动以及用户个性化服务方面仍存在不足。

3.4 部分评价指标抽象性太强无法具体评价、

例如“纯网络电子期刊的内容实用性”这一指标针对

不同领域的研究者，不同程度的研究者都有不一样的评价

结果难以给出一个准确的衡量结果，只能大致限定一个学

科领域进行评价。

3ꢀ ꢀ 评价体系存在的不足

3.1 评价指标过于概括

再如“纯网络电子期刊的权威性”也难以给出准确的

评价，只能通过期刊的出版、发行方，期刊作者以及期刊

编辑等几个方面从侧面进行评价。

通过实测发现，评价体系中的部分一级指标概括性过

强，其包括的内容过多，在评价时容易造成不便。

3.2 评价指标以定性指标居多

在上述评价指标中，只有“纯网络电子期刊权威性”

ꢀ ꢀ

科学与信息化2017年7月下

全部评论(0)

暂无评论

评论赚积分>>

上传资源上传优质资源有赏金

最新上传

打赏
30日榜单

21ic小能手打赏5.00元 3天前

资料：STM32F1主控720空心杯四轴飞行器源代码
21ic小能手打赏5.00元 3天前

资料：STM32F07智能家居控制
21ic小能手打赏5.00元 3天前

资料：stm32单片机自制-超声波自拍神器
21ic小能手打赏5.00元 3天前

资料：辉光管手表-核心板（自制）
21ic小能手打赏5.00元 3天前

资料：Multisim（七秒）倒计时电路设计(全套)程序仿真报告
21ic小能手打赏5.00元 3天前

资料：Multisim（四人）抢答器电路设计(全套)程序仿真报告
21ic小能手打赏5.00元 3天前

资料：Multisim（三人）抢答器电路设计（全套）
21ic小能手打赏5.00元 3天前

资料：MultisimRC桥式震荡器正弦波发生器电路设计（仿真＋报告）
21ic小能手打赏5.00元 3天前

资料：MultisimRC桥式震荡器正弦波发生器电路设计（仿真＋报告）
21ic小能手打赏3.00元 3天前

资料：Multisim555延时灯电路设计仿真报告
21ic小能手打赏5.00元 3天前

资料：Multisim波形信号发生器电路设计仿真报告
21ic小能手打赏3.00元 3天前

资料：Multisim计数器电路设计
21ic小能手打赏3.00元 3天前

资料：Multisim频率计频率测量电路设计
21ic小能手打赏3.00元 3天前

资料：Multisim汽车尾灯电路设计
21ic小能手打赏3.00元 3天前

资料：Multisim汽车尾灯电路设计
21ic小能手打赏3.00元 3天前

资料：Multisim电子秒表电路设计
21ic小能手打赏5.00元 3天前

资料：Multisim数字电子钟仿真电路模型数字电子钟采用74LS160
21ic小能手打赏5.00元 3天前

资料：模电课设-基于Multism的八位和四位密码锁(全套)仿真报告原理图原创
21ic小能手打赏5.00元 3天前

资料：模电课设-基于Multism的数字电子时钟(全套)仿真报告原理图原创
21ic小能手打赏3.00元 3天前

资料：模电课设-基于Multism的八路医院紧急呼叫系统
21ic小能手打赏3.00元 3天前

资料：模电课设-Multism的四路医院紧急呼叫系统

21ic小能手打赏5.00元 3天前

资料：模电课设-基于Multism的波形发生器(全套)程序仿真 PCB 报告答辩PPT 原理图原创
21ic小能手打赏5.00元 3天前

资料：Multism的汽车尾灯(全套)程序仿真 PCB 报告答辩PPT 原理图原创
21ic小能手打赏5.00元 3天前

资料：Multism的篮球24秒倒计时(全套),仿真,报告,演示视频,原创
21ic小能手打赏5.00元 3天前

资料：STM32智能电子秤设计(全套)程序仿真 PCB 报告答辩PPT 原理图原创
21ic小能手打赏5.00元 3天前

资料：STM32智能台灯系统程序（全套）仿真 PCB 报告答辩PPT 原理图原创
21ic小能手打赏5.00元 3天前

资料：STM32智能门禁锁系统程序仿真 PCB 报告答辩PPT 原理图原创
21ic小能手打赏5.00元 3天前

资料：STM32的车牌号识别系统程序仿真 PCB 原理图原创
21ic小能手打赏3.00元 3天前

资料：stm32的信号发生器(全套)程序仿真 PCB 报告答辩PPT 原理图原创
21ic小能手打赏3.00元 3天前

资料：STM32智能蓝牙手环程序仿真 PCB 报告答辩PPT 原理图原创
21ic小能手打赏3.00元 3天前

资料：Mulitism的拔河游戏机 (全套)仿真报告原创
21ic小能手打赏3.00元 3天前

资料：交通灯_Multisium仿真仿真＋PCB
21ic小能手打赏3.00元 3天前

资料：stm32智能分类垃圾桶程序、电路
21ic小能手打赏3.00元 3天前

资料：stm32的电子秤(代码)
21ic小能手打赏5.00元 3天前

资料：STM32的智能气象站（全套）程序仿真 PCB 报告答辩PPT 原理图原创
21ic小能手打赏5.00元 3天前

资料：STM32的烟雾报警器（全套）程序仿真 PCB 报告答辩PPT 原理图原创
21ic小能手打赏5.00元 3天前

资料：STM32单片机的温度控制系统（全套）程序仿真 PCB 报告答辩PPT 原理图
21ic小能手打赏5.00元 3天前

资料：STM32的多功能循迹小车（全套）程序仿真 PCB 报告答辩PPT 原理图原创
21ic小能手打赏5.00元 3天前

资料：STM32的自动量程测电阻蓝牙传输42程序仿真 PCB 报告答辩PPT 原理图原创
21ic小能手打赏5.00元 3天前

资料：STM32F429IGT6的指纹密码锁程序 PCB 报告原理图原创

简述利用Python批量下载生物序列

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

资料专题

推荐下载

专栏首页