高效、务实、严谨、敬业
服务目录
技术服务
技术专题
联系我们

联系我们

广州赛诚生物科技有限公司
广州市天河区黄埔大道中124号2705室
电话:020-85625352
手机:18102256923
Email:servers@gzscbio.com
Fax:020-85625352
QQ:2913120624

项目名称:基因全序列拼接分析

所属分类:DNA分析

联系电话:020-85625352

QQ:2913120624

Email:servers@gzscbio.com

技术服务描述

全基因组序列拼接是生物信息学研究领域的核心问题。新一代测序技术正在引领生命科学研究进入一个崭新阶段。人类基因组计划完成之后,获得个体基因组的全部序列对于生物学研究、探索与认识生命的本质具有十分重要的科学意义。

针对新一代测序数据reads长度较短、数据海量的特点,全基因组测序方面的数据分析软件的研发,已成为生物信息学领域最迫切、最重要的研究课题。虽然目前已开发有一些全基因组拼接软件,但是基本都局限在大型计算平台上完成数据分析过程,难以满足一般的研究需求,而且数据处理速度仍然远远落后于数据产生速度,已经成为整个基因组图谱绘制工作的瓶颈,并且其拼接结果在准确性方面还有待提高。

基因组序列拼接的核心思想是利用序列之间的交叠关系,通过类似于“搭积木”的方式重建目标基因组序列。其基本方法是将序列之间的交叠关系转换成计算机可以识别的结构,通过不断迭代扩展的方式延长目标序列,然后利用配对数据,确定各个目标序列的相对方向和位置关系,最终还原目标基因组序列。 基于新一代测序数据的基因组序列拼接,通常分为如下三个阶段:(1)数据的预处理阶段。该阶段通过特定的方法,移除测序数据中的错误碱基;(2)基因组连续片段(contigs)生成阶段。该阶段将reads拼接成contigs;(3)超长序列片段(scaffoldings)组装阶段。该阶段使用配对数据,确定contigs之间的方向和位置关系,生成scaffoldings