新的信息学软件有助于识别罕见的遗传变异
印第安纳大学医学院的一组研究人员开发了专门的生物信息学软件,旨在识别全基因组测序研究中的罕见遗传变异。Zilin Li,博士,生物统计学和健康数据科学助理教授,是最近在Nature Methods上发表的文章的第一作者和共同通讯作者,该文章详细介绍了使用 Annotation infoRmation 管道(或 STAARpipeline)框架进行关联的变体集测试.
“尽管有数以亿计的稀有基因变异,但它们的研究一直具有挑战性,因为没有方便、可扩展和强大的管道用于全面的稀有变异分析,这需要评估变异集而不是单个变异,”李说。
STAARpipeline 允许研究人员评估一组罕见的非编码遗传变异,这将有助于进行基因研究。非编码遗传变异是基因组中不编码氨基酸的部分,氨基酸是结合形成蛋白质的分子。一个人 98% 以上的 DNA 是非编码的。
“在 99% 的人类基因组中观察到罕见变异,是复杂性状和疾病遗传力缺失的主要来源,”李说。
为了使用 STAARpipeline,研究人员将基因型(遗传密码)和表型(复杂性状或疾病密码)数据输入到程序中。该软件分析该数据并识别稀有变异,在以基因为中心的分析中将变异分为八个功能类别,在非以基因为中心的分析中分为固定大小的滑动窗口和新提出的数据自适应动态窗口。以基因为中心的分析侧重于基因内部或附近的变异,而非基因中心的分析侧重于基因间区域的变异,基因间区域是位于基因之间的 DNA 片段。然后,该程序为每个变体集合并多个变体功能注释,以进一步提高分析能力并为用户总结结果。
该研究团队已经在大样本量上测试了 STAARpipeline,其中包括来自国家心肺血液研究所 (NHLBI) 跨组学精准医学计划的 40,000 个样本。在该分析期间,STAARpipeline 在以基因为中心的非编码分析中发现了 49 个重要关联,其中 35 个是基于六个新提出的非编码类别发现的。此外,数据自适应大小动态窗口分析在非编码基因组中检测到 43 个非重叠的显着关联,比经典的固定大小滑动窗口程序多 19.4%。
STAARpipeline 建立在 STAAR 的基础上,这是 Li 和他的同事建立的另一个程序,这是一个基因变异集测试,用于通过使用注释信息来查找连接和关联。
“我们相信 STAARpipeline 可以扩展以分析价值数亿个变体的全基因组测序数据,”李说。“由于在 99% 的人类基因组中发现了稀有变异,因此该计划解决了信息分析中的一个重要空白。”
版权声明:本文由用户上传,如有侵权请联系删除!