您的位置:首页 >知识精选 >正文

疾病相关基因组中相似特征的检测和提取

摘要 【研究性学习】一、背景将不同层次的概况整合在一起的多组学3分析具有挑战性,因为概况中的变量数量彼此差异很大。例如,基因表达谱和基因...

【研究性学习】

一、背景

将不同层次的概况整合在一起的多组学3分析具有挑战性,因为概况中的变量数量彼此差异很大。例如,基因表达谱和基因组DNA甲基化谱经常一起分析,但基因只有数万个,而DNA甲基化位点的数量却高达数千万个。这些数字相差一千倍,而且基因和 DNA 甲基化位点之间的配对数量非常巨大。因此,需要大量的计算资源来根据先验知识,通过关注特定区域(例如启动子5区域)的DNA甲基化位点来进行集成分析,而无需控制靶标数量。然而,由于限制了待分析的基因组区域,DNA甲基化对其他区域(例如增强子6)和功能的影响仍未被探索。

2 研究与成果

本研究采用之前的研究* 中开发的方法,对岩手东北医疗大银行组织(IMM)从100名当地居民参与者中综合收集的多组学数据(基因表达谱、DNA甲基化谱、单核苷酸多态性(SNP)7谱)进行处理,并确认是否可以鉴定与疾病相关基因的关系。这是一种数据驱动的方法,称为变量提取方法,采用基于核张量分解的无监督研究(以下称为张量分解),该方法适用于所有受试者都属于健康组的数据集。

此外,该方法可以通过每 1 个图谱的内核大小(特别是受试者参与者的平方)左右的记忆来实现,因此,甚至对于包含数千万个 SNP 或 DNA 甲基化位点的基因组和表观基因组等巨大的图谱也是如此。 ,数据驱动的分析可以识别研究对象的独特模式,并识别与这些模式表现出相似性的变量(基因表达谱、DNA 甲基化谱、SNP 谱)(图 1)。在本研究中,张量分解

应用于每个常染色体均取自三种细胞类型:CD4 阳性 T 细胞、单核细胞和中性粒细胞。结果,确定了受试者概况的两种模式,并且在 22 个常染色体中观察到的这两种受试者模式显示出其他常染色体之间非常强的相互相关性。由于每个常染色体中鉴定的基因彼此完全独立,这表明观察到的跨染色体共享的模式并不是巧合。观察到的正交模式也不能用批次效应来解释,并且在通过不同方法获得的三个组学概况中不可能存在相同的批次效应。

这两种模式的主体分别通过张量分解获得作为第二和第三奇异值向量。从所有三种细胞类型中检测到第二奇异值向量,而从除单核细胞之外的两种细胞类型中检测到第三奇异值向量。然后,选择与这些模式具有同源性的基因和DNA甲基化区域,以发现这些基因和区域是许多转录因子的靶标。此外,富集分析表明这些转录因子与多种疾病相关。此外,研究发现,所识别的 SNP 在统计上与这些转录因子的结合位点显着重叠。因此,作者认为张量分解的应用对于多组学数据集的集成分析是有效的。

版权声明:本文由用户上传,如有侵权请联系删除!