您现在的位置:网站首页答辩论文计算机毕业设计计算机论文计算机软件

基于SNP遗传谱的复杂疾病基因作图与网络构建方法研究

  • 简介:(基于SNP遗传谱的复杂疾病基因作图与网络构建方法研究-工学硕士毕业论文 页数:66 字数:31578) 摘要 人类多数(80%)疾病属于复杂疾病,复杂疾病一般是由多个遗传基因及环境因素共同交互作用而发生发展的,并且往往具有家族聚集倾向性、遗传异质性等特...
    • 请与管理员联系购买资料 QQ:5739126
  • 论文简介
  • 相关论文
  • 论文下载

(基于SNP遗传谱的复杂疾病基因作图与网络构建方法研究-工学硕士毕业论文 页数:66  字数:31578)

摘要
人类多数(80%)疾病属于复杂疾病,复杂疾病一般是由多个遗传基因及环境因素共同交互作用而发生发展的,并且往往具有家族聚集倾向性、遗传异质性等特征,表型与基因型间没有简单对应关系。现代医学研究认为疾病的发生、易感性及对药物的反应差异性等复杂性状与基因突变或遗传多态性密切相关。因此,利用遗传多态性标记对复杂疾病相关基因进行精确定位是目前研究的热点和难点。在本文的研究中我们提出了利用单核苷酸多态性(SNPs)标记对复杂疾病基因作图(定位)及互作网络构建的新方法,并将该方法应用于GAW14发布的酒精中毒数据相关互作多基因定位问题上,取得了良好的效果。
我们对比了现有的基因定位分析方法,基于连锁分析和关联分析的基因定位方法多是针对单个疾病特征标记来研究,忽略了多个可能疾病特征标记间复杂互作的综合效应。本文中的研究中,我们将基因定位问题看作提取疾病特征标记(比如SNPs)的模式识别问题,提出了SNP协作簇的特征提取算法MPISC,这里我们。这是一种新的全局分析方法,这种全局分析方法能够较好地反映多基因互作、多基因和环境因素共同作用等情况。
复杂疾病是受遗传机制和环境因素共同控制的,因此在我们的复杂疾病互作多基因定位方法的研究中综合考虑到了这两方面的因素。首先将具有家系结构的SNP遗传谱转化为IBD谱,然后基于MPISC算法提取那些IBD分布在两类受累同胞对组中显著差异的SNP协作簇。这些SNP协作簇不仅可以定位复杂疾病相关多基因,而且反应相关基因的互作关系,可以进一步构建SNP虚拟互作网络,进而映射为基因之间的互作关系,最终完成对复杂疾病互作多基因精确定位和基因互作网络构建。

关键词 复杂疾病;基因定位;SNP虚拟互作网络;基因互作网络
Abstract
About eighty percent of common human disorders belong to complex trait. Complex diseases are often caused by the interaction of many loci and environmental effects, and exhibit a strong familial component and population genetic heterogeneity. A simple relationship between the observable phenotypes and the underlying genetic effects does not exist. Variants have been deemed to confer susceptibility to common diseases and response to drug therapy in modern medicine study. It advances a challenge for gene mapping using polymorphic markers. Consequently, in our study we propose a new idea for locating interactive multiple genes and constructing their interactive network responsible to complex disease utilizing single-nucleotide polymorphisms (SNPs). We demonstrate the properties of this novel approach via an application to the alcoholism data in GAW14.
We have made comparisons among current methods for gene mapping. Most methods based on linkage analysis and association analysis considers one marker at a time and does not take into account the correlated structure of multiple linked markers. In this paper, we treat the puzzle for gene mapping as a pattern recognition problem and propose a feature selection algorithm(MPISC) to mine SNP combination remarkably associated with complex trait.. This method offers us a new way for gene mapping from a global view.
Complex diseases are controlled by genetic mechanism and environmental effects. Hence, in our method of gene mapping for interactive multiple genes we take into account both of the factors. We transform the profile of SNP into IBD profiling and use the MPISC algorithm proposed to extract SNP combination with differential IBD distributions among the affected groups of sibpairs. We can generate dummy interaction network of SNPs based on the mined SNP combinations, and further reflect the interactions among genes that are mapped by the SNPs and construct interaction network of genes.

Keywords complex disease; gene mapping; dummy interaction network of SNPs; interaction network of genes
目录
摘要 I
Abstract II

第1章 绪论 1
1.1 课题背景 1
1.1.1 复杂疾病研究面临的问题 1
1.1.2 遗传多态性标记的发展 1
1.2 国内外研究现状 3
1.3 本课题的主要研究内容及意义 5
1.4 本课题的来源 6
第2章 基因定位方法的研究 7
2.1 引言 7
2.2 基本概念 7
2.3 连锁分析方法 8
2.3.1 参数分析法 8
2.3.2 非参数分析法 9
2.4 关联或连锁不平衡的分析方法 10
2.4.1 群体关联分析 11
2.4.2 以家系为基础的连锁不平衡分析 11
2.5 连锁与关联分析方法的比较 12
2.6 本章小结 13
第3章 复杂疾病基因定位与网络构建方法 14
3.1 引言 14
3.2 基于SNP遗传谱构造IBD谱数据 14
3.2.1 相关概念 14
3.2.2 SNP遗传谱数据 15
3.2.3 IBD数据的计算原理 15
3.2.4 S.A.G.E.遗传分析系统的功能及应用 17
3.2.5 IBD谱的构造 17
3.3 SNP协作簇提取算法(MPISC) 18
3.4 建立SNP虚拟互作网络 19
3.4.1 计算SNP与疾病的关联度 19
3.4.2 网络的结点和边 20
3.4.3 生成SNP虚拟互作网络 21
3.5 基因作图与互作网络构建 21
3.5.1 由SNP定位到gene 21
3.5.2 建立基因间的互作关系 24
3.6 本章小结 24
第4章 SNP协作簇的特征提取方法 25
4.1 模式特征提取算法的研究 25
4.1.1 最优搜索算法 25
4.1.2 次优搜索算法 25
4.2 MPISC算法 27
4.2.1 算法思想 28
4.2.2 知识表示(编码) 29
4.2.3 初始化种群 30
4.2.4 适应度函数计算(SVM) 30
4.2.5 选择算子 30
4.2.6 交叉算子 31
4.2.7 变异算子 32
4.2.8 加速进化 32
4.3 本章小结 33
第5章 试验结果与分析 34
5.1 数据来源 34
5.2 数据预处理 34
5.2.1 构造IBD谱 34
5.2.2 补缺失值 35
5.3 SNP虚拟互作网络的构建 35
5.3.1 SNP协作簇的提取 35
5.3.2 SNP协作簇的筛选标准 36
5.3.3 与疾病显著相关的SNP 36
5.3.4 SNP虚拟互作网络 39
5.4 互作多基因的定位及网络的构建 39
5.5 生物学验证 39
5.6 MPISC算法的评价 40
5.6.1 算法的搜索效率 40
5.6.2 参数e的选取对搜索结果的影响 41
5.6.3 与其它算法的比较 42
5.7 本章小结 44
第6章 复杂疾病基因作图及网络构建系统的实现 45
6.1 引言 45
6.2 系统描述 45
6.2.1 数据管理模块 45
6.2.2 数据预处理模块 45
6.2.3 SNP组合提取模块 46
6.2.4 频数统计模块 48
6.2.5 注释模块 48
6.2.6 可视化模块 49
6.3 系统实现所用技术 51
6.4 本章小结 51
结论 52
参考文献 53
攻读学位期间发表的学术论文 56
哈尔滨工业大学硕士学位论文原创性声明 57
哈尔滨工业大学硕士学位论文使用授权书 57
致谢 58
第1章 绪论
1.1 课题背景
1.1.1 复杂疾病研究面临的问题
许多复杂疾病具有家族聚集倾向,而且这些疾病极少是由单基因缺陷引起的,即其并非遵循简单Mendel遗传规律[ ],它们往往是由多基因互作以及多基因和环境因素相互作用积累所致,因此,称之为多基因病(多基因遗传病)。该类疾病病因复杂,而且往往具有遗传异质性,基因型与表型间没有简单对应关系,通过遗传多态性标记进行定位和鉴定复杂疾病的相关基因是目前研究的热点和难点。
(1)多基因互作及微效基因的困扰
复杂疾病的特点往往是由多个中效、微效基因共同决定疾病的复杂性状,仅一个基因的改变对疾病的发生、发展,以及对药物作用的影响不大,其中某一个或某些基因位点仅对应于该疾病的某个亚型、某个症状或体征[ ]。
(2)环境因素的影响
复杂疾病的发病率,即疾病外显性(Penetrance)取决于后天环境因素影响的性质及程度[ ]。
(3)遗传异质性
一些临床上表现相同或相似的疾病实际上可能由不同的致病基因控制,这种遗传现象称为遗传异质性。复杂疾病实际上可能是由一组致病基因、或易感基因、或环境因素不同,而表型相似的疾病组成,如糖尿病,群体中也存在具有遗传易感性但不发病或尚未发病的亚群,缺乏对疾病形成过程中环境作用的有效控制途径,必然导致研究对象的内部异质性,从而影响疾病相关基因的研究[ ]。
1.1.2 遗传多态性标记的发展
基因组DNA是生物体各种生理、病理性状的物质基础。人类众多个体的基因组序列的一致性高达99%以上,但个体之间各种性状的差异仍然很大,包括对疾病的易感性、对同一疾病治疗药物的反应性等。在同一生物集团中明显存在两种以上不同的遗传性状,而且出现频率较高,称为遗传的多态性(polymorphism),而遗传物质DNA的多态性如RFLP(Restriction Fragment Length Polymorphism)、MS(Microsatellite)、ABO血型、HLA和单核苷酸多态性SNP(Single Nucleotide Polymorphism)是个体间差异的遗传学基础。
第一代遗传标志:限制性片段长度多态性RFLP [ ];第二代遗传标记为微卫星标志MS, 又称短串联重复STR,是指DNA基因组中小于10个核苷酸的简单重复序列,在染色体上分布较均匀,信息量明显高于RFLP成为遗传连锁分析的有用标志[ ]。同时MS也成为物理图谱的标志,从而促进了遗传图谱与物理图谱的整合[ ];第三代遗传标志:单核苷酸多态性标志SNP,主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。其意义已超出了遗传作图的范围,成为研究基因多样性和识别、定位疾病相关基因的一种新型手段[ ]。
作为第三代遗传标记,SNPs在基因组中具有高密度和高保守的特点,人类30亿个碱基中每千个碱基出现一次,初步估计在整个基因组共有300万以上的SNPs。大多数SNPs位于基因组的非编码区,并且有些位于基因组编码区的SNPs所致编码序列的改变并不影响翻译后的氨基酸序列,这种SNPs对个体的表现型是无影响的,但是有的SNPs位于基因启动子中,导致基因转录活性的上升或下降,造成该蛋白的表达量上升或下降,进一步影响其生物学活性.有些位于蛋白质编码区的SNPs可能影响翻译后关键的功能基团的氨基酸序列,从而影响蛋白质的功能,最终导致对特定环境或病因的反应敏感性。
SNP用作遗传标记具有以下优点:(1)SNP在人群中是二等位基因性的,在任何人群中其等位基因频率都可估计出来。(2)它在基因组中的分布较微卫星标记广泛得多。(3)与串联重复的微卫星位点相比,SNP是高度稳定的,尤其是处于编码区的SNP(cSNP),而前者的高突变率容易引起对人群的遗传分析出现困难。(4)部分位于基因内部的SNP可能会直接影响产物蛋白质的结构或基因表达水平,因此,它们本身可能就是疾病遗传机制的候选改变位点。(5)易于进行自动化、规模化分析,缩短了研究时间。由于SNP的二态性,非此即彼,在基因组筛选中SNPs往往只需 的分析,而不用分析片段的长度,这就利于发展自动化技术筛选或检测SNPs。

查看评论 已有0位网友发表了看法
  • 验证码: