【摘要】 针对本题的实际,综合应用DKLT、最小误判准则、最小风险准则、分支定界次优算法l-r法求解本题。不断结合对已知类别样本的检验结果分析所用方法的不足,然后改进,正确率达到95%以上。其中提出”拒判”的概念以进一步减小判决带来的风险。69个未知类别样本的分类结果见正文表一和表二。为节省费用,只用此 30 个特征数据中的部分特征来区分乳房肿瘤是良性还是恶性。通过l-r法作的特征选择,选取了细胞核凹陷点数的平均值、断裂度的平均值、质地的标准差、光滑度的标准差、断裂度的最坏值这5个特征就能得到用30个特征分类一样的结果,大大的减少了费用。
【关键词】 H-K算法 离散K-L变换 最小误判概率准则 最小风险准则 l-r法
1.问题重述 乳房肿瘤通过穿刺采样进行分析可以确定其为良性的或为恶性的。医学研究发现乳房肿瘤病灶组织的细胞核显微图像的 10 个量化特征:细胞核直径 , 质地 , 周长 , 面积 , 光滑度 , 紧密度 , 凹陷度 , 凹陷点数 , 对称度 , 断裂度与该肿瘤的性质有密切的关系。现试图根据已获得的实验数据建立起一种诊断乳房肿瘤是良性还是恶性的方法。数据来自已经确诊的 500 个病例,每个病例的一组数据包括采样组织中各细胞核的这 10 个特征量的平均值 , 标准差和“最坏值” ( 各特征的三个最大数据的平均值 ) 共 30 个数据。并将你的方法用于另外 69 名已做穿刺采样分析的患者。其中B 为良性 M 为恶性 , X 为待定。 若为节省费用,还想发展一种只用此 30 个特征数据中的部分特征来区分乳房肿瘤是良性还是恶性的方法,你是否可找到一个特征数少而区分又很好的方法? 2.模型假设 1. 所给数据基本没有误差,各样本病例的诊断结果完全正确。 2. 30个特征能提供充分的分类信息。 3.名词解释与符号说明 模式:对分类识别对象进行科学的抽象,建立它的数学模型,用以描述和替代识别对象,称这种对象的描述为模式(Pattern)。对一类对象的抽象也称为该类的模式。 特征矢量:以量化特征为分量组成的矢量,记为X 特征空间:所有特征矢量所组成的空间 分类器:解决某一实际问题的具体的分类识别算法 c:分类类别数,这里为2 N:样本总数 N1:训练样本总数 N2:测试样本总数 n:特征空间的维数 err:分类器对检验样本分类的错分总数 Ω1:所有恶性乳房肿瘤细胞样本组成的一类,下面称为第一类 Ω2:所有良性乳房肿瘤细胞样本组成的一类,下面称为第二类 X1:来自Ω1的样本的特征矢量 X2:来自Ω2的样本的特征矢量 P(e):分类器的误判概率 Sw:总的类内离差阵 SB:类间离差阵
4.问题分析 本题需要根据题设给出的分类信息设计一个分类器,它能很好的区分两类样本。然后用这个分类器对未知类别的69例病例分类判别。为节约费用,只用此 30 个特征数据中的部分特征来区分,这就需要进行特征选择(feature selection),以最小的代价获得要求的分类效果。在比较不同的分类器的优劣时可先简单取N1=N2=N=500,用对检验样本的错分样本数(err)占样本总数(N)的比(err/N)来衡量,比值越大,效果越差。然后对最后推荐的分类器采用分组轮换法即取N1=400个样本训练,剩下的N2=100个样本测试,更精确地估计出误判概率。在求解的过程中,以err/N为标准衡量所用的分类器的优劣,分析其不足,逐步改善分类规则。 首先从最简单的方法着手,考虑30个特征可否线性可分。之所以选取了H-K算法,是因为它克服了一些算法(如感知器算法)当模式是线性不可分时不收敛;而不收敛出现后却无法判断是模式线性不可分还是所用算法的问题。H-K算法采用的是最小均法误差准则,它的优点就是对线性可分模式能正确分类;对线性不可分模式能说明它是线性不可分的。用此算法求解本题,发现直接利用30个特征是线性不可分的,于是需要对30个特征作变换,使得变换后维数变少,分量之间不相关,能量更趋集中,这样使变换后新模式的分类更加容易。 接下来选取了基于总的类内离差阵Sw和类间离差阵SB的离散K-L变换(DKLT)。因为本题要求分成两类,故发挥了DKLT的最大优势,从30维特征空间降到1维变换特征空间并且不损失任何分类信息。变换后的1维量包含了原30维特征矢量的全部分类信息,降低了分类难度。 最后对变换得到的1维量作了正态分布的检验后,利用统计判决中的最小误判概率准则和最小风险准则作分类。它们都是基于最大似然的思想,只是后者更细致的讨论了不同决策所带来的风险的差异,从而引入“拒判”的概念。可以说最小误判概率准则是最小风险准则在认为不同决策的风险一样时的特例。 在用此 30 个特征数据中的部分特征来区分乳房肿瘤是良性还是恶性时,选用的增l减r法(l-r法),既能克服运算量过大又能避免一旦某特征选入或剔除就不能在剔除或选入的缺点。最后选取了5个特征细胞核凹陷点数的平均值、断裂度的平均值、质地的标准差、光滑度的标准差、断裂度的最坏值。只用此5个特征对未知类别的69个样本分类的结果与用30个特征的分类结果相同。
目录
【摘要】 1.问题重述 2.模型假设 3.名词解释与符号说明 4.问题分析 5. 模型的建立与求解 6.结果分析 7.进一步讨论 8.模型评价 参考文献
|