基于统计分类的方法: (1)基于KNN法(最近邻法):利用相似度找到k个训练样本,然后对其进行评分,并按分值排序。 (2)基于朴素贝叶斯算法:计算概率并建立分类模型。
指导:
医生对病人的诊断是一个典型的分类过程。没有医生能够直接看到病人的病情。他只能观察病人的症状和各种实验室检测数据来推断病情。这时,医生就像一个分类器,医生诊断的准确性与他最初受教育的方式(构建方法)、患者的症状是否突出(待分类数据的特征)、以及医生的经验(训练样本的数量)。
1. KNN分类器1.1.1 最近邻算法
定义:计算未知样本与所有训练样本之间的距离,以最近邻的类别作为决定未知样本类别的唯一依据。
缺点:对噪声数据过于敏感。
措施:统计决策样本周围多个近期样本,扩大参与决策的样本数量,避免个别数据直接决定决策结果。
1.1.2K-最近邻算法(KNN)
基本思想:在一定范围内的未知样本中选择K个样本。 K个样本中,某一类型出现次数最多,则判定该未知样本属于该类型。
例如:如果K=3,则绿点的三个最近邻居是2个红色小三角形和1个蓝色小正方形。少数属于多数。通过统计方法,确定待分类的绿色点属于红色。三角形的一种。如果K=5,则绿点的五个最近邻是2个红色三角形和3个蓝色正方形,或者少数属于多数。通过统计方法,确定待分类的绿色点属于蓝色方块。一种。
算法执行步骤:
(1) 输入测试集。 (2) 设置参数k。 (3)遍历测试集,对于测试集中的每个样本,计算该样本(测试集)与训练集中每个样本的距离;取出训练集到样本(测试集)距离最小的k个样本的类别标签;计算类别标签。次数最多的类别标签就是样本(测试集)的类别标签。 (4)遍历完成后,输出测试集的类别。
1.1.3 知识补充距离度量代表两个样本之间的相似程度。常见的距离测量方法:
2.朴素贝叶斯分类器
2.1 贝叶斯公式理解贝叶斯公式https://www.zhihu.com/question/19725590/answer/241988854 (如何用非数学语言解释贝叶斯定理(Bayes's theorem)?) 2.2 朴素贝叶斯分类器2.2.1 基本思想是对于给定的待分类项目,求在该项目出现的条件下,每个类别出现的概率。哪个最大就被认为是要分类的项目所属的类别。
2.2.2 朴素贝叶斯“公式”
2.2.3 朴素贝叶斯分类器
3. 缺陷检测
检测方法: (1)缺陷图像特征的选择和提取。 (2) 计算缺陷图像与标准图像的灰度差。 (3)通过与设定的阈值比较差值来判断是否存在缺陷。 3.1 缺陷图像差分法3.1.1 基本原理
3.1.2 基本流程(1) 有效检测区域的设置(2) 图像配准和裁剪(3) 设置差异阈值(4) 缺陷位置的确定3.2 缺陷图像特征的选择和提取详情参见:https://zhuanlan.zhihu。 com/p/43488853 3.2.1 特征提取方法(1) 灰度值特征(2) 灰度差值特征(3) 直方图特征(4) 变换系数特征(5) 直线和角点特征(5) 灰度边缘特征(6) ) 纹理特征
3.2.2 特征选择(数据降维) 降维原因:在机器学习中,如果特征值或维度过多,会造成维数灾难。维数灾难最直接的后果就是过拟合现象,进而导致分类和识别的错误。因此,我们需要降低所提出的特征的维度。基本原理:特征选择就是对原始空间进行改造,重新生成一个维度更小、维度间独立性更强的特征空间。降维面临的问题:
(1)降维后数据是否应该包含更多信息?
(2)降维后会丢失多少信息?
(3)降维对分类识别效果有多大影响?
数据降维后的好处:
(1)进行数据压缩,减少数据存储所需的空间和计算所需的时间。
(2)消除数据之间的冗余,简化数据,提高计算效率。
(3)去除噪声,提高模型性能。
(4)提高数据的可理解性,提高学习算法的准确性。
(5) 将数据维度降低到2维或3维以进行可视化。常用的方法:主成分分析、随机映射、非负矩阵分解。
3.2.3 主成分分析(PCA)方法概述:该方法的目标是找到数据中最重要的元素和结构,去除噪声冗余,降低原始复杂数据的维数,揭示隐藏在背后的简单结构复杂的数据。主成分分析试图最大限度地全面简化这个多变量数据表,同时最大限度地减少数据信息的损失。这些综合指标称为主成分,即对高维变量空间进行降维。显然,在低维空间中识别系统比在高维空间中容易得多。从线性代数的角度来看,PCA的目标是找到一组新的正交基来重新描述获得的数据空间。该维度是枢轴元素。
3.3 灰度形态学缺陷检测3.3.1 概述灰度数学形态学的基本运算包括膨胀、腐蚀、开闭等。其中,膨胀和腐蚀的结合可以构成开闭,利用开闭还可以构造形态过滤器。在灰度图像的形态分析中,结构元素可以是任意三维结构。常用的有圆锥体、圆柱体、半球体或抛物线。模板大小始终为奇数,以便模板的中心恰好对应于一个像素。
3.3.2 形态学运算对图像的影响
(1) 灰度图像膨胀的结果是比背景亮的部分膨胀,比背景暗的部分收缩。
(2)对灰度图像进行腐蚀的结果是比背景暗的部分膨胀,而比背景亮的部分收缩。
(3) 打开图像可以消除图像中过亮的点,例如岛或峰。
(4) 关闭图片可以去除比背景暗且比结构元素小的结构。
(5)形态滤波器是非线性信号滤波器,通过变换局部修改信号的几何特征。结合打开和关闭操作可消除噪音。
(6)如果用一个小的结构元素先打开再关闭图像,就可以去除图像中小于该结构元素的相似噪声结构。
3.3.3 电路板布线缺陷检测示例:对于尺寸为1100870、灰度等级为256的电路板灰度图像,布线缺陷分为断线和毛刺。灰度形态学用于检测这些。缺点。取一个结构元素为55的半球模板,首先打开原始图像的灰度,消除比邻域亮、比结构元素小的区域。然后关闭原始图像的灰度,以消除比邻域更暗且比结构元素更小的区域。面积,两个结果之间的差异是一个缺陷。
4.划痕检查
概述:划痕检测的基本分析过程分为两个步骤。首先确定待检测产品表面是否有划痕。其次,确认分析图像上存在划痕后,提取划痕。由于工业检测中图像的多样性,每种类型的圆形图像都必须通过多种手段的分析和综合考虑来处理才能达到效果。一般来说,划伤部分的灰度值比周围正常的部分要深,即划伤部分的灰度值较小,而且大多在光滑的表面上,因此整个图像的整体灰度值发生变化。非常均匀且缺乏纹理特征。
基本方法:基于统计灰度特征或阈值分割方法对划伤部分进行标记。