【深度学习】CNN神经网络应用（用于亚洲大黄蜂分类）

文章目录 1 概述 2 假设条件 3 网络结构 4 数据集和参数 5 Asian hornet classification experiments and model validation 6 Model Calculation and Result Analysis 7 LIME algorithm to explain the CNN model 8 优缺点 1 概述

一个亚洲大黄蜂群落被发现于加拿大不列颠哥伦比亚省的温哥华岛，但是这个群落的巢穴在初期就被摧毁，这一事件很快在邻近的华盛顿州扩散开，各地居民有很多关于大黄蜂的报告和图像，但是并不是所有的目击都是准确的，其中存在着大量错误的目击。我们用有限的资源研究了亚洲大黄蜂的扩散规律和“黄蜂故事”，保护蜜蜂免受它的侵害，尽快提醒养蜂人。

亚洲大黄蜂是一种来自东亚地区的入侵物种。在2019年的温哥华岛发现并摧毁了一个亚洲大黄蜂的巢穴。亚洲大黄蜂是当冬天来临时，现有的巢穴将会被废弃，所有雄峰以及工蜂都将死亡，唯一幸存下来的是蜂王。蜂王们在泥土、石头和树上寻找洞穴，那里将是它们越冬的栖身之所，气温越低，它们就会抱团越紧，经过自然淘汰，当春天来临时，它们会在地下的一些啮齿动物废弃的洞穴进行筑巢。亚洲大黄蜂的社会性很低，远不如蚂蚁，一到冬季，蜂群就自然解体。等到了第二年春季，熬过冬天的蜂王会重新组建家庭，多个蜂王一同筑巢，并在巢室中产卵。在产第一批卵的时候蜂王们以树汁为食。与此同时，这些蜂王互相战斗争夺最高等级。等到优势等级的社会建成后，最高等级的一个雌蜂就垄断产卵权，其余雌蜂如不飞走，只能处于从属地位，它们产的卵甚至可被最高等级的雌蜂吃掉。这也就是来年春天形成的巢穴要比第一年产生的蜂王的数量少得多的原因。除此之外蜂王们也会因为未shoujing而导致上述情况，由于在上一年的离巢交配过程中蜂王会击退雄蜂，导致高达65%的蜂王无法shoujing。如图1，在春季和夏季，巢穴规模扩大的比较缓慢，直到到8月份巢穴最大。此时工蜂的数目达到最多为100只。蜂王在九月开始生产雄蜂和蜂王。雄性和蚁后在10月和11月初离开巢穴交配。已shoujing和未shoujing的蚁后都会越冬，但只有已shoujing的蚁后才会在第二年继续寻找新巢穴。在雄蚁和蚁后生产出来并开始离开后，蜂群就会陷入混乱，直到随着冬天的到来最终死亡。

最初一个亚洲大黄蜂群落被发现于加拿大不列颠哥伦比亚省的温哥华岛，但是这个群落的巢穴在初期就被摧毁，由于它的“kill大黄蜂”之名，这一事件很快在邻近的华盛顿州扩散开。但是并不是所有的目击都是准确的，其中存在着大量错误的目击。由于它对当地蜜蜂种群存在严重影响，美国蜜蜂并不像亚洲蜜蜂一样，具有形成“蜜蜂球”的自杀式防御机制，所以国家建立了帮助热线和收集数据的网站，希望用有限的资源研究亚洲大黄蜂的扩散规律，保护蜜蜂免受它的侵害，尽快提醒养蜂人。 Therefore we are facing the following problems:  根据现有的亚洲大黄蜂数据，如发现时间、经纬度和繁殖规律等，预测这种有害生物随时间的传播，并且评估预测的精确度。  存在大量的目击把其他的普通黄蜂误认为亚洲大黄蜂，根据提供的数据集文件和图像文件建立一个黄蜂分类模型，分析并讨论预测错误的可能性、敏感性和AUC值等。  验证我们的模型分类结果，证明结果中的Positive类型是正确的，得出何时何地的预测准确，何地不准确的结论。  优化模型，说明随着时间推移，在出现新报告的情况下，制定模型的更新机制，包括更新方法和更新频率等。  利用上述模型，找到华盛顿州的亚洲大黄蜂数量减少至认定的安全范围的证据。

2 假设条件

 我们将新蜂巢的间距为八公里以上。题目中所给出的文件说明工蜂的活动范围最大为8公里，要保证资源的充足性我们将新蜂巢的间距设置为八公里以上。  在模型中城市中出现蜂巢的概率较低。根据啮齿动物的分布，以及蜂王的筑巢习惯在啮齿动物等废弃洞穴中的原因将城市中出现蜂巢的概率降低。  假设政府干预是导致蜂群衰落的主要原因。题目中给的文献中说明亚洲大黄蜂在北美洲没有天敌，如果无政府干预接下来将会快速蔓延，因此在模型中加入政府干预，确定政府干预是导致蜂群衰落的主要原因。

3 网络结构

卷积神经网络(CNN)早期叫做神经认知机，是受到视觉系统中的神经机制的启发而提出的一种模型。CNN是一种特殊的前馈神经网络，具有权值共享、局部连接等特点，大量的神经元遵照一定方式组织起来，以对视野中的交叠区域产生反应。自从CNN在深度学习领域出现后，在图像识别和分类，目标定位和检测的大规模竞赛中占有重要的地位。CNN 由早期的人工神经网络发展而来，使用卷积操作解决了人工神经网络计算量大和结构信息丢失的缺点。为模拟人类视觉认知功能，Fukushima等提出神经认知机的概念，这被认为是CNN的起点。LeCun等构建起最初的LeNet模型，其包含卷积层、全连接层。经过改进，LeCun 等又提出了经典的LeNet-5 模型，较好地解决了手写数字识别问题，该模型已经包含了现代 CNN 网络的全部基本模块：卷积层、非线性激活层、池化层、全连接层。目前已经出现了各种基于CNN改进模型，如AlexNet、ResNet和YOLO等，本实验对亚洲大黄蜂的分类模型使用比较流行的一种搭建结构, 如图n所示，从左到右的顺序, 首先是输入黄蜂图片, 经过一层卷积层, 再用池化方式处理卷积的信息, 本研究使用的是 Max Pooling 的方式。我们做了3次同样的处理, 把得到的第3次处理信息传入两层全连接的神经层，最后使用一个分类器进行分类预测。

4 数据集和参数

分析提供附件中的数据集，我们发现属性为Positive ID的报告只有14份，而 Negative ID的报告有2069份，确定为亚洲大黄蜂的图像数据较少，这些数据不能保证网络训练的准确率，所以我们使用使用多进程图像搜寻器(Naver)在www.alamy.com网站上爬取了一些确认为亚洲大黄蜂的图像，这些图像清晰度较高，亚洲大黄蜂的轮廓清晰。处理附件中提供的图像，发现这些图像中还存在3项类型为docx的文档，8项类型为pdf的文档，92份视频文件和7项其他类型文件，在剩下的图像中还存在大量的噪声，包括用户随意上传的图像，和黄蜂有关的人体图像，黄蜂体积很小的外部环境图像，这些图像会影响CNN的训练。如图n所示，在去除了这些噪声后，我们通过随机旋转90度，180度，270度的方式对数据集进行扩增。

有1480张来自于附件中的其他黄蜂图像，370张亚洲大黄蜂图像，经过数据增强之后，两者都变成了1480张。这样的数据量有利于提高监督学习模型的准确度。

5 Asian hornet classification experiments and model validation

我们在这一部分对网络进行了训练和验证，将70%的黄蜂数据用于训练，30%的数据用于验证，在图n（a）中，网络在训练集上的准确率达到0.9925，在验证集上准确率为0.9574，在图n（b）中，网络在训练集上的Loss为0.02684，在验证集上的Loss为0.1007。在第8个Epoch之后，准确率和损失值趋于水平，训练结束。

6 Model Calculation and Result Analysis

7 LIME algorithm to explain the CNN model

8 优缺点

Strengths

我们改进了传统元胞自动机模型对亚洲大黄蜂的繁衍进行模拟，充分考虑了亚洲大黄蜂的筑巢范围和生活习性，分析了华盛顿州的地理特征，因此，模型的精准性更高。 We improved the traditional Cellular Automata model to simulate the reproduction of Asian giant hornet, fully considered the nesting range and living habits of Asian hornets, and analyzed the geographic features of Washington State, thus, the model is more accurate. 我们重点针对图像数据进行了数据增强工作，包括图像的细节增强和数量扩增，对模型的分类结果进行了验证，模型的AUC值较高，具有更高的准确率、特异性和灵敏度，有良好的应用前景。 We focused on data enhancement work for image data, including detail enhancement and quantity augmentation of images, and validated the classification results of the model, which has higher AUC values, higher accuracy, specificity and sensitivity, and has good application prospects. 我们使用了LIME分析方法，对CNN网络的分类结果做出了充分解释，提高了可信度。 We used LIME analysis to provide a full explanation of the classification results of the CNN network and improve the confidence level. Weaknesses 1.在元胞自动机模型中，元胞按照一定的转换规则进行转播。但在现实世界中，亚洲大黄蜂的繁衍扩散不一定沿着邻居传播，可能会受到一定的外界因素的限制，从而导致模拟不够准确。 In the Cellular Automata model, cellular are relayed according to certain transformation rules. However, in the real world, the reproductive spread of Asian giant hornet does not necessarily spread along its neighbors and may be limited by certain external factors, which leads to less accurate simulations. 附件提供的亚洲大黄蜂图像数据中存在大量的噪声，如黄蜂的虫卵、自然环境、手机截屏和人体图像等，这些数据会一定程度上影响网络的训练。对于一些残缺或者目标过小的黄蜂图像，模型会一些出现漏检的情况。 The Asian hornet image data provided in the attachment contains a large amount of noise, such as wasp eggs, natural environment, cell phone screenshots and human images, which will affect the training of the network to some extent. For some wasp images with mutilated or too small targets, the model will some appear to miss detection.

免责声明：文章内容来自互联网，本站不对其真实性负责，也不承担任何法律责任，如有侵权等情况，请与本站联系删除。
转载请注明出处：【深度学习】CNN神经网络应用（用于亚洲大黄蜂分类） https://www.yhzz.com.cn/a/12047.html

【深度学习】CNN神经网络应用（用于亚洲大黄蜂分类）

【深度学习】CNN神经网络应用（用于亚洲大黄蜂分类）

相关推荐

分享到:

请登录