一种利用多波束后向散射数据进行海底沉积物分类的模型-Selecting Optimal Random Forest-时空数据智能获取技术与应用教育部工程中心

一种利用多波束后向散射数据进行海底沉积物分类的模型-Selecting Optimal Random Forest

张晨 2020-12-17 浏览

Xue JI（纪雪），Bisheng Yang（杨必胜），Qiuhua Tang（唐秋华）

来源：Applied Acoustics

摘要：利用声学遥感技术并结合一定数量的实地取样数据是一种迅速而可靠的海底底质分类技术，具有工作效率高，获取资料连续、丰富等优势。本文主要从后向散射强度校正、声纳图像质量改善、分类器构建三方面进行研究，以提高海底沉积物分类的准确性。具体工作包括：1)构建了包含TVG、海底入射角改正、声照面积改正、角度依赖性改正、中央波束改正等在内较为完善的多波束声强补偿改正模型，得到准确反映海底沉积物类型的强度值。2)为提高声纳图像质量，建立脉冲耦合神经网络(PCNN)图像增强模型，并引入40维特征丰富强度描述。3)提出了一种选择最优随机森林(SORF)模型进行海床沉积物自动分类，该模型能够自动选择输入特征向量并优化模型参数。4)以胶州湾多波束后向散射强度数据为例，通过与支持向量机(support vector machine, SVM)和随机森林(random forest, RF)分类器的对比，验证SORF分类模型的有效性和优越性。

通过自主开发的多波束数据处理软件对多波束后向散射声强数据进行系统和完善的补偿改正,包括TVG、海底入射角改正、声照面积改正、角度依赖性改正、中央波束改正等，得到能准确表达海底底质的高质量声呐图像。

图1. 校正前后的后向散射强度。(a)原始后向散射数据得到的镶嵌图像。(c)及(e)为(a)的对应的局部放大图；(b)为校正后的声呐图像。(d)和(f)是对应的局部放大图。

R. Eckhom等对猫的视觉皮层神经元脉冲串同步振荡现象的研究得到了哺乳动物神经元模型, 并由此发展形成了脉冲耦合神经网络 PCNN 模型, 本文将该模型应用到图像增强处理得到特征更加分明的声呐图像。

图2. 不同增强模型得到的声呐图像比较。镶嵌后的声纳图像(a)得到灰度直方图为(d)；模糊集增强算法得到的增强图像(b)相对应的灰度直方图为(e)；PCNN增强后的声呐图像(c)对应的灰度直方图为(f)。

随机森林（Random Forest, RF）是一种集成机器学习方法，它利用随机重采样技术bootstrap和节点随机分裂技术构建多棵决策树，通过投票得到最终分类结果。RF具有分析复杂相互作用分类特征的能力，对于噪声数据和存在缺失值的数据具有很好的鲁棒性，并且具有较快的学习速度，其变量重要性度量可以作为高维数据的特征选择工具，近年来已经被广泛应用于各种分类、预测、特征选择以及异常点检测问题中。本文提出一种选择最优随机森林分类模型（SORF）是在RF模型的基础上对随机森林特征选择和分类模型的组合和参数优化，选择最优随机森林分类模型工作流程如图3所示，主要涉及随机森林特征选择、随机森林参数优化和分类三部分。通过随机置换袋外数据变量值，通过计算置换前后的OOB误差率间的差异来衡量变量的重要性，对于某一变量而言，采用置换法计算该变量重要性()，筛选优势特征输入分类模型。通常，在随机森林分类模型中决策树数量和分裂属性个数的合理选取是提高RF预测精度的关键，设置过小易使RF训练不充分而导致模型“欠拟合”，设置太大又易使RF过度训练功导致“过拟合”; 同样，设置太小易使RF过度训练而导致“过拟合”，设置太大会使得RF训练不充分而导致模型“欠拟合”。“过拟合”“欠拟合”均会降低RF模型的预测或分类性能。本文通过迭代计算方法，确定最优决策树数量和分裂属性个数。将分类精度、最佳拟合时间和时间复杂度作为三个独立参数进行加权求和，确定模型最优参数。

图3. SORF模型工作流程图

结合实地采样和历史资料分别选取实验样本和测试样本对SORF模型进行训练和测试。此外，与SVM和传统RF分类结果进行对比。结果证明SORF在overall accuracy和Kappa精度评价指标都明显优于另外两种模型。

图4. 研究区域的海底底质分类结果:(a) SVM算法的分类结果;(b) RF算法分类结果;(c) SORF算法分类结果。

表1不同分类模型的分类精度对比

Abstract：

Seabed sediments classification using acoustic remote sensing techniques is an attractive approach due to its high coverage capabilities and limited costs compared to taking samples of the seafloor. This paper focuses on backscatter intensity correction, sonar image quality improvement, and classifier construction, which aims to improve the accuracy of seabed sediments classification. The details are as follows. 1) A series of multibeam echosounder backscatter intensity correction model is constructed, including time-varying gains (TVG), transmission loss, actual area of insonification, source level, transmitting and receiving beam patterns, specular area correction, etc., to obtain accurate intensity values that accurately reflect seabed sediment types. 2) The pulse coupled neural network (PCNN) image enhancement model is established to improve the quality of sonar images, and 40 dimensional features are included to enrich the intensity description. 3) Selecting optimal random forest (SORF) seabed sediment automatic classification models that can select the input feature vectors and optimize the model parameters automatically are established. 4) Taking multibeam backscatter intensity data collected in Jiaozhou Bay as an example, the effectiveness and advantages of SORF are verified by comparing with support vector machine (SVM) and random forest (RF) classifiers.

点击获取原文

一种利用多波束后向散射数据进行海底沉积物分类的模型-Selecting Optimal Random Forest

张晨 2020-12-17 _showDynClicks("wbnews", 1448217335, 1901)浏览

张晨 2020-12-17 浏览