近日,南京大学生命科学院李建龙教授团队联合江西农业大学郭熙教授团队长期在土壤生态健康高光谱与人工智能深度学习建模和解释性新方法研究中,取得了重大进展。他们在中国南方山地丘陵区潋水河流域采集了大量农用地土壤样品,并在实验室内测定了土壤全氮(STN)含量和土壤光谱数据和大田进行了验证;然后对土壤光谱进行预处理和特征分析;接着比较了全光谱和特征光谱对深度学习模型精度的影响,并且获得了卷积神经网络(CNN)建模过程中波长的贡献通过计算SHAP值;最后,他们利用SHAP值解释了建模结果产生差异的成因。该研究成果进一步证明了深度学习的可解释性,为了人工智能深度学习在土壤高光谱建模中的应用,提供重要的科学依据,为今后提高土壤高光谱监测精度提供了支撑,将有利于实现精准农业和监测土壤养分生态状况的目标(图1)。
图1. 该研究核心研究方法构建过程及其创新结果流程图
由于农田作物的生长离不开土壤提供的水分和营养物质,这是支撑几乎所有农业生产的基石。在作物的生长发育过程中,土壤中养分含量的高低直接影响着作物的产量和品质。若未能及时获取土壤养分的相关信息,可能导致施肥不足或过度,从而影响农作物的生长发育和产量,进而对粮食安全产生影响。因此,快速准确的获取土壤养分信息,对于今后指导农民进行科学施肥、提高农业种植产量、保护生态环境以及粮食安全都具有至关重要的意义。
近年来,随着高光谱遥感技术和人工智能技术的发展,高光谱技术以其光谱分辨率高和波段信息丰富的优点迅速发展起来,在快速估测土壤属性信息上有其强大的优势,目前已成功应用于土壤养分信息的估测;同时,随着人工智能深度学习技术的发展,卷积神经网络为代表的深度学习由于强大的特征提取与自主学习能力逐渐发展起来,目前已逐渐成为遥感领域学者们的关注点。尽管人工智能深度学习方法已经显示出了处理高维数据的能力,并通常优于传统机器学习方法。然而,人工智能深度学习的黑盒问题是限制其发展的主要阻碍,对深度学习方法进行可解释性的探索显得至关重要。因为一个可解释的预测模型可以回答哪些特征(或变量)显著影响模型的性能,以及哪些变量有助于预测,这是至关重要的。基于博弈论的SHAP值表示每个特征对模型输出的相对贡献,但其能否准确解释导致土壤光谱深度学习建模精度的差异还有待验证(图2)。
该研究深度系统探讨了SHAP值能否准确解释CNN在土壤全光谱和特征光谱建模中精度的差异。研究结果表明将不同光谱预处理方法之间相互组合能够发挥其各自的优势,有助于提高建模精度。与互信息(MI)和竞争性自适应重加权采样(CARS)的选择的特征光谱进行建模相比,CNN模型在全光谱建模中大部分光谱预处理方法都获得了更高的精度,SHAP值准确解释了这一原因。因为在大部分和STN含量相关性高的波长贡献通常较高;而CARS选择的特征光谱分布更加广泛但缺乏连续性,也会漏选一些相关性高且贡献大的波长。同时,部分相关性低的波长也具有较高的贡献,在MI的特征光谱建模中通常这部分波长未参与其中,从而影响了建模精度(图1和图2)。因此,人工智能深度学习模型的运用,由于其具有强大的特征提取与自主学习能力、更适合全光谱建模,导致SHAP能够获得CNN模型在土壤光谱建模中的波长贡献,并进而解释建模精度的差异,为了精准定量提取和监测土壤养分信息,提供强大的技术支撑。
图2. 利用我们新研发构建的高光谱与深度学习模型监测并解释了土壤生态健康研究效果图
(注:比较CNN建模中波长的贡献分布,以及相关性和特征分布)
该成果以“SHAP values accurately explain the difference in modeling accuracy of convolution neural network between soil full-spectrum and feature-spectrum”(https://doi.org/10.1016/j.compag.2024.108627)为题,近日在著名顶级农业信息领域期刊《Computers and Electronics in Agriculture》上发表,课题组博士生钟亮为论文第一作者,南京大学李建龙教授和江西农业大学郭熙教授为论文的共同通讯作者。该研究得到了江西农业大学提供的大量数据和支持;还得到了南京大学的高水平国际合作交流活动项目(202202)、国家重点研发计划项目(2018YFD0800201)、亚太全球变化研究网络项目(ARCP2015-03CMY-Li)等项目资助,在此一并表示衷心感谢!