Integrating Boosted learning with Differential Evolution (DE) Optimizer: A Prediction of Groundwater Quality Risk Assessment in Odisha

作者: Sonalika Subudhi, Alok Kumar Pati, Sephali Bose, Subhasmita Sahoo, Avipsa Pattanaik, Biswa Mohan Acharya

发布时间: 2025-02-27

来源: arxiv

研究方向: 地下水质量评估与预测

主要内容

本研究旨在通过机器学习技术评估和预测印度奥里萨邦的地下水质量,特别是针对Sukinda Valley地区因铬矿开采导致的地下水污染问题。研究采用了来自印度中央地下水委员会(CGWB)2019-2022年的数据集,结合机器学习模型(如CatBoost、LightGBM及其混合模型LCBoost Fusion)进行地下水质量指数(GWQI)的预测。研究通过数据预处理、特征工程、模型训练和优化等步骤,最终提出了一个高效的地下水质量预测模型。

主要贡献

1. 提出了LCBoost Fusion混合模型,结合了CatBoost和LightGBM的优势,显著提升了地下水质量预测的准确性。

2. 通过特征重要性分析,识别出钾(K)、氟化物(F)和总硬度(TH)是影响地下水质量的主要因素。

3. 使用Differential Evolution(DE)优化算法对模型权重进行优化,进一步提升了模型的预测性能。

4. 为政策制定者和环境组织提供了数据驱动的工具,帮助其进行地下水质量管理和风险缓解。

研究方法

1. 数据预处理:包括数据清洗、特征选择、数据标准化和数据分割。

2. 特征工程:选择关键的地下水质量指标(如pH、EC、TH等)作为模型的输入特征。

3. 机器学习模型:使用XGBoost、LightGBM、CatBoost、Gradient Boosting和Random Forest进行模型训练和评估。

4. 模型优化:通过Differential Evolution(DE)算法优化LCBoost Fusion模型的权重。

5. 模型评估:使用RMSE、MSE、MAE和R²等指标评估模型性能。

实验结果

实验结果表明,LCBoost Fusion模型在预测地下水质量指数(GWQI)方面表现最佳,其RMSE为0.6829,MSE为0.5102,MAE为0.3147,R²得分为0.9809。相比单独的CatBoost和LightGBM模型,LCBoost Fusion在预测精度和泛化能力上均有显著提升。特征重要性分析显示,钾(K)、氟化物(F)和总硬度(TH)是影响地下水质量的主要因素。

未来工作

未来的研究可以扩展到更广泛的地理区域,结合卫星遥感数据,提供更全面的地下水污染时空变化分析。此外,还应考虑更多类型的污染物(如微生物病原体、有机污染物和农药)以进行更全面的风险评估。开发基于移动或Web的应用程序,帮助利益相关者进行实时决策也是一个重要的研究方向。