留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于随机森林与支持向量机的云南龙江水库长期径流预报

李伶杰 王银堂 胡庆芳 刘定忠 张安富 巴亚荃

引用本文:
Citation:

基于随机森林与支持向量机的云南龙江水库长期径流预报

    作者简介: 李伶杰(1992—),男,山西吕梁人,工程师,主要从事水文水资源研究。E-mail:ljli@nhri.cn.
  • 基金项目: 国家重点研发计划资助项目(2016YFC0400902;2016YFC04009010);国家自然科学基金资助项目(51479118;51609140;51809252);中央级公益性科研院所基本科研业务费专项资金资助项目(Y519007)
  • 中图分类号: P338

Long-term inflow forecast of the Longjiang Reservoir in Yunnan Province based on random forest and support vector machine

  • 摘要: 水库长期径流预报对于研判水文情势变化和指导水库调度管理具有重要意义。针对云南龙江水库年、汛期和枯水期平均入库径流,利用随机森林从环流指数、海温、气压和前期月径流中选取关键预报因子,基于粒子群与交叉验证相结合的算法优选参数,建立随机森林与支持向量机模型,开展龙江水库入库径流预报研究。结果表明,太平洋中北部与西部气候因子对径流预报的影响程度较大,前期月径流对年、汛期径流的重要性偏低,但对枯水期的影响程度与部分气候因子相当。随机森林与支持向量机模型总体精度较高,模拟与预报的合格率均达到85%以上,平均绝对百分比误差均低于15%,支持向量机的泛化能力强于随机森林,但二者在局部极值流量处的预报精度尚有待提升。
  • 图  1  龙江水库位置示意

    Figure  1.  Schematic map of the Longjiang Reservoir location

    图  2  修正前龙江水库年径流Mann-Kendall检验与修正后年、汛期和枯水期平均径流序列

    Figure  2.  Mann-Kendall test of annual runoff of the Longjiang Reservoir before the correction and the revised mean runoff sequence of the annual, flood and dry seasons

    图  3  云南龙江水库入库径流预报因子重要性评估结果

    Figure  3.  Evaluation on the importance of factors for forecasting the inflow of the Longjiang Reservoir in Yunnan Province

    图  4  预报因子数量对建模期入库径流模拟误差的影响

    Figure  4.  Influence of number of forecasting factors on the simulation error of the reservoir inflow in the modeling period

    图  5  云南龙江水库年、汛期和枯水期平均径流模拟与预报结果

    Figure  5.  Simulation and forecast results of mean inflow in annual, flood season and dry seasons of the Longjiang Reservoir in Yunnan Province

    表  1  云南龙江水库年平均径流基础预报因子集

    Table  1.   Basic predictors for annual mean inflow of the Longjiang Reservoir in Yunnan Province

    类别预报因子
    环流指数前1月亚洲经向环流指数、前1月欧亚经向环流指数、前2月北极涛动指数、前7月东大西洋遥相关型指数、前6月欧亚纬向环流指数、前7月极地-欧亚遥相关型指数、前12月北大西洋-欧洲环流W型指数
    海温  前6月第3 402格点海温(太平洋中西部)、前6月第5 040格点海温(西伯利亚北部)、前8月第1 246格点海温(西伯利亚东部)、前11月第6 297格点海温(太平洋中北部)、前11月第1 229格点海温(日本北部)
    气压位势前1月第2 956格点500 hPa位势(地中海)、前2月第3 876格点500 hPa位势(日本东南)、前5月第3 385格点500 hPa位势(地中海)、前7月第2 903格点500 hPa位势(太平洋东部)、前7月第3 027格点500 hPa位势(太平洋中北部)、前7月第2 956格点500 hPa位势(地中海)、前7月第1 862格点500 hPa位势(鄂霍次克海北部)、前11月第1 269格点500 hPa位势(乌拉尔山北部)、前2月第2 307格点100 hPa位势(白令海南部)、前3月第1 393格点100 hPa位势(乌拉尔山)、前7月第2 614格点100 hPa位势(太平洋东部)、前7月第3 029格点100 hPa位势(太平洋中北部)
      注:表中格点为与年径流具有显著物理成因相关的海温和气压位势关键区域中相关系数最高的格点,格点序号从全球经纬网格(海温与气压的分辨率不同)的左上角开始,按照Z字型顺序递增。
    下载: 导出CSV

    表  2  龙江水库年、汛期、枯水期平均径流的模拟与预报精度

    Table  2.   Accuracy of simulation and forecast for mean inflow in annual, flood season and dry seasons of the Longjiang Reservoir in Yunnan Province

    径流类型建模期预报检验期
    RF模型SVM模型RF模型SVM模型
    RQ/%EMAP/%RQ/%EMAP/%RQ/%EMAP/%RQ/%EMAP/%
    年平均径流1004.8395.26.3486.711.9393.39.26
    汛期平均径流97.64.3897.66.0993.312.6486.79.60
    枯水期平均径流1006.1190.58.5793.38.7493.37.23
    下载: 导出CSV
  • [1] SANG Y F. A review on the applications of wavelet transform in hydrology time series analysis[J]. Atmospheric Research, 2013, 122: 8-15. doi:  10.1016/j.atmosres.2012.11.003
    [2] 刘勇, 陈元芳, 王银堂, 等. 基于OSR-BP神经网络的丹江口秋汛期径流长期预报研究[J]. 水文,2010,30(6):32-36. (LIU Yong, CHEN Yuanfang, WANG Yintang, et al. Long-term forecasting for autumn flood season in Danjiangkou Reservoir Basin based on OSR-BP neural network[J]. Journal of China Hydrology, 2010, 30(6): 32-36. (in Chinese) doi:  10.3969/j.issn.1000-0852.2010.06.008
    [3] 谢帅, 黄跃飞, 李铁键, 等. LASSO回归和支持向量回归耦合的中长期径流预报[J]. 应用基础与工程科学学报,2018,26(4):709-722. (XIE Shuai, HUANG Yuefei, LI Tiejian, et al. Mid-long term runoff prediction based on a Lasso and SVR hybrid method[J]. Journal of Basic Science and Engineering, 2018, 26(4): 709-722. (in Chinese)
    [4] 张素琼, 张艳军, 刘佳明, 等. 基于逐步回归-LMBP算法的大通站旬径流与月径流预报[J]. 水电能源科学,2014,32(6):13-15, 4. (ZHANG Suqiong, ZHANG Yanjun, LIU Jiaming, et al. Ten-days and monthly runoff forecasting in Datong station based on stepwise regression and LMBP algorithm[J]. Water Resources and Power, 2014, 32(6): 13-15, 4. (in Chinese)
    [5] 汪哲荪, 袁潇晨, 金菊良, 等. 基于集对分析的年径流自组织预测模型[J]. 水利水运工程学报,2010(4):33-37. (WANG Zhesun, YUAN Xiaochen, JIN Juliang, et al. GMDH network forecast model for annual runoff based on set pair analysis[J]. Hydro-Science and Engineering, 2010(4): 33-37. (in Chinese) doi:  10.3969/j.issn.1009-640X.2010.04.007
    [6] 崔东文. 改进Elman神经网络在径流预测中的应用[J]. 水利水运工程学报,2013(2):71-77. (CUI Dongwen. An improved Elman neural network and its application to runoff forecast[J]. Hydro-Science and Engineering, 2013(2): 71-77. (in Chinese) doi:  10.3969/j.issn.1009-640X.2013.02.012
    [7] 林剑艺, 程春田. 支持向量机在中长期径流预报中的应用[J]. 水利学报,2006,37(6):681-686. (LIN Jianyi, CHENG Chuntian. Application of support vector machine method to long-term runoff forecast[J]. Journal of Hydraulic Engineering, 2006, 37(6): 681-686. (in Chinese) doi:  10.3321/j.issn:0559-9350.2006.06.007
    [8] 周婷, 金菊良, 李荣波, 等. 基于小波支持向量机的径流预测性能优化分析[J]. 水力发电学报,2017,36(10):45-55. (ZHOU Ting, JIN Juliang, LI Rongbo, et al. Performance optimization analysis for inflow prediction using wavelet Support Vector Machine[J]. Journal of Hydroelectric Engineering, 2017, 36(10): 45-55. (in Chinese) doi:  10.11660/slfdxb.20171005
    [9] 崔东文. 几种智能算法与支持向量机融合模型在中长期月径流预测中的应用[J]. 华北水利水电大学学报(自然科学版),2016,37(5):51-57. (CUI Dongwen. Application of several intelligent algorithms and Support Vector Machine fusion model in medium and long term runoff forecasting[J]. Journal of North China University of Water Resources and Electric Power (Natural Science Edition), 2016, 37(5): 51-57. (in Chinese)
    [10] 赵铜铁钢, 杨大文, 蔡喜明, 等. 基于随机森林模型的长江上游枯水期径流预报研究[J]. 水力发电学报,2012,31(3):18-24, 38. (ZHAO Tongtiegang, YANG Dawen, CAI Ximing, et al. Predict seasonal low flows in the upper Yangtze River using random forests model[J]. Journal of Hydroelectric Engineering, 2012, 31(3): 18-24, 38. (in Chinese)
    [11] 赵文秀, 张晓丽, 李国会. 基于随机森林和RBF神经网络的长期径流预报[J]. 人民黄河,2015,37(2):10-12. (ZHAO Wenxiu, ZHANG Xiaoli, LI Guohui. Research on the long-term runoff forecast based on random forest model and RBF network[J]. Yellow River, 2015, 37(2): 10-12. (in Chinese) doi:  10.3969/j.issn.1000-1379.2015.02.003
    [12] 何国栋, 崔东文. 基于阴阳对算法优化的随机森林与支持向量机组合模型及径流预测实例[J]. 人民珠江,2019,40(3):33-38. (HE Guodong, CUI Dongwen. Runoff prediction examples based on random forest of Yin-yang optimization algorithm and Support Vector Machine model[J]. Pearl River, 2019, 40(3): 33-38. (in Chinese) doi:  10.3969/j.issn.1001-9235.2019.03.007
    [13] 赵鹏雁, 张利平, 王旭, 等. 澜沧江流域中长期径流预报方法研究[J]. 武汉大学学报(工学版),2018,51(7):565-569, 595. (ZHAO Pengyan, ZHANG Liping, WANG Xu, et al. Study of medium and long term runoff forecasting method for Lancang River Basin[J]. Engineering Journal of Wuhan University, 2018, 51(7): 565-569, 595. (in Chinese)
    [14] 龚学贤. 云南省龙江水库水情自动测报系统的建设与应用[J]. 技术与市场,2016,23(2):137-139. (GONG Xuexian. Construction and application of automatic runoff regime forecasting system for Longjiang Reservoir in Yunnan Province[J]. Technology and Market, 2016, 23(2): 137-139. (in Chinese) doi:  10.3969/j.issn.1006-8554.2016.02.090
    [15] 冯小冲. 水库中长期水文预报模型研究[D]. 南京: 南京水利科学研究院, 2010.

    FENG Xiaochong. Study on mid-long term hydrological forecasting model of reservoir[J]. Nanjing: Nanjing Hydraulic Research Institute, 2010. (in Chinese)
    [16] 刘勇. 基于物理成因的中长期水文预报方法与应用研究[M]. 南京: 河海大学出版社, 2011.

    LIU Yong. Methods and application for mid-long term hydrological forecast based on physical cause[M]. Nanjing: Hohai University Press, 2011. (in Chinese)
    [17] 李航. 统计学习方法[M]. 北京: 清华大学出版社, 2012: 68-69.

    LI Hang. Statistical learning method[M]. Beijing: Tsinghua University Press, 2012: 68-69. (in Chinese)
    [18] 赵永晶, 钱永甫. 全球海温异常对中国降水异常的影响[J]. 热带气象学报,2009,25(5):561-570. (ZHAO Yongjing, QIAN Yongfu. Analysis of the impacts of global SST on precipitation anomaly in China[J]. Journal of Tropical Meteorology, 2009, 25(5): 561-570. (in Chinese) doi:  10.3969/j.issn.1004-4965.2009.05.006
    [19] 阮成卿, 李建平, 冯娟. 中国西南地区后冬降水的统计降尺度模型[J]. 中国科学: 地球科学,2015,58(10):1827-1839. (RUAN Chengqing, LI Jianping, FENG Juan. Statistical downscaling model for late-winter rainfall over Southwest China[J]. Science China Earth Sciences, 2015, 58(10): 1827-1839. (in Chinese) doi:  10.1007/s11430-015-5104-8
    [20] 张岩, 杨明祥, 雷晓辉, 等. 基于PCA-PSO-SVR的丹江口水库年径流预报研究[J]. 南水北调与水利科技,2018,16(5):35-40. (ZHANG Yan, YANG Mingxiang, LEI Xiaohui, et al. Research on annual runoff forecast of Danjiangkou Reservoir based on PCA-PSO-SVR[J]. South-to-North Water Transfers and Water Science & Technology, 2018, 16(5): 35-40. (in Chinese)
  • [1] 姚原顾正华李云辜樵亚范子武 . 森林覆盖率变化对流域洪水特性影响的数值模拟. 水利水运工程学报, doi: 10.12170/20190501003
    [2] 张路樊恒辉车雯方张勇孟雷赵宏伟 . 黑龙江地区渠道基土工程性质试验分析. 水利水运工程学报,
    [3] 王宗志王伟刘克琳程亮 . 水电站水库长期优化调度模型及调度图. 水利水运工程学报,
    [4] 刘小龙施勇陈炼钢栾震宇虞美秀 . 基于水文学与水力学方法的雅砻江水情预报模型. 水利水运工程学报,
    [5] 李达牟在根 . 简支组合梁长期变形下混凝土收缩模式研究. 水利水运工程学报,
    [6] 韩昌海张铭范子武虞云飞苏亦绿王红旗 . 基于PDM的飞来峡水库实时水文预报模型. 水利水运工程学报,
    [7] 崔东文 . 基于多元变量组合的回归支持向量机集成模型及其应用. 水利水运工程学报,
    [8] 任政,郝振纯 . 水资源开发利用评价的支持向量机模型. 水利水运工程学报,
    [9] 毕宗伟,丁德馨,饶龙 . 工程可靠度的随机模拟次数. 水利水运工程学报,
    [10] 段召辉,李承军 . 日径流的组合预测模型. 水利水运工程学报,
    [11] 路观平 . 随机荷载的结构响应与相干尺度. 水利水运工程学报,
    [12] 杨方,崔信民 . 南京市防汛决策支持信息系统. 水利水运工程学报,
    [13] 李国英,沈珠江,赵魁芝 . 梅溪水库面板堆石坝原型观测资料反馈分析及大坝变形预报模型. 水利水运工程学报,
    [14] 孙逊,高明 . 基于随机有限元方法的拱坝可靠性分析. 水利水运工程学报,
    [15] 王秋生 . 北江水文特性及水电站运行方式. 水利水运工程学报,
    [16] 孙逊,高明 . 改进的随机有限元方法. 水利水运工程学报,
    [17] 黄孟生,徐道远 . 码头门机荷载最大值分布随机过程概率模型统计分析. 水利水运工程学报,
    [18] 窦国仁 . 近壁紊流随机理论及其应用. 水利水运工程学报,
    [19] 窦国仁 . 紊流随机理论在边界层中的应用. 水利水运工程学报,
    [20] 窦国仁 . 河床紊流的随机理论. 水利水运工程学报,
  • 加载中
图(5) / 表(2)
计量
  • 文章访问数:  84
  • HTML全文浏览量:  59
  • PDF下载量:  1
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-06-26

基于随机森林与支持向量机的云南龙江水库长期径流预报

    作者简介: 李伶杰(1992—),男,山西吕梁人,工程师,主要从事水文水资源研究。E-mail:ljli@nhri.cn
  • 1. 南京水利科学研究院 水文水资源与水利工程科学国家重点实验室,江苏 南京 210029
  • 2. 云南龙江水利枢纽开发有限公司,云南 德宏 678400
  • 3. 深圳市深水水务咨询有限公司,广东 深圳 518003

摘要: 水库长期径流预报对于研判水文情势变化和指导水库调度管理具有重要意义。针对云南龙江水库年、汛期和枯水期平均入库径流,利用随机森林从环流指数、海温、气压和前期月径流中选取关键预报因子,基于粒子群与交叉验证相结合的算法优选参数,建立随机森林与支持向量机模型,开展龙江水库入库径流预报研究。结果表明,太平洋中北部与西部气候因子对径流预报的影响程度较大,前期月径流对年、汛期径流的重要性偏低,但对枯水期的影响程度与部分气候因子相当。随机森林与支持向量机模型总体精度较高,模拟与预报的合格率均达到85%以上,平均绝对百分比误差均低于15%,支持向量机的泛化能力强于随机森林,但二者在局部极值流量处的预报精度尚有待提升。

English Abstract

  • 云南龙江水库是龙江-瑞丽江流域的重要防洪控制性工程,兼有防洪和发电等综合效益。在保障水库自身及下游防洪安全的前提下,开展水库中长期优化调度是实现综合效益最大化的重要途径。而中长期优化调度效果又十分依赖于入库径流预报,因此开展中长期入库径流预报具有重要的实际应用价值。

    对于中长期径流预报,根据预报机理的不同,可划分为水文循环过程驱动和相关影响因子(前期径流与气候因子)驱动两类[1]。前者通过将降雨预报信息输入到具有明确产汇流机制的水文模型实现预报,后者通过构建径流与影响因子的统计学习模型,以影响因子的历史实测值作为驱动,从而实现中长期径流预报。在机器学习算法迅速发展与海量大尺度气候信息(大气环流指数、海温、气压等)迅速累积的背景下,基于相关影响因子驱动的中长期径流预报方法逐渐成为研究重点,这类方法涉及的预报因子筛选、预报模型优化等已经取得了长足的发展。在预报因子筛选方面,最优子集回归[2]、逐步回归[3]、LASSO(Least Absolute Shrinkage and Selection Operator)回归[4]等算法的引入为识别影响径流预报的关键因子提供了丰富途径。在预报模型优选方面,基于人工神经网络[5-6]、支持向量机(Support Vector Machine, SVM)[7-9]、随机森林(Random Forest, RF)[10-11]等机器学习算法的预报研究大量开展。如刘勇等[2]将最优子集回归和神经网络耦合,建立了预报精度与稳定性均令人满意的对丹江口秋汛期入库径流量预报模型。赵铜铁钢等[10]应用随机森林模型开展了长江上游枯水期径流预报及不确定性分析,取得了较好的应用效果。崔东文[9]研究发现利用智能优化算法估计参数条件下,支持向量机对中长期月径流的预测精度较高。此外也有何国栋[12]、赵鹏雁[13]等开展了多种算法预测性能的比较。然而随着多源气候气象信息的引入,预报因子空间向超高维度发展,传统的回归类因子筛选方法已不能适应这种发展趋势,神经网络、支持向量机等预报模型参数确定及避免过拟合问题仍然有待于进一步解决。另外不同模型的精度随数据特性变化而不同,对于具体研究对象需强化预报模型的评估和筛选工作。

    鉴于此,本文以云南龙江水库年、汛期和枯水期平均径流为长期径流预报的研究对象,利用随机森林模型能有效评估影响因子重要性的特点,从大气环流指数、海温、气压、前期月径流等高维度影响因子空间中筛选预报因子。在此基础上,以随机森林和支持向量机2种机器学习算法为预报工具,采用粒子群优化算法与交叉验证相结合的方法估计模型参数,对比评估各模型预报效果,为龙江水库入库径流预报及水库优化调度提供技术支撑,同时对机器学习算法在中长期径流预报中的应用提供有益借鉴。

    • 云南龙江水库位于龙江-瑞丽江流域(瑞丽江一级水电站以上集水区)的龙江干流下游河段(图1),是流域内规划的第13座梯级水电站,于2009年正式投入使用,兼有防洪、发电、灌溉、旅游等综合效益。坝址以上龙江河段长度约300 km,河床平均坡降约5‰,控制流域面积5 758 km2,占龙江-瑞丽江流域面积的49%[14]

      图  1  龙江水库位置示意

      Figure 1.  Schematic map of the Longjiang Reservoir location

      龙江水库无入库径流水文站,本文利用1960—2010年腾龙桥站逐月流量,按照径流自上游向下形成演化流程推算。首先采用水文比拟法得到弄另水库的长系列入库径流和弄另-龙江区间天然径流,其次利用弄另水库多年平均调节系数(出库与入库流量的比值)计算出库流量,最后以弄另水库出库流量与弄另-龙江区间天然径流之和作为龙江水库入库径流,从而得到了1960—2010年龙江水库入库径流序列。将其与采用水量平衡法反推的2011—2018年入库径流连接得到1960—2018年水库入库径流序列。鉴于两段序列计算方式不同可能导致的非一致问题,采用Mann-Kendall检验法诊断(图2(a)),发现入库径流序列在2010年后发生跳跃变异,年径流均值降幅达到了19.8%,而其附近其他水文站序列均满足一致性假设,且同期未出现明显径流减少的现象,因此认为龙江水库入库径流序列的非一致性问题主要是由水量平衡法中水库渗漏及水面蒸发存在较大误差引起。将2011—2018年序列年径流均值修正到与1960—2010序列相同,按照修正前后年径流均值的比例对径流年内分配同倍比缩放,并按照6月—翌年5月的顺序计算,得到满足一致性假设且考虑弄另水电站调节影响的龙江水库1960—2017年水文年入库径流序列。本文以年、汛期(6—11月)与枯水期(12月—翌年5月)平均入库径流作为长期径流预报的研究对象(图2(b))。经统计,多年平均年、汛期和枯水期径流量分别为198.9,316.8和81.4 m3/s。

      图  2  修正前龙江水库年径流Mann-Kendall检验与修正后年、汛期和枯水期平均径流序列

      Figure 2.  Mann-Kendall test of annual runoff of the Longjiang Reservoir before the correction and the revised mean runoff sequence of the annual, flood and dry seasons

    • 本文重点研究机器学习领域经典的随机森林和支持向量机对于龙江水库入库径流的预报效果。以下对2种模型的计算原理与特点进行简要介绍。

    • 文献[15-16]研究表明大气环流指数、海温、气压和前期径流等对中长期径流变化具有较好的指示作用,丰富的预报因子有助于提高预报精度,但也给识别这些因素影响径流的关键时空区域增加了难度。传统的最优子集回归方法等需要针对不同因子组合建立预报模型,而可能的因子组合数随着预报因子的丰富呈现指数级增加,常常出现计算灾难。

      随机森林具有优秀的高维和非线性数据集处理能力,为这一问题的解决提供了一种可行途径。对于连续型变量的预报问题,随机森林是由一组相互独立的回归决策树(决策树规模Ntree为模型主要参数)构成的集合预报模型,其中每一颗决策回归树对应于由原始样本有放回自助抽取的一个样本集,回归决策树的构建过程即为样本集根据预报因子完成二分裂的过程。首先,随机从预报因子集合中按照一定规模随机筛选子集(子集规模Mtyr为另一重要参数)。其次,进入分裂程序,每次分裂历遍子集中各因子的所有数值,依次尝试分裂,以分裂节点两端样本平方误差之和最小为准则,确定最优切分因子和对应数值,并完成分裂。重复上述步骤至分裂次数达到上限或决策树末端节点最大样本数小于某一阈值,即完成回归决策树的构建[17]。应用随机森林模型进行预测时,将预报因子值输入到各决策回归树得到对应的预测值,对所有回归树预测值取算数平均即为预测结果。

      上述建模过程中样本及其预报因子的两层随机抽样设计,保证了决策树之间的独立性与随机性;同时采用有放回抽样方法后,部分未被抽取的余留样本(也称为袋外数据,数据量约为原始样本的1/3)可用于决策树预测效果的验证,利用余留样本对预报因子进行重要性评估的具体步骤如下:(1)对于随机森林中某一颗回归决策树,使用相应余留样本计算预测均方误差,记为MSE1;(2)随机扰动所有余留样本预报因子X的数值(随机改变样本X的数值,或者更换X数据的顺序),再次计算决策树的预测均方误差,记为MSE2;(3)对于Ntree颗决策树均重复步骤(1)和(2),以ΔMSEo=Σ(MSE2MSE1)/ Ntree作为X重要性的度量。计算所有预报因子的ΔMSEo,若ΔMSEo值较大,则表明对应的预报因子随机扰动后,余留样本预报误差大幅增加,即该因子对于预报结果影响较大,重要程度较高;反之,该因子的重要程度较低[10]。与传统方法相比,预报因子随机分布于随机森林模型中多个决策树与分裂点,不需要针对不同因子组合分别建模,仅1次建模即可对不同因子的重要性进行评估,从而降低了计算资源的开销。

    • 给定的中长期径流预报样本集{(xi,yi),i=1,2,$\cdots $,n},xi表示预报因子向量(L维),yi表示实测径流。对于这种高维非线性预测问题,SVM通过变换函数$ \Phi (x)$将原始空间映射到高维特征空间,在高维特征空间建立线性回归函数见式(1),进而引入松弛变量$\xi _i^{}$$\xi _i^ * $和惩罚因子C,依据结构风险最小化原则构建凸二次规划模型见式(2),求解得到线性回归函数的${{\omega}} $与b,即可应用其实现径流预报[7-9]。式(2)的目标函数前半部分代表回归函数的泛化能力,后半部分表征拟合误差,二者之和最小时,模型既具备较强的泛化能力、又具有较高的拟合精度[8]。另外求解过程中涉及样本xi和xj特征空间的内积$ \Phi {({{{x}}_{{i}}})^T}\Phi ({{{x}}_{{j}}})$,为降低计算复杂度,以原始空间中核函数$\kappa ({{{x}}_{{i}}},{{{x}}_{{j}}})$的计算结果代替。鉴于径向基函数(式(3))处理高维复杂样本的性能优于其他核函数,且所需参数较少,本文选择径向基函数为核函数。

      $$ \begin{array}{l} f({{{x}}_{{i}}}) = {{\omega}} \Phi ({{{x}}_{{i}}}) + b \mathop {\min }\limits_{{{\omega}} ,b} \dfrac{1}{2}{\left\| {{\omega}} \right\|^2} + C\displaystyle\sum\limits_{i = 1}^n {(\xi _i^{} + } \xi _i^ * ) ({\text{这个}} {\text{是什么}}???) \end{array} $$ (1)
      $$ {\rm{s}}{\rm{.t}}{\rm{.}}\left\{ \begin{array}{l} f({{{x}}_{{i}}}) - {y_i} \leqslant \varepsilon + \xi _i^{} \\ {y_i} - f({{{x}}_{{i}}}) \leqslant \varepsilon + \xi _i^ * \\ \xi _i^{} \geqslant 0, \xi _i^ * \geqslant 0, i = 1,2, \cdots n \\ \end{array} \right. $$ (2)
      $$ \kappa ({{{x}}_{{i}}},{{{x}}_{{j}}}){\rm{ = \exp( - }}g{\left\| {{{{x}}_{{i}}} - {{{x}}_{{j}}}} \right\|^2}{\rm{)}} $$ (3)

      式中:${{\omega}} $为超平面的法向量;b为超平面的偏移量;ε为不敏感损失系数;g为核函数参数。

    • 径流预报模型的实际预测效果与模型结构和参数密切相关。随机森林模型的待选参数是决策树个数Ntree与预报因子子集规模MtyrNtree越大会导致模型过拟合,Mtyr过大则使不同决策树差异过小。支持向量机模型的待选参数是惩罚因子C、核函数参数g和不敏感损失系数εC过大、g过小均会使模型过拟合,ε对模型的影响较小。本文采用粒子群算法优选模型参数,但优化过程中单纯追求建模样本高精度拟合,会常常导致模型在预报检验期应用效果较差,出现过拟合现象。

      鉴于此,本文采用交叉验证与粒子群相结合的算法优选参数[8]。具体步骤如下:将所有样本按一定比例划分为建模期和预报检验期样本;将建模期样本随机均分为S组,依次以1,2,$\cdots $,S组作为验证样本,剩余S-1组作为训练样本,从而建立S个待选模型。采用粒子群优化算法优选参数,以S个待选模型的平均误差及相应方差之和最小作为目标函数,优选平均预报性能与稳定性综合最高的参数组合,以此作为预报模型参数。这种方法实现了建模期样本规模的扩展,并且在建模期增加了互斥的验证数据,模型对于验证数据的平均预报精度能够更好地反映其预测性能。

    • 对环流指数、海温、气压位势(气候因子)和前期径流(水文因子)等潜在预报因子,分析其对径流预报的重要性。收集国家气候中心发布的130项逐月环流指数、NOAA公开的全球月平均海温格点数据(2°×2°)和NCEP/NCAR Reanalysis 1数据集中500 hPa和100 hPa月平均气压位势格点数据(2.5°×2.5°),开展龙江水库年、汛期和枯水期平均径流与前12个月环流指数、各格点海温、气压位势的相关性普查。以空间连续的显著相关格点区(置信水平为0.05)为关键影响区,并以最高相关系数所在格点的气候因子作为预报因子。在此基础上,参考文献[18-19]的研究结果,剔除无物理背景的相关因子,得到各月径流的基础预报因子集合。表1给出了年径流基础预报因子集合,其中环流因子包括前1月亚洲经向环流指数等7项,海温与气压位势显著相关的空间区域主要为太平洋中北和西北部,时间上相对分散。

      表 1  云南龙江水库年平均径流基础预报因子集

      Table 1.  Basic predictors for annual mean inflow of the Longjiang Reservoir in Yunnan Province

      类别预报因子
      环流指数前1月亚洲经向环流指数、前1月欧亚经向环流指数、前2月北极涛动指数、前7月东大西洋遥相关型指数、前6月欧亚纬向环流指数、前7月极地-欧亚遥相关型指数、前12月北大西洋-欧洲环流W型指数
      海温  前6月第3 402格点海温(太平洋中西部)、前6月第5 040格点海温(西伯利亚北部)、前8月第1 246格点海温(西伯利亚东部)、前11月第6 297格点海温(太平洋中北部)、前11月第1 229格点海温(日本北部)
      气压位势前1月第2 956格点500 hPa位势(地中海)、前2月第3 876格点500 hPa位势(日本东南)、前5月第3 385格点500 hPa位势(地中海)、前7月第2 903格点500 hPa位势(太平洋东部)、前7月第3 027格点500 hPa位势(太平洋中北部)、前7月第2 956格点500 hPa位势(地中海)、前7月第1 862格点500 hPa位势(鄂霍次克海北部)、前11月第1 269格点500 hPa位势(乌拉尔山北部)、前2月第2 307格点100 hPa位势(白令海南部)、前3月第1 393格点100 hPa位势(乌拉尔山)、前7月第2 614格点100 hPa位势(太平洋东部)、前7月第3 029格点100 hPa位势(太平洋中北部)
        注:表中格点为与年径流具有显著物理成因相关的海温和气压位势关键区域中相关系数最高的格点,格点序号从全球经纬网格(海温与气压的分辨率不同)的左上角开始,按照Z字型顺序递增。

      将基础预报因子集与前12个月逐月径流合并,得到预报因子全集,年、汛期、枯水期平均径流预报因子总数分别为36,34和31项,需合理评估各因子重要性,进一步缩减因子规模。本文基于1961—2018年全部样本建立随机森林模型(预报因子涉及前期月径流,因而建模滞后1年)。该模型仅用于预报因子重要性评估。经测试,当Ntree较大时,NtreeMtyr的变化对预报因子重要性评估的影响基本可以忽略,为此取Ntree为2 000、Mtyr为预报因子总数的1/3。基于建立的随机森林模型,对各因子的重要性进行评估。图3给出了所有预报因子的ΔMSEo,最后12个因子表示前12个月入库径流,其余为气候因子。由图3可知,不同因子对于径流预报的重要性存在明显差异,太平洋中北部气压位势(21号因子)对于年入库径流预报的影响程度最大,前3月径流重要性明显高于其他月份。汛期入库径流预报因子重要性评估结果同样显示太平洋中北部气压位势(19号因子)重要性程度最高,前3月径流的影响较大。对于枯水期径流,台湾东部海温(8号因子)对于预报结果的影响最大,前5月至前8月径流(主要为前一水文年枯水期月径流)对径流预报较为重要。总体上,前期月径流对年和汛期平均径流的影响弱于气候因子,但前期枯水期月径流对枯水期径流预报的影响程度与部分气候因子相当。

      图  3  云南龙江水库入库径流预报因子重要性评估结果

      Figure 3.  Evaluation on the importance of factors for forecasting the inflow of the Longjiang Reservoir in Yunnan Province

    • 以1961—2002年为建模期,以2003—2017为预报检验期,预见期为1月,采用交叉验证与粒子群相结合的方法构建RF和SVM模型。粒子群优化算法的迭代次数为500次、种群数量为50、学习因子为1.5。根据样本序列长度,将建模期样本随机均分为4组进行交叉验证,以待选模型对验证样本的平均误差与相应方差之和最小作为目标函数,优化确定预报精度与稳定性综合效果最佳的模型参数组合。建模期与预报检验期的模型精度采用合格率RQ和平均绝对百分比误差EMAP[20]评估,见式(4)~(5)。

      $$ {R_{\rm{Q}}} = \frac{m}{{{n_0}}} \times 100 $$ (4)
      $$ {E_{{\rm{MAP}}}} = \frac{1}{{{n_0}}}\sum\limits_{i = 1}^{{n_0}} {\frac{{\left| {{Q_{p,i}} - {Q_{{\rm{obs}},i}}} \right|}}{{{Q_{{\rm{obs}},i}}}}} \times 100 $$ (5)

      式中:m为建模期或预报检验期预报值合格(根据SL 250—2000《水文情报预报规范》,取预报值与实际值相对误差在±20%之间为合格)的月份数,n0为建模期或预报检验期月份总数;${Q_{p,i}}$${Q_{{\rm{obs}},i}}$为建模期或预报检验期第i个月份径流预报值、实际值。

      考虑到预报因子重要性,评估仅给出了各因子重要性排序结果,究竟选择哪些因子尚不可知,文献[10-11]等按照一定数量直接选取,缺乏科学依据。本文按照预报因子重要性降低的顺序,逐步扩充因子数量,即针对不同规模的输入变量建立预报模型,分析新因子引入对于模型性能的影响,从而确定最佳因子组合。图4给出了预报因子数量对建模期入库径流模拟误差的影响。分析发现,无论何种模型,随着预报因子规模的扩大,合格率的变化不大,但对定量误差的影响较为显著,SVM模型的EMAP总体呈现减小趋势,而RF模型由于决策树分裂过程中随机选用部分预报因子,导致EMAP呈现震荡变化,趋势性特征不明显。以较少预报因子获取较强模型性能为原则,确定年平均径流RF模型的最优预报因子组合为按重要性降序排列的前20个因子,SVM模型为前17个预报因子;汛期平均径流RF与SVM的最佳因子集规模分别为12和17;对于枯水期平均径流分别为14和17。

      图  4  预报因子数量对建模期入库径流模拟误差的影响

      Figure 4.  Influence of number of forecasting factors on the simulation error of the reservoir inflow in the modeling period

      以最优因子组合及相应最佳参数建立预报模型并进行试报,模拟与预报精度如表2所示。由表2可知,无论何种时间尺度,RF与SVM模型合格率均超过了85%,EMAP均在15%以内,模拟与预报的精度总体较高。由建模期到预报检验期,RF模型的EMAP有不同程度的增大,其中汛期平均径流在预报阶段较好地保持了模型性能;SVM模型对年平均径流的预报误差较模拟误差的增幅明显小于RF模型,SVM甚至对于汛期和枯水期平均径流的预报精度有所提升。因此,SVM模型的泛化能力强于RF。对比定量误差,发现建模期RF优于SVM,而预报检验期恰好相反。图5给出了两种模型的模拟和预报径流过程,可见二者对实际径流时程变化的跟踪效果较好,但存在局部高流量低估和低流量高估的问题;建模期RF的模拟效果较SVM更贴近实际值,而SVM在预报检验期的优势更加明显,这与EMAP的比较结果吻合。上游梯级水库调节影响在一定程度上扰动了径流与气候和水文因子的关系,影响了极值流量预报的不确定性;而RF与SVM在两阶段性能的相异性与样本统计特性的变化密切相关,因此有必要扩充预报模型库,考虑以多模型集合预报结果降低预报的不确定性。

      表 2  龙江水库年、汛期、枯水期平均径流的模拟与预报精度

      Table 2.  Accuracy of simulation and forecast for mean inflow in annual, flood season and dry seasons of the Longjiang Reservoir in Yunnan Province

      径流类型建模期预报检验期
      RF模型SVM模型RF模型SVM模型
      RQ/%EMAP/%RQ/%EMAP/%RQ/%EMAP/%RQ/%EMAP/%
      年平均径流1004.8395.26.3486.711.9393.39.26
      汛期平均径流97.64.3897.66.0993.312.6486.79.60
      枯水期平均径流1006.1190.58.5793.38.7493.37.23

      图  5  云南龙江水库年、汛期和枯水期平均径流模拟与预报结果

      Figure 5.  Simulation and forecast results of mean inflow in annual, flood season and dry seasons of the Longjiang Reservoir in Yunnan Province

    • 本文利用随机森林与支持向量机模型开展了云南龙江水库长期入库径流的预报研究。随机森林在训练样本与预报因子方面的双层随机抽样设计为预报因子重要性评估提供了可行途径,评估结果表明太平洋中北部与西部的气候因子对入库径流预报的影响程度较大,前期月径流对年、汛期径流的重要性偏低,但对枯水期的影响程度与部分气候因子相当。在对预报因子重要性排序的基础上,分析发现预报因子规模对模型性能有明显影响,应合理分析确定。以最佳因子组合与融合交叉验证的粒子群算法优选的模型参数,建立的随机森林与支持向量机径流预报模型总体精度较高,模拟与预报的合格率均高于85%,平均绝对百分比误差均不超过15%,但对于局部极值流量的预报效果相对较差;建模期与预报检验期定量误差的对比结果表明支持向量机模型预报龙江水库入库径流的泛化能力优于随机森林。

      本研究建立的预报模型在局部高、低流量处的预报精度尚有较大提升空间,引入上游电站出库流量、表征流域下垫面变化的因子等是模型预报性能改善的潜在增长点;关于多模型集合预报在有效应对径流统计特性非平稳变化、降低预报不确定性方面的效益,有待深入研究。另外,在月尺度上影响龙江水库入库径流预报的关键因子如何变化,随机森林等机器学习模型的预报效果如何,也值得进一步探讨。

参考文献 (20)

目录

    /

    返回文章
    返回