水文狮子林
 
 

 

水文数据的挖掘与水文现代化建设

赵新生 (黄委水文局科研所)

  针对我国存在的洪涝灾害、水资源短缺、水环境恶化、水土流失四大水问题,水利部提出了从传统水利向现代水利、可持续发展水利转变,以水资源的可持续利用支撑经济社会可持续发展的治水新思路,并对水利现代化提出了基本要求。
  水文现代化是水利信息化的基础,水利信息化是水利现代化的基础。数字水文系统,就是利用数据库技术建立完善的信息处理和信息存储体系;利用海量数据库和数据挖掘技术建立信息提取和分析体系;利用地理信息系统等工具建立气象、水文、地形地貌、植被、土壤水分、人类活动影响措施等信息的空间分布数字体系;利用中尺度数值预报模式和分布式水文模型建立数字化的空间和时间分布预报体系;依托网络、地理信息系统和数据库等技术,建立为防汛决策、专业应用、电子政务等提供决策支持的信息应用与服务体系。其核心在于如何形成数字化的、覆盖整个指定地域空间的、多重时空尺度的、多种要素的、对水文分析有用的数据产品。
  对于水文现代化而言,要形成与水利信息化相适应的信息服务能力,必须大力建设水文信息数据库,使之成为水利信息资源的重要组成部分。这里有两层含义:一是要丰富数据库的内容,二是要对水文部门内部的各类信息资源进行集成,形成有一定聚合度和服务目标的水文信息资源。分散在一个个部门的水文数据,很难形成可以开发利用的资源。
  实施数据挖掘,一般的步骤是:问题理解和提出→数据准备→数据整理→建立模型→评价和解释。实施数据挖掘应从以下三方面加以考虑,一是用数据挖掘解决什么样的行业问题,二是为进行数据挖掘所做的数据准备,三是数据挖掘的各种分析算法。
  数据挖掘的分析算法主要来自于以下两个方面:统计分析和人工智能(机器学习、模式识别等)。数据挖掘研究人员和数据挖掘软件供应商,在这一方面所做的主要工作是优化现有的一些算法,以适应大数据量。
  数据挖掘最后成功与失败,是否有经济效益,数据准备起到了至关重要的作用。数据准备包含很多方面:一是从多种数据源去综合数据挖掘所需要的数据,保证数据的综合性、易用性、数据的质量和数据的时效性,这有可能要用到数据仓库的思想和技术;另一方面就是如何从现有数据中衍生出所需要的指标,这主要取决于数据挖掘者的分析经验和工具的方便性。
  实施数据挖掘,面临的问题有:(1)数据挖掘的基本问题在于数据的数量及维数,数据结构也因此显得非常复杂,如何选择分析变量,是首先要解决的问题。(2)面对积累起来的大量数据,现有的统计方法等都遇到了问题,人们直接的想法就是对数据进行抽样。怎么抽样,抽取多大的样本,又怎样评价抽样的效果,都是需要研究的问题。(3)既然数据是海量的,那么数据中就会隐含一定的变化趋势,在数据挖掘中也要对这个趋势做应有的考虑和评价。(4)各种不同的模型如何应用,其效果如何评价。不同的人对同样的数据进行挖掘,可能产生差异很大的结果,这就是可靠性的问题。(5)数据挖掘涉及到数据也就碰到了数据的安全性。(6)数据挖掘的结果是不确定的,要和专业知识相结合,才能对其做出判断。
  水文综合数据库系统与服务平台(水文数据中心)是以现代技术手段向用户提供优质、高效水文信息共享服务的基本保障。信息获取与分析技术的快速发展,特别是遥测、遥感、网络、数据库等技术的应用,有力地促进了水文数据的采集和处理技术的发展,使之在时间和空间的尺度及要素类型上有了不同程度的扩展。由于水在人类生存发展中的特殊作用,应用各种新技术获取水文数据,挖掘蕴藏于水文数据中的知识,已成为水文科学发展的新热点。
  水文数据挖掘可以应用决策树、神经网络、覆盖正例排斥反例、概念树、遗传算法、公式发现、统计分析、模糊论等理论与技术,并在可视化技术的支持下,构造满足不同目的的水文数据挖掘应用系统。
  据统计,我国水文整编资料数据累计量已超过7000兆字节,加上进行水文预报所需的天气、地理等数据,进行水文分析所需要处理的数据量很大。沿用传统的技术工具和方法,从这些数量巨大、类型复杂的数据中及时准确地挖掘出满足需要的知识,必然会因为计算能力、存储能力、算法的不足而无能为力。因此,需要高效的水文数据挖掘技术。
  数据仓库能把整个部门的数据,无论其地理位置、格式和通信要求,统统集成在一起,便于最终用户访问并能从历史的角度进行分析,最后做出战略决策。数据挖掘技术可从大量数据中发现潜在的、有价值的及未知的关系、模式和趋势,并以易被理解的方式表示出来。
  需要强调的是,不少人把数据挖掘工具看得过分神秘,认为只要有了一个数据挖掘工具,就能从提供的数据中自动挖掘出所需要的信息,这是认识上的一个误区。其实要想真正做好数据挖掘,数据挖掘工具只是其中的一个方面,数据挖掘的成功要求对期望解决问题的领域,例如水文,有深刻的了解,理解水文要素数据的属性,了解其采集的过程,同时还需要对该领域的业务有深入了解和数据分析经验。所以,一个行业或部门要充满活力、做到可持续发展,必须有一些数据挖掘方面的专家,专门从事数据分析和数据挖掘工作。
  黄河难治,症在泥沙。目前黄河水文的泥沙预报基本属于空白。水文数据挖掘是精确水文预报和水文数据分析的重要基础,应当足够重视,并结合“黄河水沙信息管理系统”的组织开发和水文现代化建设,积极开展水文数据挖掘工作,进一步提高黄河水文信息服务水平。为新时期黄河治理提供科技支撑,为维持黄河健康生命提供优质服务
(稿件来源: 黄河网?黄河报)