数据挖掘与水文现代化建设
赵新生
黄委主任李国英在2004年黄委水文测报水平升级工作会议上指出,黄河水文现代化建设的主要任务体现在建设较高标准的水文水资源信息管理系统,包括水文气象信息采集、预报及监测系统、信息传输系统、信息处理系统、决策支持系统等。
随着数据库技术的不断发展及数据库管理系统在水情测报工作中的广泛应用,水文数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的、尚待进一步开发的信息,如果能把这些信息从数据库中抽取出来,也就是从数据中发现知识和寻找规律,并用它们指导水文测报生产或管理,将会提高黄河水文工作的质量和水平,促进水文信息化和现代化建设,创造更大的经济效益和社会效益。
数据挖掘概念与技术
用数据库来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后的知识,这两者的结合促成了数据挖掘的产生。数据挖掘是一门交叉性学科,涉及到人工智能、机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等多个领域。
数据挖掘其实是一个逐渐演变的过程,电子数据处理的初期,人们就试图通过某些方法来实现自动决策支持,当时机器学习成为人们关心的焦点。而后,随着神经网络技术的形成和发展,人们的注意力转向知识工程,专家系统就是这种方法所得到的成果。
上世纪80年代人们又在新的神经网络理论的指导下,重新回到机器学习的方法上,并将其成果应用于处理大型商业数据库,而且出现了一个新的术语——KDD:泛指从源数据中发掘模式或联系的方法。人们用KDD来描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而用数据挖掘来描述使用挖掘算法进行数据挖掘的子过程。DM侧重数据库角度,KDD侧重人工智能角度。数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能、机器学习。数据挖掘技术在当前的数据仓库环境中进入了实用的阶段。
数据挖掘(简称DM),定义为“从数据库中发现隐含的、先前不知道的、潜在有用的信息”,是在数据库技术、机器学习、人工智能、统计分析、模糊逻辑、人工神经网络和专家系统的基础上发展起来的新概念和新技术,是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含的、未知的、潜在的、有用的信息和知识的过程。更广义的说法是:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。
数据挖掘与传统分析(如查询、报表、联机应用分析)的本质区别是,数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。
与国外相比,国内对数据挖掘的研究稍晚,没有形成整体力量。国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,起步较早的单位有清华大学、中科院计算技术研究所、北京大学、复旦大学、南京大学和上海交通大学等。特别值得一提的是上海天律信息技术有限公司,它是中国第一家研发统计分析和数据挖掘软件的高新技术企业,开发出了我国第一套完全自主知识产权的统计分析和数据挖掘软件“马克威分析系统”。
水文数据的挖掘
针对我国存在的洪涝灾害、水资源短缺、水环境恶化、水土流失四大水问题,水利部提出了从传统水利向现代水利、可持续发展水利转变,以水资源的可持续利用支撑经济社会可持续发展的治水新思路,并对水利现代化提出了基本要求。
水文现代化是水利信息化的基础,水利信息化是水利现代化的基础。数字水文系统,就是利用数据库技术建立完善的信息处理和信息存储体系;利用海量数据库和数据挖掘技术建立信息提取和分析体系;利用地理信息系统等工具建立气象、水文、地形地貌、植被、土壤水分、人类活动影响措施等信息的空间分布数字体系;利用中尺度数值预报模式和分布式水文模型建立数字化的空间和时间分布预报体系;依托网络、地理信息系统和数据库等技术,建立为防汛决策、专业应用、电子政务等提供决策支持的信息应用与服务体系。其核心在于如何形成数字化的、覆盖整个指定地域空间的、多重时空尺度的、多种要素的、对水文分析有用的数据产品。
对于水文现代化而言,要形成与水利信息化相适应的信息服务能力,必须大力建设水文信息数据库,使之成为水利信息资源的重要组成部分。这里有两层含义:一是要丰富数据库的内容,二是要对水文部门内部的各类信息资源进行集成,形成有一定聚合度和服务目标的水文信息资源。分散在一个个部门的水文数据,很难形成可以开发利用的资源。
实施数据挖掘,一般的步骤是:问题理解和提出→数据准备→数据整理→建立模型→评价和解释。实施数据挖掘应从以下三方面加以考虑,一是用数据挖掘解决什么样的行业问题,二是为进行数据挖掘所做的数据准备,三是数据挖掘的各种分析算法。
数据挖掘的分析算法主要来自于以下两个方面:统计分析和人工智能(机器学习、模式识别等)。数据挖掘研究人员和数据挖掘软件供应商,在这一方面所做的主要工作是优化现有的一些算法,以适应大数据量。
数据挖掘最后成功与失败,是否有经济效益,数据准备起到了至关重要的作用。数据准备包含很多方面:一是从多种数据源去综合数据挖掘所需要的数据,保证数据的综合性、易用性、数据的质量和数据的时效性,这有可能要用到数据仓库的思想和技术;另一方面就是如何从现有数据中衍生出所需要的指标,这主要取决于数据挖掘者的分析经验和工具的方便性。
实施数据挖掘,面临的问题有:(1)数据挖掘的基本问题在于数据的数量及维数,数据结构也因此显得非常复杂,如何选择分析变量,是首先要解决的问题。(2)面对积累起来的大量数据,现有的统计方法等都遇到了问题,人们直接的想法就是对数据进行抽样。怎么抽样,抽取多大的样本,又怎样评价抽样的效果,都是需要研究的问题。(3)既然数据是海量的,那么数据中就会隐含一定的变化趋势,在数据挖掘中也要对这个趋势做应有的考虑和评价。(4)各种不同的模型如何应用,其效果如何评价。不同的人对同样的数据进行挖掘,可能产生差异很大的结果,这就是可靠性的问题。(5)数据挖掘涉及到数据也就碰到了数据的安全性。(6)数据挖掘的结果是不确定的,要和专业知识相结合,才能对其做出判断。
水文综合数据库系统与服务平台(水文数据中心)是以现代技术手段向用户提供优质、高效水文信息共享服务的基本保障。信息获取与分析技术的快速发展,特别是遥测、遥感、网络、数据库等技术的应用,有力地促进了水文数据的采集和处理技术的发展,使之在时间和空间的尺度及要素类型上有了不同程度的扩展。由于水在人类生存发展中的特殊作用,应用各种新技术获取水文数据,挖掘蕴藏于水文数据中的知识,已成为水文科学发展的新热点。
水文数据挖掘可以应用决策树、神经网络、覆盖正例排斥反例、概念树、遗传算法、公式发现、统计分析、模糊论等理论与技术,并在可视化技术的支持下,构造满足不同目的的水文数据挖掘应用系统。
据统计,我国水文整编资料数据累计量已超过7000兆字节,加上进行水文预报所需的天气、地理等数据,进行水文分析所需要处理的数据量很大。沿用传统的技术工具和方法,从这些数量巨大、类型复杂的数据中及时准确地挖掘出满足需要的知识,必然会因为计算能力、存储能力、算法的不足而无能为力。因此,需要高效的水文数据挖掘技术。
数据仓库能把整个部门的数据,无论其地理位置、格式和通信要求,统统集成在一起,便于最终用户访问并能从历史的角度进行分析,最后做出战略决策。数据挖掘技术可从大量数据中发现潜在的、有价值的及未知的关系、模式和趋势,并以易被理解的方式表示出来。
需要强调的是,不少人把数据挖掘工具看得过分神秘,认为只要有了一个数据挖掘工具,就能从提供的数据中自动挖掘出所需要的信息,这是认识上的一个误区。其实要想真正做好数据挖掘,数据挖掘工具只是其中的一个方面,数据挖掘的成功要求对期望解决问题的领域,例如水文,有深刻的了解,理解水文要素数据的属性,了解其采集的过程,同时还需要对该领域的业务有深入了解和数据分析经验。所以,一个行业或部门要充满活力、做到可持续发展,必须有一些数据挖掘方面的专家,专门从事数据分析和数据挖掘工作。
黄河难治,症在泥沙。目前黄河水文的泥沙预报基本属于空白。水文数据挖掘是精确水文预报和水文数据分析的重要基础,应当足够重视,并结合“黄河水沙信息管理系统”的组织开发和水文现代化建设,积极开展水文数据挖掘工作,进一步提高黄河水文信息服务水平。为新时期黄河治理提供科技支撑,为维持黄河健康生命提供优质服务
(作者单位:黄委水文局科研所)
稿件来源: 黄河网·黄河报
|