您的位置:

任务6.3构建并评价分类模型,简要叙述两种模型评估方法

本文目录一览:

评价指标体系的构建

6.3.1 评价指标构建方法

6.3.1.1 代表性评价指标构建方法

目前,国际上对于土地生态评价研究,具有代表性的成果有2个,即压力-状态-响应评价体系和土地条件变化评价指标体系。

(1)压力-状态-响应(PSR)评价体系“压力-状态-响应”(Pressure-State-Response,PSR)评价体系是世界银行、联合国粮农组织、联合国发展署、联合国环境署在1996年联合开展的土地质量指标研究项目中所提出的研究成果。该评价体系主要目的是回答发生了什么、为了什么、我们如何做这3个问题。其中,压力指标用以表明那些造成妨碍持续发展的人类活动和消费模式或经济系统的一些因素;状态指标用以反映持续发展过程中各系统的状态;响应指标用以表明人类为促进持续发展进程所采取的对策。这种方法适合于选取生态环境方面的指标,而对于社会经济方面的指标不太适合。PSR评价指标体系主要提供的是一种评价思路,它强调在分析应用过程中,必须把压力指标、状态指标和响应指标结合起来考虑,而不能仅仅依赖某一项指标,孤立地考察一项指标往往可能得出不正确的结论。各国各地区在实际应用过程中,要结合自己的具体情况,通过补充、完善来灵活运用。

(2)土地条件变化评价指标体系:土地条件变化评价指标体系是由M.Vieira等人提出的。在这个指标框架中,M.Vieira提出了定性和定量两种土地条件变化指标,其中定性变化指标要求直观、易于获取,如土壤颜色、地表形态等;定量指标应强调计算方法的规范与统一。具体应用指标的选择一定要立足于评价区域的土地资源特征,变化指标的观测频率取决于指标本身的特征,在观测值的分析比较方法上,可采用横向比较、纵向比较和假设比较等综合分析,并通过因果分析分辨出是自身内部因子还是外部因子。

到目前为止,国外关于土地生态评价的系统、完整的一套指标体系尚未见报道。然而可以肯定,所有的这些工作都会为将来土地生态评价领域形成系统的指标体系奠定坚实的基础。

6.3.1.2 本次研究采用的评价指标构建方法及拟选指标

本次研究在借鉴相关学者在生态安全评价指标体系建立的基础上,结合河南实际情况,依据上述选取评价指标的原则,通过对影响生态安全的各种因素包括自然因素和人文因素等的全面系统的分析研究、综合压力-状态-响应评价指标体系和可持续发展的生态安全评价理论、对土地资源生态安全的制约性因素或主导性因子的辨识,从中选取最能代表和反映河南省土地资源生态安全状况的具体指标,且以土地可持续发展为目的,旨在促使经济、社会和自然生态的协调统一,最终构建河南省土地资源生态安全评价的拟选指标体系。该体系包含土地生态环境的自然状态、土地生态环境的经济状态和土地生态环境的社会状态三大类26个拟选指标(表6.1)。

表6.1 河南省土地资源生态安全评价拟选指标体系

R&D: 研究与实验发展 (research and development)。

6.3.2 评价指标的筛选

评价指标的筛选方法有两大类: 一是定性分析法,又称经验法或专家意见法,包括理论分析法和特尔菲法 (Delphi),主要是凭借评价者个人的知识和经验,借鉴同行专家的意见,综合后进行筛选,这种方法的优点是简单易行,缺点是主观性较强; 二是定量分析法,目前采用的主要有主成分分析法、相关分析法和独立性分析等,这类方法的优点是客观性较强,缺点是比较机械且计算量大,不一定符合评价的实际。本次研究采用的是专家调研法。

按照指标选择的原则,对土地资源生态安全评价指标体系中拟选要素指标通过发放专家调查表的方式,征询有关专家意见。本次调查选择了来自多家相关单位的不同专业的专家共 55 名,请每位专家对土地资源生态安全评价指标体系中的全部 3 个评价方面和 26 个要素指标进行排序,首先对系统层方面进行排序 (从 1 到 3,1 为最重要),再分别对要素指标相对评价方面的重要性进行排序。如果专家认为还有其他重要指标可以列入,加以补充,并与原有指标一起选择和排序。根据专家排序结果,按递减顺序原则进行统计,专家调查统计结果见表 6.2。对于系统层方面,专家排序第一的赋值为 3 分,排序第二的赋值为 2 分,排序第三的赋值为 1 分; 对于要素指标,专家排序第一的赋值为 10 分,排序第二的赋值为 9 分,依此类推,排序第十名为 1 分。各个指标最后得分的计算方法如下式所示。

河南省土地资源生态安全理论、方法与实践

式中:S为各指标的最后得分;fi为各指标的赋值;pi为各指标的排名。

在进行专家调查过程中,有些专家也提出了其他的要素指标,对这些要素指标,课题组又组织了一些专家进行专门讨论。专家一致认为,这些要素指标虽然比较重要,但其重要性略差于课题组所选的要素指标,因此没有再次进行专家调查。

表6.2 河南省土地资源生态安全评价拟选指标统计排序

续表

注:*表示指标排名,**表示指标得分。

表6.3 河南省土地资源生态安全评价指标体系框架

6.3.3 评价指标体系框架

根据要素指标选择的4个原则、拟选指标排序状况和专家讨论的意见,课题组筛选掉了分值低且差别大的一些指标,从而最终在拟选指标体系中选出17项最终要素指标,并主要根据得分和重要性排序情况,对各项指标的权重进行了赋值和计算(具体见本篇第七章评价指标权重的确定)。河南省土地资源生态安全评价的最终指标体系框架见表6.3。

分类:基本概念、决策树与模型评估

分类 (classification)分类任务就是通过学习得到一个目标函数(targetfunction)f,把每个属性集x映射到一个预先定义的类别号y。目标函数也称分类模型(classification model)。分类模型可用于以下目的:描述性建模、预测性建模

分类技术(或分类法)是一种根据输入数据集建立分类模型的系统方法。分类法的例子包括决策树分类法、基于规则的分类法、神经网络、支持向量机和朴素贝叶斯分类法。

首先,需要一个训练集(training set),它又类标号一致的记录组成。使用训练集建立分类模型,该模型随后运用于检验集(test set ),检验集由类标号未知的记录组成。

分类模型的性能根据模型正确和错误预的检验记录计数进行评估,这些计数存放在称作混淆矩阵( confusion matrix)的表格中。表4-2描述二元分类问题的混滑矩阵。表中每个表项 fij 表示实际类标号为i但被预测为类j的记录数,例如, f01 代表原本属于类0但被误分为类1的记录数。按照混淆矩阵中的表项,被分类模型正确预测的样本总数是( f11+f00 ),而被错误预测的样本总数是( f10+f01 )。

同样,分类模型的性能可以用错误率(error rate)来表示,其定义如下:

为了解释决策树分类的工作原理,考虑上一节中介绍的脊椎动物分类问题的简化版本。这里我们不把脊椎动物分为五个不同的物种,而只考虑两个类别:哺乳类动物和非哺乳类动物。假设科学家发现了一个新的物种,怎么判断它是哺乳动物还是非哺乳动物呢?一种方法是针对物种的特征提出一系列问题。第一个问题可能是,该物种是冷血动物还是恒温动物。如果它是冷血的,则该物种肯定不是哺乳动物;否则它或者是某种鸟,或者是某种哺乳动物。如果它是恒温的,需要接着问:该物种是由雌性产越进行繁殖的吗?如果是,则它肯定为哺乳动物,否则它有可能是非哺乳动物(鸭嘴兽和针鼹这些产蛋的哺乳动物除外)。

上面的例子表明,通过提出一系列精心构思的关于检验记录属性的问题,可以解决分类问题。每当一个问题得到答案,后续的问题将随之而来,直到我们得到记录的类标号。这一系列的问题和这些问题的可能回答可以组织成决策树的形式,决策树是一种由结点和有向边组成的层次结图4-4显示哺乳类动物分类问题的决策树,树中包含三种结点。

根节点 (root node),它没有入边,但有零条或多条出边。

内部节点 (internal node),恰有一条入边和两条或多条出边。

叶节点 (leaf node)或 终结点 (terminal node)。恰有一条入边,但没有出边。

在决策树中,毎个叶结点都赋予一个类标号。非终结点(non- terminal node)(包括根结点和内部结点)包含属性测试条件,用以分开具有不同特性的记录。例如,在图44中,在根结点处,使用体温这个属性把冷血脊権动物和恒温脊椎动物区别开来。因为所有的冷血脊椎动物都是非乳动物,所以用一个类称号为非嘴乳动物的叶结点作为根结点的右子女。如果脊椎动物的体温是恒温的,则接下来用胎生这个属性来区分乳动物与其他恒温动物(主要是鸟类)。

一旦构造了决策树,对检验记录进行分类就相当容易了。从树的根结点开始,将测试条件用于检验记录,根据测试结果选择适当的分支,沿着该分支或者到达另一个内部结点,使用新的测试条件,或者到达一个叶结点。到达叶结点之后,叶结点的类称号就被赋值给该检验记录。例如图45显示应用决策树预测火烈鸟的类标号所经过的路径,路径终止于类称号为非哺乳动物的叶结点。

在 Hunt算法中,通过将训练记录相继划分成较纯的子集,以递归方式建立决策树。设 是与结点t相关联的训练记录集,而y={y1,y2…,yc}是类标号,Humt算法的递归定义如下:

(1)如果 中所有记录都属于同一个类 ,则t是叶结点,用 标记。

(2)如果 中包含属于多个类的记录,则选择一个 属性测试条件 ( attribute test condition),将记录划分成较小的子集。对于测试条件的每个输出,创建一个子女结点,并根据测试结果将 中的记录分布到子女结点中。然后,对于每个子女结点,递归地调用该算法。为了解释该算法如何执行,考虑如下问题:预测贷款申请者是会按时归还贷款,还是会拖欠贷款。对于这个问题,训练数据集可以通过考察以前货款者的贷放记录来构造。在图4-6所示的例子中,每条记录都包含贷款者的个人信息,以及货款者是否拖欠货款的类标号。

该分类问题的初始决策树只有一个结点,类标号为“拖欠款者=否”(见图4-7a),意味大多数贷款者都按时归还贷款。然而,该树需要进一步的细化,因为根结点包含两个类的记录。根据“有房者”测试条件,这些记录被划分为较小的子集,如图4-7b所示。选取属性测试条件的理由稍后讨论,目前,我们假定此处这样选是划分数据的最优标准。接下来,对根结点的每个子女递归地调用Hunt算法。从图4-6给出的训练数据集可以看出,有房的货款者都按时偿还了贷款,因此,根结点的左子女为叶结点,标记为“抱欠款者=否”(见图4-7b)。对于右子女,我们需要继续递归调用Hunt算法,直到所有的记录都属于同一个类为止。每次递归调用所形成的决策树显示在图4-7c和图4-7d中。

如果属性值的每种组合都在训练数据中出现,并且每种组合都具有算法是有效的。但是对于大多数实际情况,这些假设太苛刻了,因此,需要附加的条件来处理以下的情况。

(1)算法的第二步所创建的子女结点可能为空,即不存在与这些结点相关联的记录。如果没有一个训练记录包含与这样的结点相关联的属性值组合,这种情形就可能发生。这时,该结点成为叶结点,类标号为其父结点上训练记录中的多数类。

(2)在第二步,如果与D相关联的所有记录都具有相同的属性值(目标属性除外),则不可能进一步划分这些记录。在这种情况下,该结点为叶结点,其标号为与该结点相关联的训练记录中的多数类。

决策树归纳的学习算法必须解决下面两个问题。

(1) 如何分裂训练记最? 树增长过程的每个递归步都必须选择一个属性测试条件,将记录划分成较小的子集。为了实现这个步骤,算法必须提供为不同类型的属性指定测试条件的方法,并且提供评估每种测试条件的客观度量。

(2) 如何停止分裂过程? 需要有结束条件,以终止决策树的生长过程。一个可能的策略是分裂结点,直到所有的记录都属于同一个类,或者所有的记录都具有相同的属性值。尽管两个结东条件对于结束决策树归纳算法都是充分的,但是还可以使用其他的标准提前终止树的生长过程。提前终止的优点将在4.4.5节讨论。

决策树归纳算法必须为不同类型的属性提供表示属性测试条件和其对应输出的方法。

二元属性 二元属性的测试条件产生两个可能的输出,如图4-8所示。

标称属性 由于标称属性有多个属性值,它的测试条件可以用两种方法表示,如图4-9所示对于多路划分(图4-9a),其输出数取决于该属性不同属性值的个数。例如,如果属性婚姻状况有三个不同的属性值一单身、已婚、离异,则它的测试条件就会产生一个三路划分。另一方面,某些决策树算法(如CART)只产生二元划分,它们考虑创建k个属性值的二元划分的所有 +1种方法。图4-9b显示了把婚姻状况的属性值划分为两个子集的三种不同的分组方法。

序数属性 序数属性也可以产生二元或多路划分,只要不违背序数属性值的有序性,就可以对属性值进行分组。图410显示了技照属性村衣尺吗划分训练记录的不同的方法。图4-10a和图4-10b中的分组保持了属性值间的序关系,而图4-10c所示的分组则违反了这一性质,因为它把小号和大号分为一组,把中号和加大号放在另一组。

连续属性对于连续属性来说,测试条件可以是具有二元输出的比较测试(Av)或(A≥v),也可以是具有形如 ≤A (i=1,…,k)输出的范查询,图4-11显示了这些方法的差别。对于二元划分,决策树算法必须考虑所有可能的划分点v,并从中选择产生最佳划分的点v。对于多路划分,算法必须考虑所有可能的连续值区间。可以采用2.3.6节介绍的离欧化的策略,离散化之后,每个离散化区间赋予一个新的序数值,只要保持有序性,相邻的值还可以聚集成较宽的间。

有很多度量可以用来确定划分记录的最佳方法,这些度量用划分前和划分后记录的类分布定义。设p(i|t)表示给定结点t中属于类i的记录所占的比例,有时,我们省略结点t,直接用 表示该比例。在两类问题中,任意结点的类分布都可以记作( , ),其中 =1- 。例如,考虑图4-12中的测试条件,划分前的类分布是(0.5,0.5),因为来自每个类的记录数相等。如果使用性属性来划分数据,则子女结点的类分布分别为(0.6,0.4)和(0.4,0.6),虽然划分后两个类的分布不再平衡,但是子女结点仍然包含两个类的记录:按照第二个属性车型进行划分,将得到纯度更高的划分。

选择最佳划分的度量通常是根据划分后子女结点不纯性的程度。不纯的程度越低,类分布就越倾斜。例如,类分布为(0,1)的结点具有零不纯性,而均衡分布(0.5,0.5)的结点具有最高的不纯性。不纯性度量的例子包括:

图4-13显示了二元分类问题不纯性度量值的比较,p表示属于其中一个类的记录所占的比例。从图中可以看出,三种方法都在类分布均衡时(即当p=0.5时)达到最大值,而当所有记录都属于同一个类时(p等于1或0)达到最小值。下面我们给出三种不纯性度量方法的计算实例。

为了确定测试条件的效果,我们需要比较父结点(划分前)的不纯程度和子女结点(划分后)的不纯程度,它们的差越大,测试条件的效果就越好。增益4是一种可以用来确定划分效果的标准:

考虑图4-14中的图表,假设有两种方法将数据划分成较小的子集。划分前,Gimi指标等于0.5,因为属于两个类的记录个数相等。如果选择属性A划分数据,结点N1的Gi指标等于0,.4898,而N2的Gimi指标等于0.480,派生结点的Gini指标的加权平均为(7/12)×0.4898+(5/2)×0.480=0.486。类似的,我们可以计算属性B的Gini指标加权平均是0.371。因为属性B具有更小的Gini指标,它比属性A更可取。

熵和Gini指标等不纯性度量趋向有利于具有大量不同值的属性。图4-12显示了三种可供选择的测试条件,划分本章习题2中的数据集。第一个测试条件性别与第二个测试条件车型相比,容易看出车型似乎提供了更好的划分数据的方法,因为它产生更纯的派生结点。然而,如果将这两个条件与顾客D相比,后者看来产生更纯的划分,但顾客D却不是一个有预测性的属性,因为每个样本在该属性上的值都是唯一的。即使在不太极端情形下,也不会希望产生大量输出的测试条件,因为与每个划分相关联的记录太少,以致不能作出可靠的预测。

解决该问题的策略有两种。第一种策略是限制测试条件只能是二元划分,CART这样的决策树算法采用的就是这种策略:另一种策略是修改评估划分的标准,把属性测试条件产生的输出数也考虑进去,例如,决策树算法C4.5采用称作增益率( gain ratio)的划分标准来评估划分。增益率定义如下:

建立决策树之后,可以进行树剪枝( tree-pruning),以减小决策树的规模。决策树过大容易受所谓过分拟合( overfitting)现象的影响。通过修剪初始决策树的分支,剪枝有助于提高决策树的泛化能力。过分拟合和树剪枝问题将在4.4节更详细地讨论。

Web使用挖据就是利用数据挖据的技术,从Web访问日志中提取有用的模式。这些模式能够揭示站点访问者的一些有趣特性:例如,一个人频繁地访问某个Web站点,并打开介绍同一产品的网页,如果商家提供一些打折或免费运输的优惠,这个人很可能会购买这种商品。

在Web使用挖掘中,重要的是要区分用户访问和Web机器人( Web robot)访问,Web机器人(又称Web爬虫)是一个软件程序,它可以自动跟踪嵌入网页中的超链接,定位和获取 Iinternet上的信息。这些程序安装在搜素引的入口,收集索引网页必须的文档。在应用Web挖掘技术分析人类的测览习惯之前,必须过滤掉Web机器人的访问。

下面是对决策树归纳算法重要特点的总结。

(1)决策树归纳是一种构建分类模型的非参数方法。换句话说,它不要求任何先验假设,不假定类和其他属性服从一定的概率分布(不像第5章介绍的一些技术)。

(2)找到最佳的决策树是NP完全问题。许多决策树算法都采取启发式的方法指导对假设空间的搜索。例如,4.3.5节中介绍的算法就采用了一种贪心的、自顶向下的递归划分策略建立决策树

(3)已开发的构建决策树技术不需要昂贵的计算代价,即使训练集非常大,也可以快速建立模型。此外,决策树一旦建立,未知样本分类非常快,最坏情况下的时间复杂度是O(w),其中w是树的最大深度。

(4)决策树相对容易解释,特别是小型的决策树。在很多简单的数据集上,决策树的准确率也可以与其他分类算法相媲美。

(5)决策树是学习离散值函数的典型代表。然而,它不能很好地推广到某些特定的布尔问题。个著名的例子是奇偶函数,当奇数(偶数)个布尔属性为真时其值为0(1)。对这样的函数准确建模需要一棵具有2^d个结点的满决策树,其中d是布尔属性的个数(见本章习题1)

(6)决策树算法对于噪声的干扰具有相当好的鲁棒性,采用避免过分拟合的方法之后尤其如此。避免过分拟合的方法将在4.4节介绍。

(7)元余属性不会对决策树的准确率造成不利的影响。一个属性如果在数据中它与另一个属性是强相关的,那么它是冗余的。在两个冗余的属性中,如果已经选择其中一个作为用于划分的属性,则另一个将被忽略。然而,如果数据集中含有很多不相关的属性(即对分类任务没有用的属性),则某些不相关属性可能在树的构造过程中偶然被选中,导致决策树过于庞大。通过在预处理阶段删除不相关属性,特征选择技术能够帮助提高决策树的准确率。我们将在4.4.3节考察不相关属性过多的问题。

(8)由于大多数的决策树算法都采用自顶向下的递归划分方法,因此沿着树向下,记录会越来越少。在叶结点,记录可能太少,对于叶结点代表的类,不能做出具有统计意义的判决,这就是所谓的数据碎片( data fragmentation)问题,解决该问题的一种可行的方法是,当样本数小于某个特定值时停止分裂。

(9)子树可能在决策树中重复多次,如图4-19所示,这使得决策树过于复杂,并且可能更难解释。当决策树的每个内部结点都依赖单个属性测试条件时,就会出现这种情形。由于大多数的决策树算法都采用分治划分策略,因此在属性空间的不同部分可以使用相同的测试条件,从而导致子树重复问题。

(10)迄今为止,本章介绍的测试条件每次都只涉及一个属性。这样,可以将决策树的生长过程看成划分属性空间为不相交的区域的过程,直到每个区域都只包含同一类的记录(见图4-20)。两个不同类的相邻区域之间的边界称作决策边界( decision boundary),由于测试条涉及单个属性,因此决策边界是直线,即平行于“坐标轴”,这就限制了决策树对连续属性之间复杂关系建模的表达能力。图4-21显示了一个数据集,使用一次只涉及一个属性的测试条件的决策树算法很难有效地对它进行分类。

斜决策树 ( oblique decision tree)可以克服以上的局限,因为它允许测试条件涉及多个属性。图4-21中的数据集可以很容易地用斜决策树表示,该斜决策树只有一个结点,其测试条件为:

x+y1

尽管这种技术具有更强的表达能力,并且能够产生更紧凑的决策树,但是为给定的结点找出最佳测试条件的计算可能是相当复杂的。

构造归纳 ( constructive induction)提供另一种将数据划分成齐次非矩形区域的方法(见2.3.5节),该方法创建复合属性,代表已有属性的算术或逻辑组合。新属性提供了更好的类区分能力,并在决策树归纳之前就增广到数据集中。与斜决策树不同,构造归纳不需要昂贵的花费,因为在构造决策树之前,它只需要一次性地确定属性的所有相关组合。相比之下,在扩展每个内部结点时,斜决策树都需要动态地确定正确的属性组合。然而,构造归纳会产生冗余的属性,因为新创建的属性是已有属性的组合

(11)研究表明不纯性度量方法的选择对决策树算法的性能影响很小,这是因为许多度量方法相互之间都是一致的,如图4-13所示。实际上,树剪枝对最终决策树的影响比不纯性度量的选择的影响更大。

综合评价模型的构建

目前在水土保持治理效益综合评价中,主要有定性评价和定量评价两种方法,并且已从单独使用定性评价方法转为定性评价和定量评价方法相结合,或者将几种定量评价方法综合起来使用。定量评价方法主要有综合评价法、经济分析法和投入产出分析法,综合评价法中又包括模糊评价法、灰色关联分析法、灰色模型预测法等。本研究主要采用基于半梯形分布函数的多层次模糊综合评价模型、基于 Delphi法的多层次模糊综合评价模型、基于归一化指标的模糊综合评价模型等4 种方法进行水土保持治理效益的综合评价。

6.1.4.1 基于半梯形分布函数的多层次模糊综合评价模型

(1)建立评价指标等级体系

根据《水土保持综合治理 规划通则》(GB/T 15772—2008)、《水土保持综合治理验收规范》(GB/T 15773—2008)和《土壤侵蚀分类分级标准》(SL190—2007),查阅相关文献(如蔡国军等,2009;卜贵贤等,2011),并结合研究区域内的小流域水土保持治理的实际情况,划分每项指标所对应的各级标准,见表6.3。

(2)确定评语集V

一般情况下将小流域水土保持治理效益划分为五个等级,对于本研究从低到高依次为:Ⅰ级(很差)、Ⅱ级(较差)、Ⅲ级(一般)、Ⅳ级(良好)和Ⅴ级(优等),用V={υ1,υ2,…,υ5} 表示。

表6.3 小流域水土保持治理效益评价指标等级划分标准表

(3)确定隶属度函数

本研究的隶属函数采用半梯形分布函数,各单项指标的量划分为两类:一类为正效指标(效益型),越大越优;另一类是负效指标(成本型),越小越优。此函数表示为

正效指标函数:

南水北调河南水源区水土流失规律及治理模式与效益评价研究

负效指标函数:

南水北调河南水源区水土流失规律及治理模式与效益评价研究

式中:Gi——某一指标的标准值;

ui——该指标的实际值;

μi——该指标的隶属度。

(4)确定模糊矩阵

将已经标准化处理过的数据代入上述隶属度函数中,可得到m×n阶矩阵,建立模糊评价矩阵R

南水北调河南水源区水土流失规律及治理模式与效益评价研究

式中:m——指标个数;

n——各指标标准分的级数。

(5)模糊关系运算

经典模糊数学中的模糊运算为B=A○R,该运算又称为最大最小值法,由于其容易丢失信息,为减少信息丢失,上述模糊运算改进为B=A·R,上式称为乘法运算,能较好地表达各因素对重要性程度和对评价结果的贡献率。根据层次分析法得到的准则层与目标层的权重向量,可分别对准则层与指标层进行综合评价:

南水北调河南水源区水土流失规律及治理模式与效益评价研究

式中:Ck——隶属于第k等级的隶属度归一化处理值;

rij——第i个评价指标隶属于第j等级的隶属度。

(6)改进的模糊综合评判

在模糊综合评判的基础上,将评价等级档次集与上述评价确定的权重相结合,可得到与各评语集相对应的综合评分分值为

南水北调河南水源区水土流失规律及治理模式与效益评价研究

式中:Sk——评价等级档次集Vk所对应的量化评语集。

(7)效益评价等级的确定。根据综合评分分值所处评语集范围即可确定其评价等级。

6.1.4.2 基于Delphi 法的多层次模糊综合评价模型

综合评价指标体系中的指标根据指标特征可分为定量指标和定性指标两大类。定量指标是可以直接量化的指标;定性指标只有通过统计分析、经验判断和相关数学方法才能量化确定。在多层次模糊综合评价过程中,用传统的数值定量方法很难客观、准确地做出前后一致的评价。如项目对生态环境的影响,一般难以精确计量,只能用“很好”“较好”“一般”“较差”“很差”等带有模糊属性的语言来表示。这些概念之间的划分,本身也具有模糊性。因此本研究的第二种方法采用模糊统计技术与Delphi法相结合的方法确定隶属度,构建模糊评价矩阵。

(1)确定评价因素集

将评价因子根据某种属性分成m个因素子集,记作u1,u2,…,um,则评价因素集U={u1,u2,…,um}。

(2)确定评语集V及标准隶属度D

将小流域水土保持治理效益划分为五个等级,对于本书从低到高依次为:Ⅰ级(很差)、Ⅱ级(较差)、Ⅲ级(一般)、Ⅳ级(良好)和Ⅴ级(优等),用V={υ1,υ2,…,υ5} 表示。取值D={d1,d2,…,d5},分别对应0.2、0.4、0.6、0.8、1.0,为某一隶属度集。

(3)专家评估

将印有评价指标与评价等级的表格发给专家,各个专家结合本领域及相关领域对各个指标定出相应的级别。专家评估时并不要求给出具体的分值,只需在“很差”“较差”“一般”“较好”和“很好”5个评语级别中选择其认为最合适的级别即可。

由于专家评估具有很强的主观因素,所以如何体现专家评估的优势,削弱其劣势,是一个非常重要的问题。应用专家评估法应注意以下问题:

1)选聘专家时应注意的问题。专家选聘的合理与否,直接影响到评价结果的准确程度,所以在专家的选聘工作需要考虑以下3 个问题:所选专家必须对评价指标所涉及的各方面情况很熟悉,并在评价指标领域拥有一定的权威性,而且有经验;所选专家在所涉及专业的分布上要全面、合理,具有代表性;专家人数要适当,各类专家比例应合理,专家人数过少代表性不好,而且容易造成个人好恶偏见对最终评价结果的影响过大;人数过多,数据处理工作量过大,评判周期过长,致使最后结果的准确性不一定很高。

2)专家评估时应注意的问题。对专家评估可以采取调查问卷的形式,也可通过函询的方法,应避免权威、资历、压力、劝说、口才等方面的影响。在各位专家打分以后,应针对不同方案对各位专家的打分结果进行专家意见的一致性检验,对意见不集中的方案,应采取重新打分,或另请专家再次打分。本文采用目前被广泛应用的Delphi法进行评估。Delphi法区别于其他专家评估法的主要特点是匿名性和多次反馈,通过函询方法多次征询意见,允许专家在后一次的反馈意见中修改前一次的意见。避免了会议讨论时由于害怕权威而随声附和、因顾虑情面不愿与他人意见冲突等弊病,使各种意见收敛较快,最终结论具有一定程度的综合意见的客观性。

(4)隶属度计算与模糊评价矩阵的确定

根据多位专家的评语,进行模糊统计分析计算,于是可以得到关于m个评价指标的从评价因素集U到评语集V的模糊关系,建立模糊评价矩阵R

南水北调河南水源区水土流失规律及治理模式与效益评价研究

式中:Ri=(ri1,ri2,…,ri5)为相对于评价因素ui的单因素模糊评价,是评价语集V上的子集;rij为相对于评价因素ui给与评语υj的隶属度,由回收的专家评语整理计算得到,对于第i个评价指标,有υi1个V1级评语、υi2个V2级评语、……υi5个V5级评语,则有

南水北调河南水源区水土流失规律及治理模式与效益评价研究

选聘11位专家对小流域水土保持效益进行评价,利用Delphi法整理得到各位专家评估的统计结果,构成5个模糊评价矩阵。

(5)多层次模糊综合评价模型的构建

根据前面计算得到的权向量矩阵WPT和模糊评价矩阵Ri可以计算得到

Bi=WiRi=(bi1bi2… bi5)(6.16)

≠1,则需采用归一化方法将Bi处理为

=(

)。

设评价等级矩阵为F=(f1f2f3f4f5)T=(20 40 60 80 100)T,分别对应于很差、较差、一般、良好和优等5个等级,则各子系统的评价指标值Qi为

南水北调河南水源区水土流失规律及治理模式与效益评价研究

通过各子系统的评价分数Qi及其相对于目标层的权重WCT计算得到总目标的综合评价指标值Q为

南水北调河南水源区水土流失规律及治理模式与效益评价研究

(6)效益评价等级的确定

根据综合评分分值所处评语集范围即可确定其评价等级。

6.1.4.3 基于归一化指标的模糊综合评价模型1

(1)建立评价指标标准值

根据《水土保持综合治理规划通则》(GB/T 15772—2008)、《水土保持综合治理 验收规范》(GB/T 15773—2008)和《土壤侵蚀分类分级标准》(SL190—2007),查阅相关文献(蔡国军等,2009;卜贵贤等,2011),并结合研究区域内的小流域水土保持治理的实际情况,确定每项指标所对应的标准值基准值和理想值(表6.4)。

表6.4 小流域水土保持治理效益评价指标标准值

(2)确定评价指标的归一化矩阵

由于评价指标体系中各指标的量纲不同,指标间数量差异也较大,使得不同指标间在量上不能直接进行比较,缺乏可比性。所以,在对小流域水土保持治理效益评价分析之前须对各项指标值进行归一化处理。本研究采用建立模糊数学隶属度函数对指标进行归一化处理,得到评价指标的归一化矩阵R(x)。根据对评价指标类型的不同,分为越大越优型和越小越优型。

南水北调河南水源区水土流失规律及治理模式与效益评价研究

南水北调河南水源区水土流失规律及治理模式与效益评价研究

式中:x——指标的实际值;

α1,α2——分别为指标的标准值下限和上限,可根据表6.4中的基准值和理想值确定。

(3)效益评价值的确定

效益评价值Q′采用下列模糊关系方程求得:

Q′=W·R (6.21)

式中:Q′——评价结果即判断子集;

W——模糊集中的权重分配;

R——各评价指标的单因素评价矩阵。

为了让所得评价结果直观明了,将效益评价值Q′换算成百分制,得到Q。

(4)效益评价等级的确定

设评语集为{20,40,60,80,100},分别对应于Ⅰ级(很差)、Ⅱ级(较差)、Ⅲ级(一般)、Ⅳ级(良好)和Ⅴ级(优等)5个等级。

根据效益评价值Q所处评语集范围即可确定其评价等级。

这种方法在指标等级之间的差值不均匀的情况下,当正效指标数据接近于标准值下限时,指标的归一化值偏小,导致评价分值偏低;当负效指标数据接近于标准值下限时,指标的归一化值偏大,导致评价分值偏高,但误差均在可接受范围之内。

6.1.4.4 基于归一化指标的模糊综合评价模型2

(1)建立评价指标标准值

根据《水土保持综合治理 规划通则》(GB/T 15772—2008)、《水土保持综合治理 验收规范》(GB/T 15773—2008)和《土壤侵蚀分类分级标准》(SL190—2007),查阅相关文献(如蔡国军等,2009;卜贵贤等,2011),并结合研究区域内的小流域水土保持治理的实际情况,确定每项指标所对应标准值的理想值,见表6.4。

(2)确定评价指标的归一化矩阵

本方法对指标的归一化处理与前面方法不同。对指标进行归一化处理后,同样得到评价指标的归一化矩阵R(x)。根据对评价指标类型的不同,分为越大越优型和越小越优型。

南水北调河南水源区水土流失规律及治理模式与效益评价研究

南水北调河南水源区水土流失规律及治理模式与效益评价研究

式中:x——指标的实际值;

α2——指标的标准值,可根据表6.4中的理想值确定。

(3)效益评价值的确定

效益评价值Q′仍然采用模糊关系方程(6.21)求得。同样将效益评价值Q′换算成百分制,得到Q。

(4)效益评价等级的确定

根据效益评价值Q所处评语集范围即可确定其评价等级。

这种方法在指标数据与标准值相差较大时,归一化数值更接近于0,容易导致评价分值误差比较大,正效指标的结果偏大,负效指标的结果偏小,但误差均在可接受范围之内。

python数据分析与应用-Python数据分析与应用 PDF 内部全资料版

给大家带来的一篇关于Python数据相关的电子书资源,介绍了关于Python方面的内容,本书是由人民邮电出版社出版,格式为PDF,资源大小281 MB,黄红梅 张良均编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:7.8。

内容介绍

目录

第1章 Python数据分析概述 1

任务1.1 认识数据分析 1

1.1.1 掌握数据分析的概念 2

1.1.2 掌握数据分析的流程 2

1.1.3 了解数据分析应用场景 4

任务1.2 熟悉Python数据分析的工具 5

1.2.1 了解数据分析常用工具 6

1.2.2 了解Python数据分析的优势 7

1.2.3 了解Python数据分析常用类库 7

任务1.3 安装Python的Anaconda发行版 9

1.3.1 了解Python的Anaconda发行版 9

1.3.2 在Windows系统中安装Anaconda 9

1.3.3 在Linux系统中安装Anaconda 12

任务1.4 掌握Jupyter Notebook常用功能 14

1.4.1 掌握Jupyter Notebook的基本功能 14

1.4.2 掌握Jupyter Notebook的高 级功能 16

小结 19

课后习题 19

第2章 NumPy数值计算基础 21

任务2.1 掌握NumPy数组对象ndarray 21

2.1.1 创建数组对象 21

2.1.2 生成随机数 27

2.1.3 通过索引访问数组 29

2.1.4 变换数组的形态 31

任务2.2 掌握NumPy矩阵与通用函数 34

2.2.1 创建NumPy矩阵 34

2.2.2 掌握ufunc函数 37

任务2.3 利用NumPy进行统计分析 41

2.3.1 读/写文件 41

2.3.2 使用函数进行简单的统计分析 44

2.3.3 任务实现 48

小结 50

实训 50

实训1 创建数组并进行运算 50

实训2 创建一个国际象棋的棋盘 50

课后习题 51

第3章 Matplotlib数据可视化基础 52

任务3.1 掌握绘图基础语法与常用参数 52

3.1.1 掌握pyplot基础语法 53

3.1.2 设置pyplot的动态rc参数 56

任务3.2 分析特征间的关系 59

3.2.1 绘制散点图 59

3.2.2 绘制折线图 62

3.2.3 任务实现 65

任务3.3 分析特征内部数据分布与分散状况 68

3.3.1 绘制直方图 68

3.3.2 绘制饼图 70

3.3.3 绘制箱线图 71

3.3.4 任务实现 73

小结 77

实训 78

实训1 分析1996 2015年人口数据特征间的关系 78

实训2 分析1996 2015年人口数据各个特征的分布与分散状况 78

课后习题 79

第4章 pandas统计分析基础 80

任务4.1 读/写不同数据源的数据 80

4.1.1 读/写数据库数据 80

4.1.2 读/写文本文件 83

4.1.3 读/写Excel文件 87

4.1.4 任务实现 88

任务4.2 掌握DataFrame的常用操作 89

4.2.1 查看DataFrame的常用属性 89

4.2.2 查改增删DataFrame数据 91

4.2.3 描述分析DataFrame数据 101

4.2.4 任务实现 104

任务4.3 转换与处理时间序列数据 107

4.3.1 转换字符串时间为标准时间 107

4.3.2 提取时间序列数据信息 109

4.3.3 加减时间数据 110

4.3.4 任务实现 111

任务4.4 使用分组聚合进行组内计算 113

4.4.1 使用groupby方法拆分数据 114

4.4.2 使用agg方法聚合数据 116

4.4.3 使用apply方法聚合数据 119

4.4.4 使用transform方法聚合数据 121

4.4.5 任务实现 121

任务4.5 创建透视表与交叉表 123

4.5.1 使用pivot_table函数创建透视表 123

4.5.2 使用crosstab函数创建交叉表 127

4.5.3 任务实现 128

小结 130

实训 130

实训1 读取并查看P2P网络贷款数据主表的基本信息 130

实训2 提取用户信息更新表和登录信息表的时间信息 130

实训3 使用分组聚合方法进一步分析用户信息更新表和登录信息表 131

实训4 对用户信息更新表和登录信息表进行长宽表转换 131

课后习题 131

第5章 使用pandas进行数据预处理 133

任务5.1 合并数据 133

5.1.1 堆叠合并数据 133

5.1.2 主键合并数据 136

5.1.3 重叠合并数据 139

5.1.4 任务实现 140

任务5.2 清洗数据 141

5.2.1 检测与处理重复值 141

5.2.2 检测与处理缺失值 146

5.2.3 检测与处理异常值 149

5.2.4 任务实现 152

任务5.3 标准化数据 154

5.3.1 离差标准化数据 154

5.3.2 标准差标准化数据 155

5.3.3 小数定标标准化数据 156

5.3.4 任务实现 157

任务5.4 转换数据 158

5.4.1 哑变量处理类别型数据 158

5.4.2 离散化连续型数据 160

5.4.3 任务实现 162

小结 163

实训 164

实训1 插补用户用电量数据缺失值 164

实训2 合并线损、用电量趋势与线路告警数据 164

实训3 标准化建模专家样本数据 164

课后习题 165

第6章 使用scikit-learn构建模型 167

任务6.1 使用sklearn转换器处理数据 167

6.1.1 加载datasets模块中的数据集 167

6.1.2 将数据集划分为训练集和测试集 170

6.1.3 使用sklearn转换器进行数据预处理与降维 172

6.1.4 任务实现 174

任务6.2 构建并评价聚类模型 176

6.2.1 使用sklearn估计器构建聚类模型 176

6.2.2 评价聚类模型 179

6.2.3 任务实现 182

任务6.3 构建并评价分类模型 183

6.3.1 使用sklearn估计器构建分类模型 183

6.3.2 评价分类模型 186

6.3.3 任务实现 188

任务6.4 构建并评价回归模型 190

6.4.1 使用sklearn估计器构建线性回归模型 190

6.4.2 评价回归模型 193

6.4.3 任务实现 194

小结 196

实训 196

实训1 使用sklearn处理wine和wine_quality数据集 196

实训2 构建基于wine数据集的K-Means聚类模型 196

实训3 构建基于wine数据集的SVM分类模型 197

实训4 构建基于wine_quality数据集的回归模型 197

课后习题 198

第7章 航空公司客户价值分析 199

任务7.1 了解航空公司现状与客户价值分析 199

7.1.1 了解航空公司现状 200

7.1.2 认识客户价值分析 201

7.1.3 熟悉航空客户价值分析的步骤与流程 201

任务7.2 预处理航空客户数据 202

7.2.1 处理数据缺失值与异常值 202

7.2.2 构建航空客户价值分析关键特征 202

7.2.3 标准化LRFMC模型的5个特征 206

7.2.4 任务实现 207

任务7.3 使用K-Means算法进行客户分群 209

7.3.1 了解K-Means聚类算法 209

7.3.2 分析聚类结果 210

7.3.3 模型应用 213

7.3.4 任务实现 214

小结 215

实训 215

实训1 处理信用卡数据异常值 215

实训2 构造信用卡客户风险评价关键特征 217

实训3 构建K-Means聚类模型 218

课后习题 218

第8章 财政收入预测分析 220

任务8.1 了解财政收入预测的背景与方法 220

8.1.1 分析财政收入预测背景 220

8.1.2 了解财政收入预测的方法 222

8.1.3 熟悉财政收入预测的步骤与流程 223

任务8.2 分析财政收入数据特征的相关性 223

8.2.1 了解相关性分析 223

8.2.2 分析计算结果 224

8.2.3 任务实现 225

任务8.3 使用Lasso回归选取财政收入预测的关键特征 225

8.3.1 了解Lasso回归方法 226

8.3.2 分析Lasso回归结果 227

8.3.3 任务实现 227

任务8.4 使用灰色预测和SVR构建财政收入预测模型 228

8.4.1 了解灰色预测算法 228

8.4.2 了解SVR算法 229

8.4.3 分析预测结果 232

8.4.4 任务实现 234

小结 236

实训 236

实训1 求取企业所得税各特征间的相关系数 236

实训2 选取企业所得税预测关键特征 237

实训3 构建企业所得税预测模型 237

课后习题 237

第9章 家用热水器用户行为分析与事件识别 239

任务9.1 了解家用热水器用户行为分析的背景与步骤 239

9.1.1 分析家用热水器行业现状 240

9.1.2 了解热水器采集数据基本情况 240

9.1.3 熟悉家用热水器用户行为分析的步骤与流程 241

任务9.2 预处理热水器用户用水数据 242

9.2.1 删除冗余特征 242

9.2.2 划分用水事件 243

9.2.3 确定单次用水事件时长阈值 244

9.2.4 任务实现 246

任务9.3 构建用水行为特征并筛选用水事件 247

9.3.1 构建用水时长与频率特征 248

9.3.2 构建用水量与波动特征 249

9.3.3 筛选候选洗浴事件 250

9.3.4 任务实现 251

任务9.4 构建行为事件分析的BP神经网络模型 255

9.4.1 了解BP神经网络算法原理 255

9.4.2 构建模型 259

9.4.3 评估模型 260

9.4.4 任务实现 260

小结 263

实训 263

实训1 清洗运营商客户数据 263

实训2 筛选客户运营商数据 264

实训3 构建神经网络预测模型 265

课后习题 265

附录A 267

附录B 270

参考文献 295

学习笔记

Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。 Jupyter Notebook 的本质是一个 Web 应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化和 markdown。 用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等 。 定义 (推荐学习:Python视频教程) 用户可以通过电子邮件,Dropbox,GitHub 和 Jupyter Notebook Viewer,将 Jupyter Notebook 分享给其他人。 在Jupyter Notebook 中,代码可以实时的生成图像,视频,LaTeX和JavaScript。 使用 数据挖掘领域中最热门的比赛 Kaggle 里的资料都是Jupyter 格式 。 架构 Jupyter组件 Jupyter包含以下组件: Jupyter Notebook 和 ……

本文实例讲述了Python实现的微信好友数据分析功能。分享给大家供大家参考,具体如下: 这里主要利用python对个人微信好友进行分析并把结果输出到一个html文档当中,主要用到的python包为 itchat , pandas , pyecharts 等 1、安装itchat 微信的python sdk,用来获取个人好友关系。获取的代码 如下: import itchatimport pandas as pdfrom pyecharts import Geo, Baritchat.login()friends = itchat.get_friends(update=True)[0:]def User2dict(User): User_dict = {} User_dict["NickName"] = User["NickName"] if User["NickName"] else "NaN" User_dict["City"] = User["City"] if User["City"] else "NaN" User_dict["Sex"] = User["Sex"] if User["Sex"] else 0 User_dict["Signature"] = User["Signature"] if User["Signature"] else "NaN" ……

基于微信开放的个人号接口python库itchat,实现对微信好友的获取,并对省份、性别、微信签名做数据分析。 效果: 直接上代码,建三个空文本文件stopwords.txt,newdit.txt、unionWords.txt,下载字体simhei.ttf或删除字体要求的代码,就可以直接运行。 #wxfriends.py 2018-07-09import itchatimport sysimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']#绘图时可以显示中文plt.rcParams['axes.unicode_minus']=False#绘图时可以显示中文import jiebaimport jieba.posseg as psegfrom scipy.misc import imreadfrom wordcloud import WordCloudfrom os import path#解决编码问题non_bmp_map = dict.fromkeys(range(0x10000, sys.maxunicode + 1), 0xfffd) #获取好友信息def getFriends():……

Python数据分析之双色球基于线性回归算法预测下期中奖结果示例

本文实例讲述了Python数据分析之双色球基于线性回归算法预测下期中奖结果。分享给大家供大家参考,具体如下: 前面讲述了关于双色球的各种算法,这里将进行下期双色球号码的预测,想想有些小激动啊。 代码中使用了线性回归算法,这个场景使用这个算法,预测效果一般,各位可以考虑使用其他算法尝试结果。 发现之前有很多代码都是重复的工作,为了让代码看的更优雅,定义了函数,去调用,顿时高大上了 #!/usr/bin/python# -*- coding:UTF-8 -*-#导入需要的包import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport operatorfrom sklearn import datasets,linear_modelfrom sklearn.linear_model import LogisticRegression#读取文件d……

以上就是本次介绍的Python数据电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对鬼鬼的支持。

注·获取方式:私信(666)