- 化学工程与工艺专业实验
- 王爱军 孙初锋
- 16字
- 2025-02-20 23:49:51
第二章 实验数据处理与实验方案设计
2.1 实验数据的误差分析
由于实验方法和实验设备的不完善、周围环境的影响,以及人的观察力、测量程序等限制,实验观测值和真值之间总是存在着一定的差异。人们常用绝对误差、相对误差或有效数字来说明一个近似值的准确程度。为了评定实验数据的精确性或误差,认清误差的来源及其影响,需要对实验的误差进行分析和讨论。由此可以判定哪些因素是影响实验精确性的主要方面,从而在以后的实验中,进一步改进实验方案,缩小实验观测值和真值之间的差值,提高实验的精确性。
2.1.1 误差的基本概念
测量是人类认识事物本质所不可缺少的手段。通过测量和实验能使人们对事物获得定量的概念和发现事物的规律性。科学上很多新的发现和突破都是以实验测量为基础的。测量就是用实验的方法,将被测物理量与所选用作为标准的同类量进行比较,从而确定它的大小。
(1)真值与平均值
真值是待测物理量客观存在的确定值,也称理论值或定义值。通常真值是无法测得的。在实验中,若测量的次数无限多时,根据误差的分布定律,正负误差的出现概率相等。再经过细致地消除系统误差,将测量值加以平均,可以获得非常接近于真值的数值。但是实际上实验测量的次数总是有限的。用有限次测量值求得的平均值只能是近似真值,常用的平均值有以下几种。
①算术平均值。算术平均值是最常见的一种平均值。
设x1、x2、…、xn为各次测量值,n代表测量次数,则算术平均值为:
(2-1)
②几何平均值。几何平均值是将一组n个测量值连乘并开n次方求得的平均值,即:
(2-2)
③均方根平均值。
(2-3)
④对数平均值。在化学反应、热量和质量传递中,其分布曲线多具有对数的特性,在这种情况下表征平均值常用对数平均值。
设两个量x1、x2,其对数平均值为:
(2-4)
应指出,变量的对数平均值总小于算术平均值。当x1/x2≤2时,可以用算术平均值代替对数平均值。
如x1=1、x2=2时,,即x1/x2≤2,引起的误差不超过4.2%。
以上介绍各平均值的目的是要从一组测定值中找出最接近真值的那个值。在化学工程与工艺实验和科学研究中,数据的分布多属于正态分布,所以通常采用算术平均值。
(2)误差的分类
根据误差的性质和产生的原因,一般分为三类。
①系统误差。系统误差是指在测量和实验中由未发觉或未确认的因素所引起的误差,而这些因素影响结果永远朝一个方向偏移,其大小及符号在同一组实验测定中完全相同,实验条件一经确定,系统误差就获得一个客观上的恒定值。
当改变实验条件时,才可能发现系统误差的变化规律。
系统误差产生的原因:测量仪器不良,如刻度不准、仪表零点未校正或标准表本身存在偏差等;周围环境的改变,如温度、压力、湿度等偏离校准值;实验人员的习惯和偏向,如读数偏高或偏低等引起的误差。针对仪器的缺点、外界条件变化影响的大小、个人的偏向,在分别加以校正后,系统误差是可以清除的。
②偶然误差。在已消除系统误差的一切量值的观测中,所测数据仍在末一位或末两位数字上有差别,而且它们的绝对值和符号的变化,时大时小,时正时负,没有确定的规律,这类误差称为偶然误差或随机误差。偶然误差产生的原因不明,因而无法控制和补偿。但是,对某一量值作足够多次的等精度测量后,就会发现偶然误差完全服从统计规律,误差的大小及正负的出现完全由概率决定。因此,随着测量次数的增加,随机误差的算术平均值趋近于零,所以多次测量结果的算术平均值将更接近于真值。
③过失误差。过失误差是一种显然与事实不符的误差,它往往是由实验人员粗心大意、过度疲劳和操作不正确等原因引起的。此类误差无规律可循,只要加强责任感、多方警惕、细心操作,过失误差是可以避免的。
(3)精密度、准确度和精确度
反映测量结果与真实值接近程度的量,称为精确度(也称精度)。它与误差大小相对应,测量的精确度越高,其测量误差就越小。精确度应包括精密度和准确度两层含义。
①精密度。测量中所测得数值重现性的程度,称为精密度。它反映偶然误差的影响程度,精密度高就表示偶然误差小。
②准确度。测量值与真值的偏移程度,称为准确度。它反映系统误差的影响程度,准确度高就表示系统误差小。
③精确度(精度)。它反映测量中所有系统误差和偶然误差综合的影响程度。
在一组测量中,精密度高的准确度不一定高,准确度高的精密度也不一定高,但精确度高,则精密度和准确度都高。
为了说明精密度与准确度的区别,可用下述打靶子例子来说明。图2-1(a)表示精密度和准确度都很好,则精确度高;图2-1(b)表示精密度很好,但准确度却不高;图2-1(c)表示精密度与准确度都不好。在实际测量中没有像靶心那样明确的真值,而是要设法去测定这个未知的真值。

图2-1 精密度和准确度的关系
学生在实验过程中,往往满足于实验数据的重现性,而忽略了数据测量值的准确程度。绝对真值是不可知的,人们只能定出一些国际标准作为测量仪表准确性的参考标准。随着人类认识的推移和发展,可以逐步逼近绝对真值。
(4)误差的表示方法
利用任何量具或仪器进行测量时,总存在误差。测量结果总是不可能准确地等于被测量的真值,而只是它的近似值。测量的质量高低以测量精确度作为指标,根据测量误差的大小来估计测量的精确度。测量结果的误差越小,则认为测量就越精确。
①绝对误差。测量值X和真值A0之差即为绝对误差,通常简称为误差,记作:
D=X-A0 (2-5)
由于真值A0一般无法求得,因而上式只有理论意义。常用高一级标准仪器的示值作为实际值A以代替真值A0。由于高一级标准仪器存在较小的误差,因而A不等于A0,但总比X更接近于A0。X与A之差称为仪器的示值绝对误差,记作:
d=X-A (2-6)
与d相反的数称为修正值,记作:
C=-d=A-X (2-7)
通过检定,可以由高一级标准仪器给出被检仪器的修正值C。利用修正值便可以求出该仪器的实际值A,即
A=X+C (2-8)
②相对误差。衡量某一测量值的准确程度,一般用相对误差来表示。示值绝对误差d与被测量的实际值A的百分比值称为实际相对误差,记作:
(2-9)
以仪器的示值X代替实际值A的相对误差称为示值相对误差,记作:
(2-10)
一般来说,除了某些理论分析外,用示值相对误差较为适宜。
③引用误差。为了计算和划分仪表精确度等级,提出引用误差概念。其定义为仪表示值的绝对误差与量程范围之比。
(2-11)
式中 d——示值绝对误差;
Xn——标尺上限值-标尺下限值。
④算术平均误差。算术平均误差是各个测量点的误差的平均值。
(2-12)
式中 n——测量次数;
di——第i次测量的误差。
⑤标准误差。标准误差也称为均方根误差。其定义为:
(2-13)
式(2-13)适用于无限次测量的场合。实际测量工作中,测量次数是有限的,因此标准误差的计算应采用下式
(2-14)
标准误差不是一个具体的误差,σ的大小只说明在一定条件下等精度测量集合所属的每一个观测值对其算术平均值的分散程度,σ的值越小则说明每一次测量值对其算术平均值分散度就越小,测量的精密度就越高,反之精密度就越低。
在化学工程与工艺专业实验中最常用的U形管压差计、转子流量计、秒表、量筒、电压表等仪表原则上均取其最小刻度值为最大误差,而取其最小刻度值的一半作为绝对误差计算值。
(5)测量仪表精确度
测量仪表的精确等级是用最大引用误差(又称允许误差)来标明的。它等于仪表示值中的最大绝对误差与仪表的量程范围之比的百分数。
(2-15)
式中 δnmax——仪表的最大测量引用误差;
dmax——仪表示值的最大绝对误差;
Xn——标尺上限值-标尺下限值。
通常情况下是用标准仪表校验较低级的仪表。所以,最大示值绝对误差就是被校表与标准表之间的最大绝对误差。
测量仪表的精度等级是国家统一规定的,把允许误差中的百分号去掉,剩下的数字圆整到标准系列就称为仪表的精度等级。仪表的精度等级常以圆圈内的数字标明在仪表的面板上。例如某压力表的允许误差为1.5%,则该压力表的精度等级就是1.5,通常简称1.5级仪表。
仪表的精度等级为a,表明仪表在正常工作条件下,其最大引用误差的绝对值δnmax不能超过的界限,即:
(2-16)
由式(2-16)可知,在应用仪表进行测量时所能产生的最大绝对误差(简称误差限)为:
dmax≤a%·Xn (2-17)
而用仪表测量的最大值相对误差为:
(2-18)
由式(2-17)可以看出,用仪表测量某一被测量所能产生的最大示值相对误差,不会超过仪表允许误差a%乘以仪表测量上限Xn与测量值X的比。在实际测量中为可靠起见,可用下式对仪表的测量误差进行估计,即:
(2-19)
2.1.2 有效数字及其运算规则
在科学与工程中,测量或计算结果总是以一定位数的数字来表示。不是说一个数值中小数点后面位数越多越准确。实验中从测量仪表上所读数值的位数是有限的,位数的多少取决于测量仪表的精度,其最后一位数字往往是仪表精度所决定的估计数字,即一般应读到测量仪表最小刻度的十分之一位。数值准确度大小由有效数字位数来决定。
(1)有效数字
一个数据,其中除了起定位作用的“0”外,其他数字都是有效数字。如0.0037只有两位有效数字,而370.0则有四位有效数字。一般要求测试数据有效数字为4位。要注意的是有效数字不一定都是可靠数字。如测压力所用的U形管压力计,最小刻度是1mm,但我们可以读到0.1mm,如342.4mmHg(1mmHg=133.322Pa)。又如二等标准温度计最小刻度为0.1℃,我们可以读到0.01℃,如15.16℃。此时有效数字为4位,而可靠数字只有三位,最后一位是不可靠的,称为可疑数字。记录测量数值时只保留一位可疑数字。
为了清楚地表示数值的精度,明确读出有效数字位数,常用指数的形式表示,即写成一个小数与相应10的整数幂的乘积。这种以10的整数幂来记数的方法即科学记数法。
如:75200 有效数字为4位时,记为7.520×105
有效数字为3位时,记为7.52×105
有效数字为2位时,记为7.5×105
0.00478 有效数字为4位时,记为4.780×10-3
有效数字为3位时,记为4.78×10-3
有效数字为2位时,记为4.7×10-3
(2)有效数字运算规则
①记录测量数值时,只保留一位可疑数字。
②当有效数字位数确定后,只保留有效数字,其余数字一律舍弃。舍弃办法是四舍六入五成双,即末位有效数字后边第一位小于等于4,则舍弃不计;大于等于6则在前一位数上增1;等于5时,前一位为奇数,则进1为偶数,前一位为偶数,则舍弃不计。如:保留4位有效数字,则
3.71729→3.717
5.14285→5.143
7.62356→7.624
9.37656→9.376
③在加减计算中,各数所保留的位数,应与各数中小数点后位数最少的相同。例如将24.65、0.0082、1.632三个数相加时,应写为24.65+0.01+1.63=26.29。
④在乘除运算中,各数所保留的位数,以各数中有效数字位数最少的那个数为准;其结果的有效数字位数也应与原来各数中有效数字最少的那个数相同。例如:0.0121×25.64×1.05782应写成0.0121×25.64×1.06=0.328。上例说明,虽然这三个数的乘积为0.3281823,但只应取其积为0.328。
⑤在对数计算中,所取对数位数应与真数有效数字位数相同。
2.1.3 误差的基本性质
在化学工程与工艺专业实验中通常直接测量或间接测量得到有关的参数数据,这些参数数据的可靠程度如何?如何提高其可靠性?为此,必须研究在给定条件下误差的基本性质和变化规律。
(1)误差的正态分布
如果测量数列中不包括系统误差和过失误差,从大量的实验中发现偶然误差的大小有如下几个特征。
①绝对值小的误差比绝对值大的误差出现的机会多,即误差的概率与误差的大小有关。这是误差的单峰性。
②绝对值相等的正误差或负误差出现的次数相当,即误差的概率相同。这是误差的对称性。
③极大的正误差或负误差出现的概率都非常小,即大的误差一般不会出现。这是误差的有界性。
④随着测量次数的增加,偶然误差的算术平均值趋近于零。这叫误差的抵偿性。
根据上述的误差特征,描绘出误差出现的概率分布图,如图2-2所示。图中横坐标表示偶然误差,纵坐标表示误差出现的概率,图中曲线称为误差分布曲线,以y=f(x)表示。其数学表达式由高斯提出,具体形式为:
(2-20)
或
(2-21)

图2-2 误差分布
式中 σ——标准误差;
h——精确度指数。
上式称为高斯误差分布定律,也称为误差方程。σ和h的关系为:
(2-22)
若误差按函数关系分布,则称为正态分布。σ越小,测量精度越高,分布曲线的峰越高越窄;σ越大,分布曲线越平坦且越宽,如图2-3所示。由此可知,σ越小,小误差占的比例越大,测量精度越高。反之,则大误差占的比例越大,测量精度越低。

图2-3 不同σ的误差分布曲线
(2)测量集合的最佳值
在测量精度相同的情况下,测量一系列观测值M1,M2,M3,…,Mn所组成的测量集合,假设其平均值为Mm,则各次测量误差为:
xi=Mi-Mm(i=1,2,…,n)
当采用不同的方法计算平均值时,所得到的误差值不同,误差出现的概率也不同。
若选取适当的计算方法,使误差最小,而概率最大,由此计算的平均值为最佳值。根据高斯分布定律,只有各点误差平方和最小,才能实现概率最大,这就是最小二乘法值。由此可见,对于一组精度相同的观测值,采用算术平均得到的值是该组观测值的最佳值。
(3)有限测量次数中标准误差σ的计算
由误差基本概念可知,误差是观测值和真值之差。在没有系统误差存在的情况下,以无限多次测量所得到的算术平均值真值。当测量次数有限时,所得到的算术平均值近似于真值,称为最佳值。因此,观测值与真值之差不同于观测值与最佳值之差。
令真值为A,计算平均值为a,观测值为M,并令d=M-a,D=M-A,则:
d1=M1-a D1=M1-A
d2=M2-a D2=M2-A
… …
dn=Mn-a Dn=Mn-A
∑di=∑Mi-na ∑Di=∑Mi-n A
因为∑Mi-na=0,所以∑Mi=na。代入∑Di=∑Mi-nA中,即得:
(2-23)
将式(2-23)式代入di=Mi-a中得:
(2-24)
将式(2-24)两边分别二次方得:
对i求和得:
因在测量中正、负误差出现的机会相等,故将(ΣDi)2展开后,D1·D2,D1·D3,…,为正为负的数目相等,彼此相消,故得:
从上式可以看出,在有限测量次数中,自算术平均值计算的误差平方和永远小于自真值计算的误差平方和。根据标准误差的定义
式中 ——观测次数无限多时误差的平方和。故当观测次数有限时,有:
(2-25)
(4)可疑观测值的舍弃
由概率积分知,全部随机误差正态分布曲线下的积分,相当于全部误差同时出现的概率,即:
(2-26)
若误差x以标准误差σ的倍数表示,即x=tσ,则在±tσ范围内出现的概率为2Φ(t),超出这个范围的概率为1-2Φ(t)。Φ(t)称为概率函数,表示为:
(2-27)
2Φ(t)与t的对应值在数学手册或专著中均附有此类积分表,读者需要时可自行查取。在使用积分表时,需已知t值。由表2-1和图2-4给出几个典型的及其相应的超出或不超出|x|的概率。
表2-1 误差概率和出现次数


图2-4 误差分布曲线的积分
由表2-1知,当t=3,|x|=3σ时,在370次观测中只有一次测量的误差超过3σ范围。在有限次的观测中,一般测量次数不超过10次,可以认为误差大于3σ,可能是由过失误差或实验条件变化未被发觉等原因引起的。因此,凡是误差大于3σ的数据点应予以舍弃。这种判断可疑实验数据的原则称为3σ准则。
(5)函数误差
上述讨论主要针对的是直接测量的误差计算问题,但在许多场合下,往往会涉及间接测量的变量。所谓间接测量就是将一个被测量转化为若干可直接测量的量加以测量,而后再依据由定义或规律导出的关系式(即测量式)进行计算或作图,从而间接获得测量结果的测量方法。如传热过程中的传热速率测量问题。因此,间接测量值可以看作是直接测量得到的各个测量值的函数。其测量误差是各个测量值误差的函数。
①函数误差的一般形式。在间接测量中,一般为多元函数,而多元函数可用下式表示:
y=f(x1,x2,…,xn) (2-28)
式中 y——间接测量值;
xi——直接测量值。
由泰勒级数展开得:
(2-29)
或
它的最大绝对误差为:
(2-30)
式中 ——误差传递系数;
Δxi——直接测量值的误差;
Δy——间接测量值的最大绝对误差。
函数的相对误差δ为:
(2-31)
②某些函数误差的计算。
a.函数y=x±z的绝对误差和相对误差。由于误差传递系数,则函数最大绝对误差为:
Δy=±(|Δx|+|Δz|) (2-32)
相对误差为:
(2-33)
b.函数形式为(x、z、w为变量)。误差传递系数为:
函数的最大绝对误差为
(2-34)
函数的最大相对误差为
(2-35)
现将某些常用函数的最大绝对误差和相对误差列于表2-2中。
表2-2 某些函数的误差传递公式
