《赤裸裸的的统计学》

1、过分简化的描述性统计学 :巧合发生,只是引导人们去调查,而不是得出确定的结论

【案例】
亚特兰大某人2008年中了100万美元彩票,2011年又中了100万美元彩票。该事件概率是25万亿分之一,但我们不能仅凭次将其以诈骗罪关进大牢,而是可以调查一下他是否有亲戚在彩票公司工作。

【案例】
吸烟是否有害健康?统计20年后聚会同学的健康状况并不能帮我们研究。
1、吸烟导致的疾病使一部分同学无法去聚会
2、吸烟的原因导致的另一个结果(例如自律性差导致贫穷、酗酒),而这个结果导致样本偏斜

【案例】
血液中某些元素超标,觉得世界末日来了
– 只看到绝对的数字,而没有比较
– 虽然有比较,但没有均值的标准差

精确与准确是有区别的

【案例】
以下两句话可能同时发生
“有6成学校的成绩下滑”,“有八成的学生成绩上升”
“30个州的收入下降”,“70%美国人收入上升”

【案例】中位数与平均数
平均数谬误:“这项减税政策覆盖1亿美国人,人均减税1000美元”,实际上中位数可能只有100美元
中位数谬误:“这种新药把绝症的半数寿命延长两周”,因为右偏使得平均值远大于两周

【案例】百分比也会骗人,会让数据夸大其词
“结核病疗养院的费用增加了500%”:其实很少
“军费开支增加4%”:其实很多
饮用水中的砷含量降低22%:实际上几乎没有变化

【案例】
好医院的死亡率远高于小诊所
用死亡率作为指标将导致医院拒诊

2、回归分析的缺点

  • 只能看出相关关系,不能看出因果关系

【案例】中国之树

3、相关系数

【案例】
“学生的成绩与家中电视机的数量成正比”
并不是说买5台电视机放到家里,学生的成绩就提高了。
而是受过良好教育的父母更有钱买电视,受过良好教育的父母孩子成绩更好

【案例】DNA测序
FBI说第9号染色体吻合的概率是千亿分之一,实际上全美国罪犯超过1000对吻合,这是可能因为:

  1. 人类之间的染色体本身具有相关性
  2. 染色体与犯罪有相关性

【案例】错把不独立认为相互独立
“灾难发生后,去超市买水就行了”:实际上灾难发生后,超市的水早被洗劫了
“飞机4个引擎全快的概率,是1个坏概率的4次方”:实际上4个引擎不是相互独立的
“Var风险控制”:实际上金融危机时,所有机构都受冲击,而急于卖出其它资产

【案例】错把独立事件任务不独立
篮球投篮中的“手感”并不存在

抽样误差

  • 总体中的个体没有以相同的概率被选入与样本
    • 《文学文摘》预测兰登打败罗斯福
    • 医学领域:单纯对比AB两种治疗手段的康复率,一般来说意义不大。

影响思维的几个偏见

  • 发表性偏见 你是研究员,你发现A对B没有关系,基本上无法发表。如果你发现A对B有关系,你基本可以发表。因此杂志上否定性结论远远少于肯定性结论
  • 记忆性偏见 患癌者总是倾向于更多回忆自己不好的生活习惯
  • 幸存者偏见
    • 一个学校每个年级的平均成绩越来越好,是否意味着是好学校?不一定,可能每年都有人辍学
    • 共同基金业绩看起来比较好,因为不好的已经死了
    • 维生素实际上没用,但统计数字表明按时吃维生素的人更健康。答案:按时吃维生素的人更关注健康.同样道理,紫色睡衣对婴儿大脑发育没有影响,但刻意注意睡衣颜色的父母与那种不管的父母不是一类父母。同理还有喝菜汤的人更加健康。

中心极限定理

统计推断和假设检验

南加州的琳达女士被闪电击中4次,概率只有60万分之一,但保险公司不能因此认为她诈骗.因为只是统计学意义上的结果。

第I类错误和第II类错误:

  • 垃圾邮件过滤,漏收一份重要邮件的损失远远大于未能屏蔽一个广告。因此更倾向于第II类错误最小化

  • 癌症筛查 因为第I类错误是致命的,所以更倾向于第I类错误最小化

  • 打击恐怖分子

你的概率计算不对,这对于黑天鹅事件更为要命:
【案例1】金融公司计算 Var 值,其基础上以为各种事件是相互独立的,然后相乘即可得到这个概率。08年金融危机,房屋违约变成了相关事件。
【案例2】飞机上引擎坏掉的概率是十万分之一。如果你是安全官,认为装上2个引擎,坏掉概率是相乘,那你就应该辞职。因为它们不是不相关事件:有可能一群天鹅撞向飞机,导致同时损坏。又例如天气、维护不当,当一个引擎坏掉时,另一个引擎坏掉的概率绝对大于十万分之一
【案例3】 婴儿猝死的概率是亿分之一,某人三个婴儿都猝死(计算得到的概率极低)被判为谋杀,实际上是这个人有基因问题。
【案例4】1)犯罪现场DNA与张三的DNA吻合,2)DNA样本与非本人吻合的概率是百万分之一,你认为张三有罪吗?你不应当投赞成票,

相关关系不等于因果关系

  • 统计表明,自闭症儿童的父母比较冷漠,因此父母的冷漠导致了自闭症。
    1. 因为患者的父母倾向于回忆自己的冷漠,以找到原因等
    2. 某种遗传物质既导致冷漠又导致自闭症。

《统计数字会撒谎》

  • 抽样误差:方法本身的误差,以及样本量太小造成的误差

    约翰斯*霍普金斯大学有1/3的女学生嫁给了大学老师!实际上,该校总共只有3位女学生

  • 抽样框误差:目标总体与抽样总体不一致 总体中的每一个样本,是否有相同几率被选入?

  • 计量误差 物价指数的平均方法

  • 回答偏差:包括有意不回答,无意不回答,回答偏差

调查问卷统计年龄时,35岁远远多于34岁和36岁。这是因为人们回答时,往往取5的倍数

为征兵的年龄普查,为获取救济的年龄普查,结果有很大差别

  • 统计口径不一致

  • 忽略基数

“早上开车生还几率是晚上的4倍,因为晚上事故比早上多4倍” 这可能仅仅因为晚上开车的人更多

类似的谬误: “天气晴朗时驾车比有雾更危险,因为…” “去年飞机事故的死亡人员比1910年多”

  • 因果关系 从统计结论中得出因果关系的过程中,要特别小心

因果无关 因果倒置 存在它因

案例:跳蚤与健康

  • 玩弄图形 数字相差两倍,可视化展现时,用半径相差两倍,给人的视觉感受差4倍(用圆)或8倍(用球)

其它

  • 某城有两家医院,一大一小,某医院出生的婴儿有60%是男孩,请问更可能是哪家医院? 答案:小医院

  • “无证据表明母乳有优势”与“证据表明母乳无优势”的混淆 同样“没有发现阑尾的用处”,“人体不能吸收膳食纤维”

  • 某车辆导航类APP统计研究称,女司机开车水平更高,这是因为男司机的刹车和油门更多,而女司机开车更稳 答案:有一部分性格粗心的女司机,在注册账号时,性别填的是默认(男);特意修改这一项的女司机是心细的那部分。

  • 星巴克反对新的移民政策,因为可以拿难民补贴,美国高科技企业反对新的移民政策,因为可以雇佣低价外籍程序员,美国高校反对新的移民政策,因为通过特殊渠道录取外国高官子弟可以带来大笔收入,一切都是利益,打着冠冕堂皇的幌子,这个世界如果不是自媒体,还真让他们把持住舆论了 ​​​​ 答案:一个主张对不对,归根结底看这个主张本身,而不是帮派或动机。亚当斯密写国富论就是为了自己所代表的资本。
    动机决定正义。歧视。“XX是前人的做法,XX是国外的做法”。这些都是人类为了应对信息不对称而引入的贝叶斯推理方法(类似某种信用背书)。一个比贝叶斯推理更好的方法就是让信息变得对称,深入理解信息本身。(知其然,知其所以然)

《数据造假理论》

2014年成书,以温室气体测量统计为载体,1954年的《How to lie with statistics》未进行系统研究,且已经跟不上新的监管要求,需要改进。

定义、原则、范围

完整的数据造假活动包括:

  1. 原始信息采集与评估;
  2. 造假方案设计;
  3. 假数据生成;
    • 采集有偏的原始数据(如使用错误的统计方法获取原始数据);
    • 利用有偏的原始数据(如使用不完整但正确的原始数据);
    • 伪造或篡改原始数据;
    • 对原始数据进行有偏的解读或计算,得出存在倾向性的结果
  4. 报告。

广义上的“数据造假”是指“利用某种手段,使得依赖该数据所作的决策可能因为此行为得以变化或修正,实现操作者的主观企图”。

数据造假的基本原则有三个:

  1. 收益最大化——在不考虑风险等因素的前提下,造假者需按照自身需要权衡造假成本和数据调整所带来的收益;
  2. 风险最小化——使假数据难以被识别,最终作为真实的数据而被使用者或第三方接受;
  3. 责任最小化——即使假数据被使用者或第三方识别出来,作假者也无需承担任何责任。(责任最小化可通过技术、法律和制度层面的一些手段来实现:)
    • 在技术层面,充分利用客观因素实现数据的偏移,例如选择不恰当但符合政策要求的技术和方法应用在数据的收集、处理和深度挖掘(解读)中,造成歪曲事实的次级资料,这种情况属于技术性失真;
    • 在法律层面,由于有些法律条款过于笼统和原则,粗疏有余,细密不足,导致法律的操作性和执行性较差,造假者不会受到惩罚;
    • 在制度层面,数据造假者可从政府部门会发布的各种具有权威性的数据和政策文件中选择对自己有利的信息加以利用,或者与政府利益相捆绑,此做法不仅难以被认定为主观上的造假,还可以强制使用者和第三方接受此类数据。

历史回顾

  • 西方国家:制度完善,造假风险大,因此造假较为隐蔽。由于造假起步早,因此某些手段已经公开化和合理化。
  • 苏联:使用各种专用统计数据规避造假问题。
  • 民主德国:使用各种系数调整、创造新指标规避造假问题。

下面总结 《How to lie with statistics》 提供的造假手段

(1) 内在有偏的样本

通过在统计方案中设置误差,进行有选择的抽样,这样就得到了有偏的样本。有偏的样本对数据使用者来说不具有代表性(无使用价值),但是可以实现数据操作者的主观企图。此做法的巧妙之处在于一方面并未违背统计的透明性原则(统计方案公示,调查过程公开);另一方面依照同样的统计方案开展工作,保证了样本收集的一致性,单纯从统计结果上看难以发现问题。

评价:
制造内在有偏的样本,有两个主要难点:(1)如何在统计方案中隐蔽的设置 误差;和(2)误差的修正——例如今年统计口径变了,取得了预期的结果,但是明年依照同样的统计方案就很难再获得令人振奋的数据了,因此需要采用更巧妙的手段在明年统计中把今年误差修正回去。

(2) 精心挑选的平均数

由于不同类型的数据在分布上呈现不同的特点,而分布特征无法从(算术)平均数中得到,因此平均数无法完整的反应统计样本的真实情况。对于数据操作者来说,对平均数的利用属于有偏样本的进一步加工,最终得到所期望的结果。
评价:
《How to Lie with Statistics》中利用平均数歪曲事实的案例在 21 世纪已经是过时的做法。在中国即使是受教育程度不高的群体,面对很多平均数时也会指出自己“被平均”了,并要求提供更多的信息如众数和中位数等。
然而,对于采用优良做法得到的平均数,即使提供完整的数据分布图,其中的问题也难以被发现——这是因为那些自认为“被平均”的人根本就没被纳入统计范围内。所以平均数的制作比解读更有技术含量。

(3) 没有被披露的数据

选择符合数据操作者主观企图的小样本数据,并隐瞒样本量过小这一问题,这样就将缺乏代表性的结论包装成了具有科学性和充分性的事实。或者,隐瞒关键问题,通过发布不完整的信息和根据这些信息得出的结论,而误导数据使用者去接受另一种结论。例如 1948 年一些电力公司的广告中描述“今天,超过 3/4 的美国农场接上了电……”但“接上”并不意味着所有这些农场已接通了电,只能说明电线从那些农场经过,或铺设在离农场技术或上百英里的范围之内。

评价:
利用信息完整性进行数据操作可取得相当好的效果,但也是数据造假中最难的手段之一,需要操作者具有高超的水平。这是因为随着社会发展,很多法律、标准、规范或指南文件逐步完善,文件中的条款对数据的统计范围和收集方法提出了明确的要求。数据操作者需要调研海量的文件,并对其中的每个条款进行深入分析、研究,再结合自身情况发现其中潜在的漏洞。然后,通过 偷换概念、使用虚假或预期理由、循环论证、利用语词歧义 等手段,曲解条款或使条款无效化。
不管是财务审计还是能源的 MRV,核查证据的完整性和充分性对核证者来说都是有挑战的,所以利用信息完整性进行数据操作具有很好的欺骗性和隐蔽性。

(4) 毫无意义的工作

在统计数据中不可避免的会包含一些随机误差,在对比不同数据的大小时,有时难以评价一些微小的差异是否是随机误差导致的。但是根据这些微小的误差而下定论,可以起到夸大甚至歪曲事实的效果。

评价:
理解原书中的此章节需要读者具备一定程度的数理统计知识。

(5) 令人惊奇的图形

对于统计图形,改变横坐标与纵坐标的比例关系,就可以制造出客观性幻觉,得到看似很理想的数据增长或下降趋势。而且由于改变图形的比例关系并不影响数值的大小,因此不存在任何的伪造。 例如,虽然两个产品之间只有 5%的性能差距,但是通过改变横坐标轴的跨度,可让 5%的差异产生 50%的效果。
另外,更隐蔽的一种方式是省略部分坐标轴,并在图形上标注实际数据而不是比例

评价:
通过图形来营造客幻觉的方法常见于各种媒体。由于图形的使用者是缺乏专业知识又没时间仔细分析数据的普通大众,因此往往能起到很好的效果。

(6) 一维图形的滥用

使用形象图形比较两种或两种以上事物的具体数量时,在一维空间(如柱状图的高度)上按照比例来描述物体数量,但在二维空间(也就是图片)上画出一个三维物体。由于三维物体的体积与长度呈三次 方的关系,因此若某物体在一维长度上被放大至 n 倍时,其体积相应的被放大到 n^3倍(面积则是 n^2倍)。

评价:
这种视觉欺骗方法并不能改变数值大小,目前已不流行。

(7) 不完全匹配的资料

将收集到的原始数据与看上去极像,但其实无关的信息相混淆,得出支持数据操作者所期望的结论,这种挂羊头卖狗肉式的数据分析方法与利用信息完整性造假的手段相似,但更侧重对原始数据的解读。

评价:
利用不完全匹配的资料对事实进行歪曲的做法,在社会各领域都有广泛的应用。数据操作者可以阅读《How to Lie with Statistics》原文,以获得更多的参考案例。

(8) 相关关系的误解

两个事物之间在数量上呈现出一定的相关性,但这种情况并不能用于说明其中一个将引起另一个的变化。数据操作者利用混淆相关关系与因果关系,可以对数据进行歪曲的解读。

评价:
混淆相关关系与因果关系,属于“怎么用统计数据说谎”的范畴,而不是怎么做假数据,因此本报告不再做过多介绍,读者可以阅读原文以获得更多信息。

(9) 如何进行统计操纵

《How to Lie with Statistics》原书中在此章介绍了很多案例,介绍了统计数据是如何被歪曲的,进一步丰富了数据操作的参考资料。

评价:
原书此章所介绍的一些案例也可归类于前面的章节。由此可见,对于数据造假方法,很难做到有条理的一一归类。虽然数据造假的各种方法之间存在很大相似性,但适用于实际情况时,方法的选择受到客观因素限制,难以形成固定模式。

3种通用形式

4种方案

数据造假选项方法 如何实现数据偏移 典型应用  
Ⅰ.极值推算法 以最理想情况作为假设条件外推数据,用于数据的预测或估算。 使用看似合理的主观推断和真实客观的原始数据,有理有据的对数据进行歪曲的预测。 学术文献、专家意 见、目标规划、节 能技改项目的节能 量计算。  
  Ⅱ.模糊边界法 对统计口径或计算方法进行操作,实现数据的调整。 造成统计范围上的差异。重复计算、漏算或在引入不匹配的数据。 对数据的采集与计算方法有书面文件要求的情况。
  Ⅱ-A.地理边界 在统计中使用不一致的地理边界,尤其是利用地理边界随时间 变化等客观因素偷换边界。 造成统计范围上的差异,使数据发生重复计算或漏算。 各类与能耗相关的 统计活动,尤其是 以企业法人为主体 的统计活动。
  Ⅱ-B.时间边界 在统计中使用不一致的时间跨度,或调整某个事件发生的时间。 造成统计范围上的差异,使数据发生重复计算或漏算。 各类与能耗相关的统计活动,尤其是对假技改项目进行包装。
  Ⅱ-C.双(多)重基准线 将不同基准线下的结果进行比较,得到错误的计算方法。 将不匹配的数据纳入计算中,得到无实际意义的结果。 在专业性较强的技术类文件中进行隐蔽的造假活动。
  Ⅲ.平衡调整法 某个数据人为调整后,对其他相关联的数据也进行修改,使各数据和指标均控制在合理范围内。 对整套系统中的数据进行操作,得到具有合理性和一致性的假数据。 可行性研究报告,环境影响评价报告,以及各种需要应对核查的情况。
  Ⅳ.模拟计算法 通过对真实数据进行分析,制造出以假乱真的符合造假者主观企图的假数据。 按照主观需求得到仿真数据。 真实数据难以获得或需要对真实数据进行大幅度修改的情况。

1. 极值推算法

例如,经济发展是S型曲线,但隐瞒后一段,理解成线性关系然后用直线(更过分的是指数)来回归预测。

极值推算法的必要证据清单 :

  • 客观证据(A) : 使用易被核证的证据,直观的反映证据真实性。
  • 假设(h)
    • 使用具有权威性的证据,如从政府渠道发布的文件、国家标准、 可行性研究报告等;
    • 证明假设(h)是行业的常用做法;
    • 不宜在计算中引入过多的假设;
    • 不宜引用学术性质的文献。

使用极值推算法时不宜提供以下信息:

  • 隐含假设(h’)
    • 客观证据(A)与结果(B)之间不呈线性关系的事实需要隐瞒。 与此事实相关的任何证据均不宜让审核方获得。
  • 实际监测数据
    • 假设(h)所覆盖的时间段内的任何实际监测数据均不宜让审核方获得,包括与能耗有关的定期记录、累积数据、工况数据等。
    • 与结果(B)相关的财务证据根据本卷后文“模糊边界法”中的原则,减弱其时效性和匹配性。
    • 对于其他存在关联性的,不利于假设(h)的证据,建议采用变更统计原则等手段使相关信息之间不匹配(不具备可比性)。

极值推算法需要提供的必要证据在四种数据造假的选项方法中是最少的,然而不宜提供的负面证据却很多。
所以,在使用极值推算法时,需要造假者(企业)设计并实施一套信息管理方案以确保核查人员无法获取负面信息。

累积偏差的修正

采用极值推算法后得到的结果与实际情况之间的偏差会越来越大,最终会导致结果严重偏离事实。需要数据操作者在不推翻现有结论的同时,对偏差进行处理。
读者需要结合自身实际情况,对累积偏差进行修正。常见的做法是对历史数据进行修正,例如降低历史数据以保持数据的增长趋势。使用这种做法有两个前提:一是修改的理由充分,二是数据提供者不对历史数据的准确性承担责任。

累积偏差的修正还可以结合本卷之后其他的数据造假选项方法,例如利用模糊边界法使历史数据不再具有任何意义,整个统计活动得以推导重来。

模糊边界法

模糊边界法是适用范围广泛的数据造假形式,通过歪曲调查的客体实现数据的偏移。此选项方法具有很高的隐蔽性,若灵活运用可以将数据造假的风险和责任降至最低的程度。然而在造假方案的设计中如何引入此方法对造假者的个人能力提出了很高的要求。

整理出了三种模糊边界法的数据造假形式,分别是模糊地理边界、时间边界(跨度)、和多重基准线法。这些选项方法的优良做法是:依托真实的原始信息,实现数据的重复计算、漏算、或将不匹配的数据纳入计算中,同时降低各个证据之间的关联性。

必要证据清单

  • 文件依据
    • 提供确定地理边界的文件依据,如政策或标准等;
    • 在任意时间段,地理边界的确定依据宜保持一致。
  • 符合性证据
    • 证明地理边界的确定方法符合文件中的要求。
  • 地理边界内的各种证据
    • 提供足够数量的地理边界内的各种信息;
    • 在地理边界已经发生变化的前提下,核查人员对边界内各种 证据的核查是无意义的。
  • 能源消费的财务信息 (可选)
    • 对于企业层面的 MRV 活动,尤其是涉及多厂区的情况,宜提 供宏观的能源消费信息,如能源外购记录,并且原始凭证中 不宜出现具体的位置信息。

模糊时间边界

模糊时间边界法通常用于财务数据的造假活动中。由于财务数据是离散的,且做帐的依据是人为制定的各种文件和公允做法,所以不管是责权发生时间还是收付实现时间都可以通过各种手段进行调整。

双(多)重基准线法

双(多)重基准线法是模糊边界法的一种特殊情况,

双(多)重基准线法的必要证据清单:

  • 文件依据
    • 提供数据计算或比较的依据,如政策或标准等;
    • 优先使用有权威性的证据。
  • 符合性证据
    • 证明数据造假者的做法符合文件中的要求

不宜提供以下信息:

  • 原始数据的定义
    • 参与计算的每一类数据的详细介绍;
    • 行业内的技术文献,尤其是教材性质的文献。

平衡调整法

平衡调整法就是在某个系统内,对部分关键数据进行调整以实现数据操作者的主观企图,同时还对体系内的其他数据也进行必要的调整,以满足各个数据之间的关联性。采用本选项方法的数据造假活动不仅需要遵守特定行业的专业技术知识,还需要使各个数据以及根据数据得出的结论在任何情况下都服从基本的数学和物理学定律(即必然的数量关系)。在造假方案的设计过程中,优良做法是尽可能减少或避免对原始数据的篡改或伪造。

平衡调整法在数据造假活动中的应用原则如下:

  1. 确保每一类型的数据内部保持平衡,各个指标合理;
  2. 特定类型数据完成平衡调整后,还要保证不同信息之间的一致性;
  3. 对于动态数据谨慎使用平衡调整法。

模拟计算法

模拟计算法是指根据数据操作者主观企图,使用各种手段,生成具有倾向性数据的一种做法。由于可能涉及真实数据的篡改或伪造,优良做法是提高数据生成质量,消除负面证据,必要时与平衡调整法联用。

倍率调整法 是采用一个或多个系数,对原始数据按比例的进行调整,此方法可以很好的保持数据之间的相关性。需要分析被调整量在整个生产活动中的敏感性,避免出现调整幅度过大的问题,并且要注意动态数据按比例调整后的方差变化问题。

干扰法 是对监测设备的数据采集过程施加影响,使其生成有偏差的原始数据。

失败案例:1. 核查发现,某厂某工序加入火碱前后,PH值不变。2. 某炉子拆除后,仍然有二氧化硫数据传来。