数据分析中『平均数』本来并不准确,是时候开始使用『中位数』了
数据分析中『平均数』本来并不准确,是时候开始使用『中位数』了
▲ 点击蓝字查阅TMT行业数据 一1906年,伟大的科学家兼恶心的人种改良倡导者高尔顿 Francis Galton参加了年度西英格兰家畜展,即兴做了个数学实验。
在集会上闲逛的他碰到了一个猜重量竞赛。
人们猜测一只的公牛的重量,猜的最准的人将获得大奖。
高尔顿曾公开鄙视过普通大众的愚笨。
他相信只有专业人士才能做出准确的估测。
787位猜测者中根本没几个专业人士。
为了体现群众的无知,他算出了所有猜测的平均数 而不是当时统计学家常用的中位数:1197磅。
得知实际重量后他吓了一跳:1198磅。
在如今的世界里,我们只能见到平均数的身影:纽约4月均温为52华氏度;库里场均拿到30分……只有在某些统计里 美国家庭年收入中位数为51939美金中位数才会露下头角。
那么,中位数是如何消失的?平均数又是如何成为了当今世界最流行的量数? 二俗称的平均数 average在数学上的其实是算数平均数 arithmetic mean,意为所有数据之和除以数据的个数。
算数平均数中的平均数 mean一词源自拉丁语的中间 medianus。
Mean这一概念最初由希腊数学家毕达哥拉斯提出。
毕达哥拉斯时代的mean并不具有表征作用,它指的只是三个数字中间的那个数字,那个数字必需与两头的数字呈相等的关系。
这三个数字可以是等距 如2,4,6,也可以是等比 如1,10,100。
花了十年时间探寻average和mean起源的统计学家Churchill Eisenhart表示,与现代人依赖于大量数据进行计算不同,早期科学测量非常不准,科学家们需要借助理论来选出多个数据中最好的一个。
正是借助mean这一理论的力量,古希腊天文学家托勒密从极少数的观测中,选择出了31’20作为月球的角直径。
如今我们知道根据所在地点的不同,月球的角直径为29’20到34’6不等。
在英语中,average一词在1500年左右开始出现,指代船只或船上货物受损所带来的经济损失。
如果因为船只受损,船员们必需扔掉一些货物来减轻重量,那投资者就会用arithmetic mean的方式来计算出总体经济损失。
渐渐地,这两个概念融合在了一起,称为了我们通常所说的平均数。
多年之后,科学家才会开始使用一种集中量数来表征一组数据。
但首先站上历史舞台的,不是平均数,也不是中位数,而是中列数。
三科学工具往往是为了解决某些学科内特定问题而创造出来的。
在集中量数的寻找过程中,人们希望解决的问题是为导航而进行的地理测量。
波斯学者比鲁尼。
masmoi11世纪波斯知识界巨匠比鲁尼是集中量数已知最早的使用者之一。
他尝试测量了古城伽兹尼的经度。
那个时代的人们在拿到一组测量数据之后,会去掉两头之间的数据,取最大值和最小值中间的算术平均数。
我们今天把这个数称为中列数 midrange。
Eisenhart发现,17和18世纪时中列数依然盛行。
牛顿和其它航海家为了计算地理位置都使用过中列数。
但近几百年来,在这被平均数占领的世界中,中列数已经下落不明。
四19世纪早期,算术平均数已经成为了一种常用的集中量数。
那个时代最杰出 也最暴躁的数学家高斯在1809年写道:如果要在同一情况下用同种方式,从几次直接观测中选出一个数,那这些数的算术平均数便是最接近真值的数。
习惯上,这假设已经已经被当成一个公理。
这究竟是如何发生的?史书上并没有明确的记载。
Eisenhart发现,算术平均数可能在地理大发现时代被探索磁偏角 磁北方向与正北方向之间的夹角数学家们首次采用。
直到16世纪后期,大部分科学家都在使用某种特定的算法来取测量中的最佳值。
但在1580年,William Borough用了一种新算法,把8个数据结合在了一起,宣称磁偏角在11°15’至11°20’之间。
虽没有明确记载,但他可能用了算术平均数。
1635年时,英国天文学家Henry Gellibrand称为了已知最早使用平均数作为集中量数的人。
一天早上,他测出磁偏角为11°,当天下午则测出11°32’。
然后他写道:如果我们取算术平均数,我们或许能确定,正确的测量为11°16’。
这可能便是人类在使用平均数来估测真值的路上走出的第一步。
五在数学界,中位数几乎是与平均数在同一时间出现。
1599年,数学家Edward Wrights首次在记录中推荐了中位数。
许多支箭射向一个标记,标记被移走,想找出标记原来所在位置的人,或许能想到这样一种方法。
他应该找到箭头最集中的地方:在那么多次观测中,最中央的地方离真值最近。
19世纪时,中位数仍是数据分析中不可或缺的一部分。
在较小的数据集中比较容易计算出中位数。
而且那个时代的人认为中位数比平均数更具普遍性。
高尔顿也是中位数的坚定支持者之一。
Wikimedia 六然而由于平均数独特的统计学性质以及与正态分布的关系,中位数自始至终都被平均数在人气上所压制。
在许多情况下,大量测量出的数据会呈现正态分布 normal distribution。
人类身高、IQ分数、年均气温等数据都会以中间高、两头低的钟形曲线形式分布。
当数据呈正态分布,平均数往往处在钟型曲线的最高点,而绝大部分数据都会处在中位数的旁边。
通过标准差,我们还能计算出距离平均数某段距离内数据的个数。
标准差,即数据内数值与平均数之间距离的平方的平均数的平方根,让平均数在分析实验数据和统计推断方面具有突出的价值。
没有此类特性的中位数渐渐在科学和统计用上失去了光芒。
计算机的出现也让平均数变得更加普及。
编写计算平均数的电脑程序要比编写中位数的程序容易得多。
以至于在Excel中,计算某些数据的中位数都要多下一番功夫。
渐渐地,平均数称为了最被人熟知,但不一定是最好的代表值。
平均数先生,中位数先生,众数先生。
Hannah Holt / Lightbulb Books因为平均数容易受到极端值的影响,所以很多情况下,中位数才是帮助找到分布中心的最好的数值。
许多分析师相信,不分黑白地使用平均数损害了我们对定量信息的理解。
回想一下最近读到过的房屋均价、人均收入等数据,你就能发现,中位数才是最能反映普遍性的代表值。
最富有的1%能极大地改变平均数所处的位置。
正因如此,美国人口普查局决定使用中位数来衡量美国家庭年收入。
平均数同时也很难受到脏数据 dirty data的影响。
随着统计学家需要应对的互联网数据越来越多,当工作人员遇到不准确的数据,或者是打字时多加了一个零,中位数便显现出了自己的优越性。
七随着数据收集和分析在我们的日常生活中的作用不断凸显,我们必需重新审视用来代表这些数字的集中量数。
在一个理想的世界里,分析师会同时使用平均数、中位数和众数,配以图像来展现数据。
但我们生活在精力有限、时间仓促的社会里。
如果只能选择一个数字,我们应该选择中位数。
中位数还是平均数之间的抉择有着重要的意义。
选择了平均数,心理学家容易做出错误的诊断,金融家可能误估市场的发展。
平均数已经统治了人类世界数百个春秋,或许是时候让我们做出一些改变了。
煎蛋199IT 大数据导航以大数据产业为主,大数据工具为辅,汇集超1000 款全球优质数据工具平台,行研首选。
近日新增移动应用ASO工具。
-
- 这个不能出门的假期里 宅家的明星们都在干嘛
-
2025-08-19 06:54:35
-
- 蝙蝠死亡对人类的影响,吃蝙蝠的人怎么样了
-
2025-08-19 06:52:22
-
- 世界各地存在的5大都市传说或未解的谜团
-
2025-08-19 06:50:09
-
- 世界十大灵异事件排行榜 令人震惊的超自然现象
-
2025-08-19 06:47:56
-
- 最长高速公路隧道连接天山南北——新疆天山胜利隧道施工现场探访
-
2025-08-19 06:45:43
-
- 1995年成都僵尸真实事件真相 亚洲10大灵异事件排行榜
-
2025-08-19 06:43:30
-
- 中国朝代顺序表及帝王 中国朝代顺序一览表
-
2025-08-19 06:41:17
-
- 地球史上八大未解的谜团!生命究竟是从何而来?
-
2025-08-19 06:39:04
-
- 未解之谜:科摩罗是哪个国家 科摩罗是哪里的
-
2025-08-19 06:36:51
-
- 我国最长的隧道多少米中国最长的铁路隧道有多深
-
2025-08-19 06:34:38
-
- 激素药有哪几种 激素药有哪几种
-
2025-08-19 06:32:24
-
- 食物相克到底存不存在营养学泰斗87年前就解答过了
-
2025-08-19 06:30:11
-
- 美人鱼真身吓人 恐怖的黑鳞鲛人 最爱吃人肉
-
2025-08-19 06:27:59
-
- 纽约有什么好玩的地方 纽约必去的十大景点
-
2025-08-19 06:25:46
-
- 世界十大不可思议事件真相 不可思议但绝对真实至今无人能解
-
2025-08-19 06:23:33
-
- 史上最大章鱼 史上最大章鱼有多大
-
2025-08-19 06:21:20
-
- 是什么让精神病患者备受歧视
-
2025-08-19 06:19:07
-
- MH370客机失踪最新调查马航370失踪之谜 马航MH370机长故意杀害机上238人
-
2025-08-19 06:16:54
-
- 遇见引力波
-
2025-08-19 06:14:41
-
- 和奶茶分别的第28天,想他——全球这六种奶茶,你知道吗?
-
2025-08-19 06:12:28