数据分析——统计学知识点(二)
一、数据分布是什么?
1.指数分布
描述了事件发生的时间间隔的概率分布。当一个事件发生的概率与时间无关,且事件之间相互独立时,事件的发生服从指数分布。
(2)指数分布典型案例
呼叫中心的来电间隔时间,设备的无故障工作时间,放射性元素的衰变时间
与指数分布相关的著名的二八法则/帕累托法则,它描述了一种关键少数和无关多数的现象。
例如:一个企业80%的利润可能来自于20%的顾客,80%的财富被20%的人口所拥有,20%的员工可能完成80%的工作。
在市场营销、质量管理、人力资源管理多用二八法则。
2.正态分布/高斯分布
特点:其概率密度函数呈现钟形曲线/高斯曲线,关于均值对称,曲线下总面积为1,曲线形状由均值μ和标准差σ决定。均值决定了曲线位置,标准差决定了曲线形状。σ越大,曲线越矮胖;越小曲线越高瘦。
集中趋势:正态分布中,数据集中分布在均值附近。距离均值越远,数据出现的概率越小。
经验法则:约68%的数据包含于区间(μ-σ,μ+σ)
约95%的数据包含于区间(μ-2σ,μ+2σ)
约99.7%的数据包含于区间(μ-3σ,μ+3σ)
独立性和可加性:多个相互独立的正态分布变量之和仍然服从正态分布,且新的均值和方差分别是原均值之和、原方差之和。
中心极限定理:当样本量足够大时(通常>30),来自任意总体的样本均值近似地服从正态分布,且样本均值等于总体均值,方差等于总体方差除以样本量。
(2)应用例子:
①人的身高体重:成年人的身高体重通常服从正态分布,可用于设计合适的服装尺码、评估儿童的生长发育情况
②考试成绩:大规模考试的分数分布往往接近正态分布,可合理设置评分标准,鉴别考试的区分度。
③产品质量:产品的尺寸误差、强度等质量指标通常服从正态分布,利用过程能力指数等工具,可监控生产过程,确保产品质量稳定。
④金融风险:股票收益率通常近似服从正态分布,金融工程中,正态分布是期权定价,风险度量的基础。
⑤测量误差:重复测量下,测量误差往往服从正态分布,利用最大似然估计等方法,可校正测量误差,提高精度。
3.拉普拉斯分布/双指数分布
(1)拉普拉斯分布古关于位置参数μ对称,概率密度在μ处达到最大值1/2b,b为尺度参数。
与正态分布相比,拉普拉斯分布的峰更尖,尾部更厚,这意味着拉普拉斯分布更容易出现异常值或极端事件。
(2)无偏估计
拉普拉斯分布:样本中位数是μ的无偏估计,样本绝对偏差的均值是b的无偏估计。无偏性是评价估计量优劣的重要标准,这一性质使拉普拉斯分布在鲁棒统计中备受青睐。
即使数据受到污染或含有异常值,基于中位数和绝对误差的估计也稳健可靠。
(3)尾部特性
相比正态分布,其尾部更厚,下降更缓慢。
尾部分布意味着极端事件发生的概率更大,风险管理需要更谨慎。
(4)应用举例
①误差分析:测量和实验中,误差分布有时服从拉普拉斯分布,用拉普拉斯分布刻画误差,可提高参数估计和假设检验的效率。
②图像处理:在去噪、特征提取等任务中,假设噪声服从该分布,可得更稳健的滤波器和算法。如:拉普拉斯先验构建正则化项,可以更好地保持图像边缘和纹理。
③金融风险:在金融时间序列如股票收益率、汇率变动中,往往存在尖峰厚尾现象,用拉普拉斯分布刻画风险因子,可以更准确地度量和控制极端风险,如计算在险价值(VaR)等。
4.左偏右偏分布
偏离分布中心的程度在左右两侧不同,称为偏态分布/偏分布。
(1)左偏分布/负偏分布
指数据大部分值集中在右侧,左侧尾部更长。均值通常小于中位数,分布的峰值点位于中位数右侧。典型左偏分布:
①指数分布:描述事件发生的时间间隔,如设备的无故障工作时间。
②泊松分布:描述一定时间内随机事件发生的次数。如每小时顾客到达数。
③对数正态分布:描述乘积因子主导的过程,如个人收入、城市人口等。
(2)右偏分布/正偏分布
指数据的大部分集中在左侧,而右侧的尾部更长,均值通常大于中位数,分布的峰值点位于中位数左侧。典型的右侧分布:
①帕累托分布:描述社会财富分配的不平等性,也称巴拉巴西-阿尔伯特分布
②威布尔分布:描述事件的等待时间,如器件的寿命、降雨量等
③F分布、卡方分布:多用于方差分析、假设检验等统计推断场合
(3)偏度系数
为了定量描述分布的偏态程度,引入偏度系数。偏度系数通过测量均值与中位数的偏离程度来反映分布的不对称性,常见的偏度系数有:
①皮尔逊偏度系数:(均值-众数)/标准差,适用于单峰分布
②矩偏度系数:用分布的三阶中心矩除以标准差的三次方,称为标准化的三阶矩
③中位数-均值差:用(中位数-均值)/标准差来度量,简单易懂
偏度系数为正,表右偏分布;为负,表左偏分布;为0表对称分布。偏度系数的绝对值越大,分布的偏态程度越严重。
(4)应用举例
①收入分布:个人收入分布往往呈现右偏特征,少数人占据了大部分财富,了解收入分布的偏态性,有助于制定合理的税收政策和社会保障制度。
②股票收入:股票日收益率常呈左偏分布,投资者面临的下行风险大于上行风险。风险管理中要充分考虑收益分布的负偏态,控制投资组合的下行风险。
③网络流量:互联网流量如视频点击量、用户访问量常服从长尾分布,表现为右偏特征,挖掘长尾需求,优化资源配置,是互联网企业的重要课题。
5.长尾分布
(1)反映了一种“重要的少数和不重要的多数共存”的现象,同正态分布相比,长尾分布尾部更加肥厚。少数事件概率虽低,但它的累积概率不容忽视。
互联网和电子商务的崛起让长尾现象更普遍
传统书店受制于门店面积,只能销售最畅销的几十种图书,但网上书店不受此限制,通过销售大量非畅销书获得可观利润,这为“长尾效应”。
(2)其他常见分布:
均匀分布描述了随机变量在一个区间内等可能地取任何值的情况,如抛骰子的次数。
泊松分布描述了一定时间内随机事件发生的次数的概率,如一个小时内到达店铺的人数
二项分布描述了n次独立重复实验中成功次数的概率,如抛10次硬币正面朝上的次数。
(3)互联网行业的数据分析应用
数据分析广泛应用于用户行为分析、产品优化、精准营销等,常见:
①用户在线时长服从指数分布,根据二八法则,可重点关注高活跃用户,提供差异化的服务。
②用户年龄、消费金额等服从正态分布或对数正态分布,可利用这些数据划分用户群体制定个性化推荐和营销策略。
③视频网站中不同视频的访问量服从长尾分布,要重视挖掘长尾内容的价值,优化长尾内容的推荐和分发机制。