Tags: statistics
2022 在计量 2 课上想的问题
1 原理
想用非参数方法估计一个连续型随机变量的 pdf, 目前有样本 \(x_1,\ldots, x_n\). 从连续型随机变量的 pdf 定义出发, 是概率分布函数的导数, \(\lim_{h\to 0}\frac{F(x+h)-F(x-h)}{2h}\) , 于是我们用这个式子来估计 pdf. \[ PDF(x) = \frac{1}{2nh}\sum_{i=1}^n \mathbb{I}(\frac{x_i-x}{h}\leq 1) \] 然后随便找点损失函数,用数值方法优化一下 h,这样可以得到 pdf 的一个非参数估计 根据 pdf 的定义,h 是应该趋于 0 的,那么上式中 h 该取 0,但是由于样本数量有限,是抽样得来的,所以不能这样做。那么很自然的想到,在 x 的 h 邻域内的这些点也不应该有相同的权值,越靠近 x 对我估计的 pdf 的贡献应该越大,课程上这样引入了其他核函数。 上面使用的核函数就是简单的指示函数 \(\mathbb{I}(\frac{x_i-x}{h}\leq 1)\) 在\(x_i\)于\(x\)距离不超过\(h\)时为 1,其他为 0. 新的核函数要让\(x_i\)于\(x\)距离不超过\(h\)时越靠近\(x\)权值越高,远离 x 权值就低。2 问题
现在产生了两个问题: 1. 核函数是分段函数,把上面估计 pdf 的式子中的指示函数换成其他分段的核函数也会让产生的 pdf 有很多不可导的点,能否直接\(x_i\)于\(x\)距离不超过\(h\)这个限制,通过核函数直接加权。比如核函数为标准正态分布 pdf,核函数不分段,最后生成的一定是一个处处可导的 pdf。 2. 什么样的核函数可用? 来看第二个问题,见到了两个核函数,标准正态分布 pdf 和 \[ k(x)= \begin{cases} \frac{3}{4}(1-x^2),\quad &x\leq 1 \\ 0,\quad & \text{otherwise} \end{cases} \] 他们的特点是在\(\mathbb{R}\)上的积分都是 1. 如果用 \(k'(x)=100*k(x)\) 拟合出的 pdf 基本上是真实 pdf 的 100 倍 同学(易大师)给出了一个简单证明: