“Tản mạn ghi chú về các định lý xác suất”
1. Tại sao người ta thích Định lý Giới hạn Trung tâm (CLT) đến vậy?
Trong thực tế, mỗi loại dữ liệu có thể theo một phân phối khác nhau, khiến việc xây dựng kiểm định hay ước lượng trở nên phức tạp. Vậy làm sao ước lượng và ra quyết định khi không biết rõ phân phối thật sự của dữ liệu?
CLT là lý do giải quyết: “Với cỡ mẫu đủ lớn, phân phối của trung bình mẫu sẽ gần chuẩn, bất kẻ phân phối gốc ra sao” (miễn có kỳ vọng và phương sai hữu hạn).
Điều này vô cùng mạnh vì giúp ta quy về phân phối chuẩn trong phân tích, làm cầu nối giữa lý thuyết và thực hành.
2. Ba định lý quan trọng trong xác suất
Giả sử ta phân công nhiều đội cùng khảo sát chất lượng nước trong một hồ, mỗi đội đều có cỡ mẫu đủ lớn.
2.1. Luật Số lớn Yếu (WLLN)
Cho $X_1, X_2, \dots \overset{\mathrm{i.i.d.}}{\sim} \mathcal{D}$, $\mathbb{E}[\mathcal{D}] = \mu$, $\mathrm{Var}(\mathcal{D}) = \sigma^2 < \infty$.
Ký hiệu trung bình mẫu là $\bar{X}n := \frac{1}{n} \sum{i=1}^n X_i.$ Khi đó,
$$\bar{X}_n \xrightarrow{p} \mu, \text{khi } n \to \infty.$$$$\lim_{n \to \infty} P(|\bar{X}_n - \mu| > \epsilon) = 0, \quad \forall \epsilon > 0.$$Hiểu: Khi cỡ mẫu lớn, đa số kết quả của các đội sẽ gần nhau và gần giá trị thật $\mu$.
2.2. Luật Số lớn Mạnh (SLLN)
Cho $X_1, X_2, \ldots \overset{\mathrm{i.i.d.}}{\sim} \mathcal{D}$, $\mathbb{E}[\mathcal{D}] = \mu$, $\mathbb{E}[|\mathcal{D}|] < \infty$.
$$\mathbb{P}!\left(\lim_{n\to\infty}\bar{X}_n=\mu\right)=1.$$Ghi chú: Điều kiện $\mathbb{E}|X_1|<\infty$ là đủ trong trường hợp i.i.d.; không cần giả thiết phương sai hữu hạn. SLLN $\Rightarrow$ WLLN.
Hiểu: Chỉ với một đội duy nhất, nếu tăng cỡ mẫu rất lớn, trung bình mẫu sẽ gần giá trị thật $\mu$ gần như chắc chắn.
2.3. Định lý Giới hạn Trung tâm (CLT)
Cho $X_1, X_2, \dots \overset{\mathrm{i.i.d.}}{\sim} \mathcal{D}$, $\mathbb{E}[\mathcal{D}] = \mu$, $\mathrm{Var}(\mathcal{D}) = \sigma^2 < \infty$.
Đặt $T_n := \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}}$.
$$T_n \xrightarrow{d} \mathcal{N}(0,1),$$$$\lim_{n \to \infty} F_{T_n}(x) = \Phi(x), \quad \forall x \in \mathbb{R},$$tại các điểm liên tục của $\Phi$.
Hiểu: CLT cho biết hình dạng phân phối của sai số: trung bình mẫu chuẩn hoá sẽ tiệm cận phân phối chuẩn chuẩn hoá $\mathcal{N}(0,1)$ khi cỡ mẫu đủ lớn, dù phân phối gốc không chuẩn.
Điều này cho phép:
- Ước lượng độ biến thiên của kết quả giữa các đội: các trung bình mẫu phân bố quanh $\mu$ theo chuẩn với độ lệch chuẩn $\sigma/\sqrt{n}$.
- Xây dựng khoảng tin cậy, kiểm định giả thuyết.
- Định lượng xem sự khác biệt giữa hai đội có đáng kể về mặt thống kê hay chỉ là dao động ngẫu nhiên.
Nếu sự khác biệt là đáng kể, khả năng cao ít nhất một trong hai đội có vấn đề về đo lường (thiết bị, quy trình, lấy mẫu, ghi chép…).