Chỉ số skewness và kurtosis là gì và dùng để làm gì?

Dương Trạng

8 tháng trước

Chỉ số skewness và kurtosis là gì và dùng để làm gì?

Bài viết này sẽ trình bày về hai khái niệm quan trọng: Skewness và Kurtosis, cùng hai phương pháp phổ biến nhất để kiểm tra phân phối chuẩn.

Trước tiên, chúng ta sẽ tìm hiểu về hình dạng của phân phối. Hình dạng của bất kỳ phân phối nào có thể được mô tả bằng hai chỉ số: Skewness và Kurtosis. Hai chỉ số này đo mức độ “bị méo mó, lệch trái, lệch phải” so với hình dạng của phân phối chuẩn.

Chỉ số Kurtosis là gì?

Chỉ số Kurtosis đo độ nhọn hoặc độ bẹt của phân phối so với phân phối chuẩn. Giá trị dương cho biết phân phối tương đối nhọn và giá trị âm cho biết phân phối tương đối bẹt. Các phân phối cao hơn hoặc nhọn hơn phân phối chuẩn được gọi là “leptokurtic”, trong khi phân phối bẹt hơn được gọi là “platykurtic”.

Chỉ số Skewness là gì?

Trong khi Kurtosis liên quan đến chiều cao của phân phối, Skewness được sử dụng để mô tả sự cân bằng của phân phối. Nghĩa là, phân phối có cân bằng không, hay nó lệch về một phía (phải hoặc trái) hay nó có trụ sở và đối xứng với cùng một hình dạng ở cả hai bên? Nếu một phân phối không cân bằng, nó sẽ bị lệch (skew). Giá trị skewness dương biểu thị sự dịch chuyển của phân phối sang trái, trong khi skewness âm phản ánh sự dịch chuyển sang phải.

Giá trị Skewness và Kurtosis của phân phối chuẩn luôn bằng 0. Do đó, giá trị nằm trên hoặc dưới 0 cho biết mức độ khác biệt so với phân phối chuẩn.

Làm thế nào để kiểm tra phân phối chuẩn

Có một số phương pháp tiếp cận khác nhau để đánh giá tính chuẩn của phân phối, nhưng chúng chủ yếu có thể được phân loại thành hai loại: phân tích đồ thị và kiểm định thống kê. Phương pháp phân tích đồ thị được phát triển để đánh giá tính chuẩn của phân phối mà không cần tính toán phức tạp. Chúng cung cấp cho nhà nghiên cứu cái nhìn sâu hơn về các đặc điểm của phân phối so với giá trị định lượng duy nhất, nhưng cũng có hạn chế trong sự trực quan vì diễn đạt bằng hình ảnh không chính xác hơn so với các phép đo thống kê.

Phân tích đồ thị để xác định phân phối chuẩn

Phương pháp kiểm tra đơn giản nhất để đánh giá tính chuẩn là sử dụng biểu đồ so sánh giữa các giá trị quan sát với phân phối xấp xỉ của phân phối chuẩn. Mặc dù đơn giản nhưng phương pháp này có ưu điểm với các mẫu có kích thước nhỏ, trong trường hợp này, việc xây dựng biểu đồ có thể làm sai lệch quan sát và vô ích trong phân tích. Một phương pháp đáng tin cậy hơn là sử dụng biểu đồ xác suất chuẩn, so sánh phân phối tích lũy của các giá trị quan sát thực tế với phân phối tích lũy của phân phối chuẩn. Nếu phân phối là chuẩn, đường biểu diễn phân phối dữ liệu thực tế sẽ tiến gần đường chéo.

Kiểm định thống kê để xác định phân phối chuẩn

Một quy tắc kiểm định đơn giản để xác định tính chuẩn của phân phối dựa trên giá trị Skewness và Kurtosis. Giá trị thống kê z cho Skewness được tính như sau:

z=skewness/(sqrt(6/N)) , với N là kích thước mẫu.

Giá trị thống kê z cho Kurtosis được tính như sau:

z=kurtosis/(sqrt(24/N)) , với N là kích thước mẫu.

Nếu giá trị z vượt quá giá trị critical, phân phối được xem như không chuẩn. Giá trị critical cho phân phối z phụ thuộc vào mức ý nghĩa thống kê được đặt ra. Các giá trị thông thường là +-2.58 (ở mức ý nghĩa 10%) và +-1.96 (ở mức ý nghĩa 5%).

Có hai phương pháp kiểm định khác cho phân phối chuẩn là kiểm định Shapiro-Wilks và kiểm định Kolmogorov-Smirnov. Mỗi kiểm định đều cho ra mức ý nghĩa thống kê để so sánh với phân phối chuẩn. Lưu ý rằng mẫu có kích thước nhỏ hơn 30 sẽ cho ra kết quả không chính xác.

Vì vậy, tốt nhất là kết hợp cả hai phương pháp phân tích đồ thị và kiểm định thống kê để xác định xem phân phối có tuân theo phân phối chuẩn hay không.