Site icon Blog Dương Trạng

MSE và RMSE là gì và cách tính trên STATA

MSE và RMSE là gì và cách tính trên STATA

MSE và RMSE là gì và cách tính trên STATA

Hình ảnh về MSE và RMSE

Xin chào tất cả mọi người, hôm nay tôi sẽ hướng dẫn các bạn về hai chỉ số quan trọng trong hồi quy tuyến tính: MSE và RMSE. Hai chỉ số này có thể được sử dụng để đánh giá độ tin cậy của mô hình hồi quy tuyến tính. Trong khi R-squared đánh giá độ tin cậy theo cách tăng giá trị, thì RMSE (Root Mean Squared Error) càng gần 0 thì mô hình càng tin cậy, cho thấy ít sai số nhất. RMSE giúp xác định mức độ tin cậy mà mô hình đem lại.

Bây giờ chúng ta sẽ tìm hiểu cách tính và ý nghĩa của chúng.

Trước khi tìm hiểu về RMSE, chúng ta phải hiểu MSE là gì. Khi bạn hiểu được MSE, bạn sẽ hiểu rõ hơn về RMSE.

Giải thích tổng quan:

Theo Wikipedia:

Sai số bình phương trung bình (MSE) của một công cụ ước tính (trong trường hợp số lượng quan sát không thể quan sát được) đo trung bình bình phương của các sai số, tức là chênh lệch bình phương trung bình giữa các giá trị dự đoán và giá trị quan sát. MSE là một hàm rủi ro, tương ứng với giá trị kỳ vọng của lỗi bình phương. MSE thường có giá trị dương (không phải bằng 0) do tính ngẫu nhiên hoặc do việc không xem xét thông tin có thể cung cấp các ước tính chính xác hơn.

MSE còn được gọi là sai số bình phương trung bình hoặc lỗi bình phương trung bình. Khi nói về lỗi trung bình của một mô hình thống kê cụ thể, rất khó xác định mức độ lỗi là do mô hình hay do yếu tố ngẫu nhiên. MSE cung cấp một độ đo cho phép các nhà nghiên cứu đưa ra tuyên bố như vậy. MSE đơn giản chỉ đề cập đến giá trị trung bình của chênh lệch bình phương giữa dự đoán và giá trị quan sát.

Với:

Bây giờ, chúng ta hãy tính MSE trên STATA bằng bộ dữ liệu đã đăng trước đó. Bạn có thể tham khảo bài trước tại đây.

use https://solieu.vip/data/quyetdinh.dta

Bây giờ, bạn hãy làm theo các bước sau:

Bước 1: Hồi quy ols bình thường (reg…..)

Bước 2: Ước lượng giá trị (predict yhat, xb)

Bước 3: Đặt tên biến và gán giá trị (gen mse = (Y-yhat)^2)

Bước 4: Tính giá trị trung bình của mse (sum mse)

Trong lệnh sum, chúng ta tính được giá trị trung bình của mse = 0.993834

Theo những gì chúng ta biết, R-squared được coi là đơn vị đo chuẩn của một mô hình tuyến tính. Đây cũng là một thước đo mà chúng ta quen thuộc khi nhắc đến mô hình, vì nó cho chúng ta biết mức độ chính xác của mô hình. Tuy nhiên, trong một số trường hợp, R-squared không đảm bảo độ tin cậy cao như những nghiên cứu trước đó đã cho thấy. Đó là lý do tại sao những nghiên cứu gần đây đã chấp nhận R-MSE.

Giải thích tổng quan:

Theo Wikipedia:

Độ lệch bình phương trung bình (RMSD) hoặc lỗi bình phương trung bình (RMSE) là một phép đo thông thường được sử dụng để đo sự khác biệt giữa các giá trị dự đoán (mẫu hoặc dân số) và giá trị quan sát. RMSD đại diện cho căn bậc hai của giá trị trung bình của sự khác biệt này. Các độ lệch này được gọi là phần dư khi áp dụng các tính toán vào mẫu dữ liệu được sử dụng để ước tính, và được gọi là lỗi (hoặc dự đoán sai) khi tính toán trên mẫu ngoài. RMSD được sử dụng để tổng hợp cường độ các lỗi trong dự đoán của mô hình ở nhiều thời điểm khác nhau thành một thước đo duy nhất về khả năng dự đoán. RMSD là đánh giá về độ chính xác của mô hình, so sánh các lỗi dự đoán của các mô hình khác nhau trên cùng một tập dữ liệu cụ thể.

Root Mean Squared Error (RMSE) là sai số chuẩn của phần dư (lỗi dự đoán). Phần dư là một thước đo khoảng cách từ các điểm dữ liệu đến đường hồi quy; RMSE là một thước đo về mức độ phân tán của các phần dư này. Nói cách khác, nó cho chúng ta biết mức độ tập trung các dữ liệu xung quanh đường hồi quy tốt nhất. RMSE thường được sử dụng trong lĩnh vực khí hậu học, dự báo và phân tích hồi quy để kiểm tra kết quả thực nghiệm.

Root Mean Squared Error (RMSE) là một thước đo về hiệu suất của mô hình. Nó thực hiện điều này bằng cách đo sự khác biệt giữa các giá trị dự đoán và giá trị thực tế. RMSE càng nhỏ, tức là tỷ lệ sai số càng nhỏ, đồng nghĩa với việc mô hình đem lại mức độ tin cậy cao nhất.

y^i là giá trị dự đoán

yi là biến độc lập

n = (N – k – 1)

N: số lượng quan sát tổng cộng

k: số lượng biến

Bây giờ, chúng ta hãy tính toán RMSE trên STATA.

Bước 1: Lấy MSE chia cho số quan sát (a)

Bước 2: Tính giá trị trung bình của (a) (b)

Bước 3: Tính căn bậc hai của (b)

Bước 4: Xem kết quả

Sau khi tính được RMSE, chúng ta so sánh với kết quả hồi quy OLS để xem liệu chúng giống nhau hay không. Nếu chúng không khác biệt quá nhiều, tức là tính toán RMSE của chúng ta là chính xác.

Ở đây, chúng ta thấy rằng RMSE của chúng ta khá giống với RMSE của OLS. Vậy là chúng ta đã tính được RMSE. Nếu bạn không chạy mô hình OLS mà chạy mô hình khác, bạn có thể sử dụng phương pháp trên để tính toán RMSE. Điều này có thể hữu ích trong quá trình nghiên cứu hoặc học tập.

Đó là những gì chúng ta đã tìm hiểu về cách tính hai chỉ số mà chúng ta đề cập ở trên. Cảm ơn mọi người đã đọc bài viết này. Hẹn gặp các bạn ở các bài viết tiếp theo. Chúc mọi người thành công.

Trân trọng,

Exit mobile version