Site icon Blog Dương Trạng

Hồi quy logistic là gì? Phân biệt Hồi quy tuyến tính và Hồi quy logistic

Hồi quy logistic là gì? Phân biệt Hồi quy tuyến tính và Hồi quy logistic

Hồi quy logistic là gì? Phân biệt Hồi quy tuyến tính và Hồi quy logistic

Hồi quy logistic là gì?

Hồi quy logistic (Logistic regression) là một phương pháp phân tích dữ liệu bằng toán học, được sử dụng để tìm hiểu mối quan hệ giữa các biến số. Sau đó, dựa trên quan hệ tìm được, hồi quy logistic có thể dự đoán kết quả của các biến số dựa trên các biến khác. Hồi quy logistic thường đưa ra kết quả dạng nhị phân, ví dụ như có hoặc không có.

Ví dụ, nếu muốn dự đoán xem một khách truy cập website có nhấp vào nút thanh toán hay không, hồi quy logistic sẽ xem xét hành vi của khách truy cập trước đó, chẳng hạn như thời gian duyệt web và số lượng sản phẩm trong giỏ hàng. Giả sử rằng sau quá trình phân tích, ta nhận thấy rằng mỗi khi khách truy cập duyệt web hơn 5 phút và có hơn 3 sản phẩm trong giỏ hàng, họ sẽ nhấp vào nút thanh toán. Dựa trên thông tin này, mô hình hồi quy logistic sẽ dự đoán hành vi của khách truy cập mới.

Công thức hồi quy logistic

Vì kết quả là một xác suất, nên biến phụ thuộc trong hồi quy logistic sẽ có giới hạn từ 0 đến 1. Trong hồi quy logistic, giá trị logit được tính bằng cách chia xác suất thành công cho xác suất thất bại. Công thức dùng trong hồi quy logistic như sau:

Logit(pi) = 1/(1+ exp(-pi))

ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + Beta_k*X_k

Trong đó:

Tham số Beta được ước tính thông qua nhiều lần lặp. Tất cả các lần lặp này sẽ tạo ra một bộ tham số tốt nhất. Sau khi tìm ra bộ tham số tối ưu, ta tính toán xác suất theo từng điều kiện, ghi lại và tổng hợp để dự đoán xác suất. Xác suất nhỏ hơn ngưỡng xác định (ví dụ: 0.5) sẽ được phân loại là 0, trong khi xác suất lớn hơn 0.5 sẽ được phân loại là 1.

Hồi quy logistic hoạt động như thế nào?

Xác định câu hỏi nghiên cứu: Mọi quá trình phân tích dữ liệu bắt đầu bằng một câu hỏi cụ thể. Đối với hồi quy logistic, câu hỏi cần được xác định rõ ràng để kết quả có ý nghĩa. Ví dụ, câu hỏi “Ngày mưa có ảnh hưởng đến doanh thu hàng tháng hay không?” (câu trả lời có hoặc không).

Thu thập dữ liệu: Sau khi có câu hỏi, bước tiếp theo là xác định các yếu tố liên quan và thu thập dữ liệu lịch sử cho chúng. Ví dụ, để trả lời câu hỏi “Ngày mưa có ảnh hưởng đến doanh thu hàng tháng hay không?”, ta có thể cần thu thập dữ liệu về doanh số hàng tháng kèm theo số ngày mưa trong khoảng ba năm trước đó.

Đào tạo mô hình hồi quy: Dữ liệu lịch sử sẽ được xử lý thông qua một phần mềm hồi quy. Phần mềm sẽ xử lý các điểm dữ liệu và đưa chúng vào phương trình hồi quy.

Các loại mô hình hồi quy logistic

Hồi quy logistic có ba loại mô hình chính:

Hồi quy logistic nhị phân

Trong hồi quy logistic nhị phân (Binary logistic regression), kết quả hoặc biến phụ thuộc mang tính nhị phân – tức là chỉ có hai kết quả có thể xảy ra (ví dụ: 0 hoặc 1). Một số ứng dụng phổ biến của loại mô hình này bao gồm dự đoán email là chính xác hay không, khối u là ác tính hay không. Hồi quy logistic nhị phân là loại mô hình được sử dụng rộng rãi nhất trong hồi quy logistic.

Hồi quy logistic đa thức

Trong hồi quy logistic đa thức (Multinomial logistic regression), biến phụ thuộc có 3 hoặc nhiều giá trị có thể xảy ra; tuy nhiên, các giá trị không có một thứ tự cụ thể.

Ví dụ, các hãng phim muốn dự đoán thể loại phim mà khán giả có thể xem để tối ưu hoá chiến dịch quảng cáo. Mô hình hồi quy logistic đa thức có thể giúp hãng phim xác định mức độ ảnh hưởng của tuổi, giới tính và tình trạng quan hệ đến thể loại phim mà người đó yêu thích. Sau đó, hãng phim có thể hướng chiến dịch quảng cáo đến nhóm người có khả năng xem phim đó nhiều nhất.

Hồi quy logistic thứ tự

Trong hồi quy logistic thứ tự (Ordinal logistic regression), biến phụ thuộc có ba hoặc nhiều giá trị có thể xảy ra, nhưng các giá trị này có một thứ tự cụ thể. Ví dụ, điểm lớp từ A đến F hoặc thang đánh giá từ 1 đến 5.

Sự khác biệt giữa hồi quy tuyến tính và hồi quy logistic

Hồi quy tuyến tính và hồi quy logistic là hai kỹ thuật phân tích dữ liệu phổ biến trong khoa học dữ liệu và được sử dụng rộng rãi trong các ngôn ngữ lập trình như Python và R. Cả hai kỹ thuật đều giúp tính toán mô hình dễ dàng và nhanh chóng.

Hồi quy tuyến tính được sử dụng để dự đoán biến phụ thuộc có giá trị liên tục bằng cách sử dụng một tập hợp các biến độc lập cụ thể. Giá trị của các biến liên tục (như giá cả, tuổi, v.v.) được xác định bằng phương pháp ước tính bình phương nhỏ nhất.

Trong khi đó, hồi quy logistic được sử dụng để dự đoán biến phụ thuộc có tính phân loại bằng cách sử dụng một tập hợp các biến độc lập cụ thể. Giá trị của biến phân loại có thể là đúng hoặc sai, có hoặc không, 1 hoặc 0…, được xác định bằng phương pháp ước tính khả năng tối đa.

Mặc dù cả hai kỹ thuật có cùng mục đích là dự đoán kết quả trong tương lai thông qua việc phân tích dữ liệu, hồi quy tuyến tính thường dễ hiểu hơn. Hồi quy tuyến tính cũng không yêu cầu một số mẫu lớn để đại diện cho tất cả các biến độc lập như hồi quy logistic. Khi không đủ mẫu hoặc đặc trưng, mô hình hồi quy logistic có thể không có đủ sức mạnh thống kê để phân tích.

Ứng dụng của hồi quy logistic trong kinh doanh

Các tổ chức sử dụng thông tin từ kết quả hồi quy logistic để cải thiện chiến lược kinh doanh và đạt các mục tiêu như giảm chi phí và tăng ROI (tỷ lệ lợi nhuận đầu tư) trong các chiến dịch marketing.

Ví dụ, trong khi gửi ưu đãi đến khách hàng, một công ty thương mại điện tử muốn biết khả năng khách hàng phản hồi ưu đãi đó là như thế nào: có phản hồi hay không phản hồi. Trong marketing, việc này được gọi là mô hình xu hướng phản hồi (propensity to respond modeling).

Tương tự, một công ty tín dụng có thể phát triển một mô hình hồi quy logistic để dự đoán khả năng một khách hàng vỡ nợ dựa trên các thông tin đặc trưng như thu nhập hàng năm, số lần thanh toán thẻ tín dụng hàng tháng và số lần vỡ nợ trước đó. Đây được gọi là mô hình xu hướng nợ (default propensity modeling).

Tại sao hồi quy logistic quan trọng?

Hồi quy logistic rất quan trọng vì nó biến các phép tính phức tạp liên quan đến xác suất thành một bài toán toán học đơn giản. Mặc dù các phép tính này phức tạp, nhưng các công cụ thống kê hiện đại đã giúp tự động hóa phần lớn công việc khó khăn này. Điều này giúp dễ dàng phân tích tác động của nhiều biến số và giảm bớt yếu tố nhiễu ảnh hưởng đến kết quả.

Kết quả của đó, các nhà thống kê có thể nhanh chóng xây dựng mô hình và xác định tác động của các biến số khác nhau đến kết quả nhất định.

Ví dụ, trong nghiên cứu y học, để xem liệu một loại thuốc có tác động đến kết quả điều trị của các nhóm tuổi khác nhau như thế nào, phải tiến hành nhiều phép toán phức tạp liên quan đến so sánh kết quả giữa các nhóm trẻ tuổi và già tuổi chưa được điều trị, các nhóm trẻ tuổi đã được điều trị, các nhóm già tuổi đã được điều trị và tỷ lệ khỏi bệnh của toàn bộ nhóm. Hồi quy logistic chuyển đổi xác suất tương đối của tất cả các nhóm con này thành một số logarit cho kết quả mong muốn. Các số logarit này cũng có thể được sử dụng để đơn giản hóa các thuật toán học máy khác.

Các trường hợp sử dụng hồi quy logistic

Hồi quy logistic đặc biệt phổ biến trong lĩnh vực quảng cáo trực tuyến. Nó cho phép bộ phận marketing dự đoán khả năng khách truy cập cụ thể nhấp vào quảng cáo.

Một số ứng dụng khác của hồi quy logistic trong các lĩnh vực khác bao gồm:

Hồi quy logistic là một phương pháp phân tích giúp dự đoán xác suất xảy ra của một sự kiện trong tương lai. Bài viết này đã giải thích hồi quy logistic là gì, cách hoạt động và các ứng dụng của nó. Tóm lại, hồi quy logistic là một phương pháp học có giám sát giúp dự đoán các biến phụ thuộc dạng nhị phân. Mô hình cần dữ liệu từ các kết quả thử nghiệm trước đó để dự đoán xác suất trong tương lai.

Exit mobile version