Với lượng dữ liệu sẵn có, sức mạnh của việc tính toán và số lượng cải tiến thuật toán tiếp tục tăng lên, tầm quan trọng của khoa học dữ liệu và machine learning cũng tăng theo. Logistic Regression là một trong những kỹ thuật cơ bản khi làm việc với dữ liệu được sử dụng rất nhiều trong machine learning. Bài viết dưới đây sẽ giúp bạn có cái nhìn khái quát nhất về kỹ thuật này.
Logistic Regression là gì?
Logistic regression – Hồi quy logistic là một thuật toán học máy được sử dụng rộng rãi cho các vấn đề liên quan đến phân loại. Ở dạng cơ bản, nó được sử dụng cho bài toán phân loại nhị phân chỉ có hai lớp để dự đoán. Tuy nhiên, với một chút mở rộng và chất xám, logistic regression có thể dễ dàng được sử dụng cho vấn đề phân loại nhiều lớp.
Để hiểu được logistic regression, ta cần phải hiểu rõ về các khái niệm hồi quy tuyến tính và hàm chi phí không gì khác ngoài việc giảm thiểu tổng các sai số bình phương.
Mô hình Logistic Regression
Khi nào nên sử dụng Logistic Regression
Vậy khi nào bạn nên sử dụng mô hình hồi quy logistic? Dưới đây là một số ví dụ về các tình huống bạn nên sử dụng mô hình hồi quy logistic:
Suy luận: Hồi quy logistic là một mô hình tuyệt vời để hướng tới nếu mục tiêu chính của bạn là suy luận hoặc ngay cả khi suy luận là mục tiêu phụ mà bạn đặt nhiều giá trị vào. Điều này đặc biệt đúng nếu bạn cần đưa khoảng tin cậy hoặc bằng chứng có ý nghĩa thống kê vào phân tích của mình.
Mô hình cơ sở: Hồi quy logistic cũng là một lựa chọn tuyệt vời nếu bạn đang tìm kiếm một mô hình cơ sở đơn giản mà bạn có thể sử dụng để so sánh các mô hình học máy phức tạp hơn. Nếu một mô hình phức tạp hơn không thể hoạt động tốt hơn nhiều so với đường cơ sở đơn giản của bạn thì có lẽ tốt hơn hết bạn nên gắn bó với mô hình đơn giản.
Xây dựng niềm tin: Vì hồi quy logistic là một mô hình thống kê cổ điển đã được nghiên cứu kỹ lưỡng nên nó thường được các bên liên quan đón nhận nồng nhiệt hơn – những người còn hoài nghi về các mô hình học máy phức tạp. Điều đó có nghĩa là đây là một lựa chọn tuyệt vời để bạn tiếp cận khi bạn vẫn đang xây dựng niềm tin với các bên liên quan còn hoài nghi.
Mô hình Logistic Regression được ứng dụng trong machine learning
Các loại bài toán bài toán Logistic Regression bạn cần biết
Có ba loại hồi quy logistic chính là nhị phân, đa thức và thứ tự (binary, multinomial and ordinal). Chúng khác nhau về cách thực hiện lẫn lý thuyết. Về cơ bản, hồi quy nhị phân xử lý hai giá trị có thể có: có hoặc không. Hồi quy logistic đa thức xử lý ba giá trị trở lên. Và hồi quy logistic thứ tự xử lý ba lớp trở lên theo thứ tự xác định trước.
Binary logistic regression – Hồi quy nhị phân
Hồi quy logistic nhị phân đã được đề cập trước đó trong trường hợp phân loại một đối tượng là động vật hay không phải động vật – đó là một solution đều không/hoặc. Chỉ có hai câu trả lời có thể xảy ra. Khái niệm này thường được biểu diễn dưới dạng 0 hoặc 1 trong mã hóa. Một số ví dụ:
Có cho khách hàng ngân hàng vay hay không (kết quả là có hoặc không).
Đánh giá nguy cơ ung thư (kết quả cao hay thấp).
Liệu đội bóng có thắng trận đấu ngày mai không (kết quả là có hoặc không).
Ví dụ về Binary logistic regression
Multinomial logistic regression – Hồi quy đa thức
Hồi quy logistic đa thức là một mô hình trong đó có nhiều lớp mà một mục có thể được phân loại. Có một tập hợp gồm ba lớp được xác định trước trở lên được thiết lập trước khi chạy mô hình. Ví dụ như:
Phân loại văn bản thành các loại ngôn ngữ.
Dự đoán liệu một học sinh sẽ vào đại học, trường dạy nghề hay đi làm.
Con mèo của bạn thích thức ăn ướt, thức ăn khô hay thức ăn của con người?
Ứng dụng Multinomial logistic regression
Ordinal logistic regression – Hồi quy logistic thứ tự
Hồi quy logistic thứ tự cũng là một mô hình trong đó có nhiều lớp mà một mục có thể được phân loại thành. Tuy nhiên, trong trường hợp này cần phải có thứ tự các lớp. Các lớp không cần phải tương xứng nhau. Khoảng cách giữa mỗi lớp có thể khác nhau. Ví dụ:
Xếp hạng nhà hàng từ 0 đến 5 sao.
Dự đoán kết quả của thế vận hội Olympic.
Đánh giá sự lựa chọn của các ứng cử viên, đặc biệt ở những nơi tổ chức bỏ phiếu theo lựa chọn có xếp hạng.
Ứng dụng Ordinal logistic regression
Các thuật ngữ dùng trong bài toán logistic regression python
Dưới đây là một số thuật ngữ phổ biến liên quan đến Logistic Regression mà bạn có thể bắt cặp thường xuyên:
Independent variables – Biến độc lập: Các đặc điểm đầu vào hoặc các yếu tố dự đoán được áp dụng cho các dự đoán của biến phụ thuộc.
Dependent variable – Biến phụ thuộc: Biến mục tiêu trong mô hình hồi quy logistic mà bạn đang cố gắng dự đoán.
Logistic function – Hàm logistic: Công thức được sử dụng để biểu thị mối liên hệ giữa các biến độc lập và phụ thuộc. Hàm logistic biến đổi các biến đầu vào thành giá trị xác suất trong khoảng từ 0 đến 1, biểu thị khả năng biến phụ thuộc là 1 hoặc 0.
Odds – Tỷ lệ: Đó là tỷ lệ giữa điều gì đó xảy ra và điều gì đó không xảy ra, khác với xác suất vì xác suất là tỷ lệ giữa điều gì đó xảy ra với mọi điều có thể xảy ra.
Log-odds – Tỷ lệ cược log: Tỷ lệ cược log, còn được gọi là hàm logit, là logarit tự nhiên của tỷ lệ cược. Trong bài toán logistic regression, tỷ lệ log của biến phụ thuộc được mô hình hóa dưới dạng kết hợp tuyến tính của các biến độc lập và biến bị chặn.
Coefficient – Hệ số: Các tham số ước tính của mô hình hồi quy logistic, cho thấy các biến độc lập và phụ thuộc có liên quan với nhau như thế nào.
Intercept – Chặn: Một thuật ngữ không đổi trong mô hình hồi quy logistic, biểu thị tỷ lệ logarit khi tất cả các biến độc lập bằng 0.
Maximum likelihood estimation – Ước tính khả năng tối đa: Phương pháp được sử dụng để ước tính các hệ số của mô hình logistic regression, giúp tối đa hóa khả năng quan sát dữ liệu cho mô hình.
Hiểu rõ các thuật ngữ là việc bắt buộc để giải bài toán logistic regression python
Ví dụ về bài toán logistic regression python cơ bản: Dự đoán các chữ số trong hình ảnh bằng Logistic Regression Classifier trong Python
Chúng ta sẽ sử dụng tập dữ liệu chữ số trong thư viện tìm hiểu scikit để dự đoán giá trị chữ số từ hình ảnh bằng mô hình hồi quy logistic trong Python.
Nhập dữ liệu vào Python
Nhập thư viện và các phương thức liên quan của chúng
Nhập thư viện và các phương thức liên quan
Xác định tổng số hình ảnh và nhãn
Xác định tổng số hình ảnh và nhãn
Hiển thị một số hình ảnh và nhãn của chúng
Hiển thị một số hình ảnh và nhãn
Chia tập dữ liệu thành tập “training” và “test”
Tập “training” và “test”
Xuất logistic regression model
Xuất logistic regression model
Tạo một phiên bản của mô hình và huấn luyện nó
Tạo một phiên bản của mô hình
Dự đoán đầu ra của phần tử đầu tiên của bộ kiểm tra
Dự đoán output
Dự đoán đầu ra của 10 phần tử đầu tiên của bộ “test”
Dự đoán đầu ra của 10 phần tử đầu
Dự đoán cho toàn bộ tập dữ liệu
Dự đoán toàn bộ data set
Xác định độ chính xác của mô hình
Xác định độ chính xác
Biểu diễn ma trận confusion trong heat map
Biểu diễn ma trận confusion
Trình bày dự đoán và đầu ra thực tế
Trình bày dự đoán và output
Phân loại là một trong những lĩnh vực quan trọng nhất của học máy và của vai trò Logistic regression Machine Learning cơ bản là vô cùng quan trọng. Theo dõi Cole.vn để tiến vào thế giới rộng lớn của Machine Learning ngay hôm nay.
Theo dõi Cole.vn để tham gia khóa học trí tuệ nhân tạo cũng như cập nhật các kiến thức hữu ích nhất về Machine Learning.