Knowledge hub công nghệ ứng dụng thực chiến tại Việt Nam Weekly digest · Đăng ký →
AI cho công việc

Logistic Regression là gì? Ví dụ về bài toán Logistic Regression in Python cơ bản

Với lượng dữ liệu sẵn có, sức mạnh của việc tính toán và số lượng cải tiến thuật toán tiếp tục tăng lên, tầm quan…

TTrọng Nhân
Theo dõi
Logistic Regression là gì? Ví dụ về bài toán Logistic Regression in Python cơ bản

Với lượng dữ liệu sẵn có, sức mạnh của việc tính toán và số lượng cải tiến thuật toán tiếp tục tăng lên, tầm quan trọng của khoa học dữ liệu và machine learning cũng tăng theo. Logistic Regression là một trong những kỹ thuật cơ bản khi làm việc với dữ liệu được sử dụng rất nhiều trong machine learning. Bài viết dưới đây sẽ giúp bạn có cái nhìn khái quát nhất về  kỹ thuật này.

Logistic Regression là gì?

Logistic regression – Hồi quy logistic là một thuật toán học máy được sử dụng rộng rãi cho các vấn đề liên quan đến phân loại. Ở dạng cơ bản, nó được sử dụng cho bài toán phân loại nhị phân chỉ có hai lớp để dự đoán. Tuy nhiên, với một chút mở rộng và chất xám, logistic regression có thể dễ dàng được sử dụng cho vấn đề phân loại nhiều lớp. 

Để hiểu được logistic regression, ta cần phải hiểu rõ về các khái niệm hồi quy tuyến tính và hàm chi phí không gì khác ngoài việc giảm thiểu tổng các sai số bình phương. 

Mô hình Logistic Regression 

Mô hình Logistic Regression 

Khi nào nên sử dụng Logistic Regression

Vậy khi nào bạn nên sử dụng mô hình hồi quy logistic? Dưới đây là một số ví dụ về các tình huống bạn nên sử dụng mô hình hồi quy logistic:

  • Suy luận: Hồi quy logistic là một mô hình tuyệt vời để hướng tới nếu mục tiêu chính của bạn là suy luận hoặc ngay cả khi suy luận là mục tiêu phụ mà bạn đặt nhiều giá trị vào. Điều này đặc biệt đúng nếu bạn cần đưa khoảng tin cậy hoặc bằng chứng có ý nghĩa thống kê vào phân tích của mình.
  • Mô hình cơ sở: Hồi quy logistic cũng là một lựa chọn tuyệt vời nếu bạn đang tìm kiếm một mô hình cơ sở đơn giản mà bạn có thể sử dụng để so sánh các mô hình học máy phức tạp hơn. Nếu một mô hình phức tạp hơn không thể hoạt động tốt hơn nhiều so với đường cơ sở đơn giản của bạn thì có lẽ tốt hơn hết bạn nên gắn bó với mô hình đơn giản.
  • Xây dựng niềm tin: Vì hồi quy logistic là một mô hình thống kê cổ điển đã được nghiên cứu kỹ lưỡng nên nó thường được các bên liên quan đón nhận nồng nhiệt hơn – những người còn hoài nghi về các mô hình học máy phức tạp. Điều đó có nghĩa là đây là một lựa chọn tuyệt vời để bạn tiếp cận khi bạn vẫn đang xây dựng niềm tin với các bên liên quan còn hoài nghi.

Mô hình Logistic Regression được ứng dụng trong machine learning

Các loại bài toán bài toán Logistic Regression bạn cần biết

Có ba loại hồi quy logistic chính là nhị phân, đa thức và thứ tự (binary, multinomial and ordinal). Chúng khác nhau về cách thực hiện lẫn lý thuyết. Về cơ bản, hồi quy nhị phân xử lý hai giá trị có thể có: có hoặc không. Hồi quy logistic đa thức xử lý ba giá trị trở lên. Và hồi quy logistic thứ tự xử lý ba lớp trở lên theo thứ tự xác định trước.

Binary logistic regression – Hồi quy nhị phân

Hồi quy logistic nhị phân đã được đề cập trước đó trong trường hợp phân loại một đối tượng là động vật hay không phải động vật – đó là một solution đều không/hoặc. Chỉ có hai câu trả lời có thể xảy ra. Khái niệm này thường được biểu diễn dưới dạng 0 hoặc 1 trong mã hóa. Một số ví dụ:

  • Có cho khách hàng ngân hàng vay hay không (kết quả là có hoặc không).
  • Đánh giá nguy cơ ung thư (kết quả cao hay thấp).
  • Liệu đội bóng có thắng trận đấu ngày mai không (kết quả là có hoặc không).

Ứng dụng Multinomial logistic regression

Ví dụ về Binary logistic regression

Multinomial logistic regression – Hồi quy đa thức

Hồi quy logistic đa thức là một mô hình trong đó có nhiều lớp mà một mục có thể được phân loại. Có một tập hợp gồm ba lớp được xác định trước trở lên được thiết lập trước khi chạy mô hình. Ví dụ như:

  • Phân loại văn bản thành các loại ngôn ngữ.
  • Dự đoán liệu một học sinh sẽ vào đại học, trường dạy nghề hay đi làm.
  • Con mèo của bạn thích thức ăn ướt, thức ăn khô hay thức ăn của con người?

Ứng dụng Multinomial logistic regression

Ứng dụng Multinomial logistic regression

Ordinal logistic regression – Hồi quy logistic thứ tự

Hồi quy logistic thứ tự cũng là một mô hình trong đó có nhiều lớp mà một mục có thể được phân loại thành. Tuy nhiên, trong trường hợp này cần phải có thứ tự các lớp. Các lớp không cần phải tương xứng nhau. Khoảng cách giữa mỗi lớp có thể khác nhau. Ví dụ:

  • Xếp hạng nhà hàng từ 0 đến 5 sao.
  • Dự đoán kết quả của thế vận hội Olympic.
  • Đánh giá sự lựa chọn của các ứng cử viên, đặc biệt ở những nơi tổ chức bỏ phiếu theo lựa chọn có xếp hạng.

Ứng dụng Ordinal logistic regression

Ứng dụng Ordinal logistic regression

Các thuật ngữ dùng trong bài toán logistic regression python

Dưới đây là một số thuật ngữ phổ biến liên quan đến Logistic Regression mà bạn có thể bắt cặp thường xuyên:

  • Independent variables – Biến độc lập: Các đặc điểm đầu vào hoặc các yếu tố dự đoán được áp dụng cho các dự đoán của biến phụ thuộc.
  • Dependent variable – Biến phụ thuộc: Biến mục tiêu trong mô hình hồi quy logistic mà bạn đang cố gắng dự đoán.
  • Logistic function – Hàm logistic: Công thức được sử dụng để biểu thị mối liên hệ giữa các biến độc lập và phụ thuộc. Hàm logistic biến đổi các biến đầu vào thành giá trị xác suất trong khoảng từ 0 đến 1, biểu thị khả năng biến phụ thuộc là 1 hoặc 0.
  • Odds – Tỷ lệ: Đó là tỷ lệ giữa điều gì đó xảy ra và điều gì đó không xảy ra, khác với xác suất vì xác suất là tỷ lệ giữa điều gì đó xảy ra với mọi điều có thể xảy ra.
  • Log-odds – Tỷ lệ cược log: Tỷ lệ cược log, còn được gọi là hàm logit, là logarit tự nhiên của tỷ lệ cược. Trong bài toán logistic regression, tỷ lệ log của biến phụ thuộc được mô hình hóa dưới dạng kết hợp tuyến tính của các biến độc lập và biến bị chặn.
  • Coefficient – Hệ số: Các tham số ước tính của mô hình hồi quy logistic, cho thấy các biến độc lập và phụ thuộc có liên quan với nhau như thế nào.
  • Intercept – Chặn: Một thuật ngữ không đổi trong mô hình hồi quy logistic, biểu thị tỷ lệ logarit khi tất cả các biến độc lập bằng 0.
  • Maximum likelihood estimation – Ước tính khả năng tối đa: Phương pháp được sử dụng để ước tính các hệ số của mô hình logistic regression, giúp tối đa hóa khả năng quan sát dữ liệu cho mô hình.

Hiểu rõ các thuật ngữ là việc bắt buộc để giải bài toán logistic regression python

Hiểu rõ các thuật ngữ là việc bắt buộc để giải bài toán logistic regression python

Ví dụ về bài toán logistic regression python cơ bản: Dự đoán các chữ số trong hình ảnh bằng Logistic Regression Classifier trong Python

Chúng ta sẽ sử dụng tập dữ liệu chữ số trong thư viện tìm hiểu scikit để dự đoán giá trị chữ số từ hình ảnh bằng mô hình hồi quy logistic trong Python.

Nhập dữ liệu vào Python

Nhập dữ liệu vào Python

  • Nhập thư viện và các phương thức liên quan của chúng

Nhập thư viện và các phương thức liên quan

Nhập thư viện và các phương thức liên quan

  • Xác định tổng số hình ảnh và nhãn

Xác định tổng số hình ảnh và nhãn

Xác định tổng số hình ảnh và nhãn

  • Hiển thị một số hình ảnh và nhãn của chúng

Hiển thị một số hình ảnh và nhãn

Hiển thị một số hình ảnh và nhãn

  • Chia tập dữ liệu thành tập “training” và “test”

Tập "training" và "test"

Tập “training” và “test”

  • Xuất logistic regression model

Xuất logistic regression model

Xuất logistic regression model

  • Tạo một phiên bản của mô hình và huấn luyện nó

Tạo một phiên bản của mô hình

Tạo một phiên bản của mô hình

  • Dự đoán đầu ra của phần tử đầu tiên của bộ kiểm tra

Dự đoán output

Dự đoán output

  • Dự đoán đầu ra của 10 phần tử đầu tiên của bộ “test”

Dự đoán đầu ra của 10 phần tử đầu

Dự đoán đầu ra của 10 phần tử đầu

  • Dự đoán cho toàn bộ tập dữ liệu

Dự đoán toàn bộ data set

Dự đoán toàn bộ data set

  • Xác định độ chính xác của mô hình

Xác định độ chính xác

Xác định độ chính xác

  • Biểu diễn ma trận confusion trong heat map

Biểu diễn ma trận confusion

Biểu diễn ma trận confusion

  • Trình bày dự đoán và đầu ra thực tế

Trình bày dự đoán và output

Trình bày dự đoán và output

Phân loại là một trong những lĩnh vực quan trọng nhất của học máy và của vai trò Logistic regression Machine Learning cơ bản là vô cùng quan trọng. Theo dõi Cole.vn để tiến vào thế giới rộng lớn của Machine Learning ngay hôm nay.

Theo dõi Cole.vn để tham gia khóa học trí tuệ nhân tạo cũng như cập nhật các kiến thức hữu ích nhất về Machine Learning.

>>Xem thêm: lập trình AI bằng Python

T
Tác giả Cole Blog

Trọng Nhân

Viết về công nghệ, dữ liệu và định hướng nghề thực chiến.

Tác giả trên Cole Blog, phụ trách các bài viết giúp người đi làm học nhanh hơn, hiểu rõ hơn và áp dụng công nghệ vào công việc hiệu quả hơn.

18bài viết12.4kfollowers96klượt đọc

Bài viết khác từ tác giả này

Thảo luận

Đăng nhập để bình luận
Gửi bình luận
C
Cole BlogGợi ý thảo luận

Anh có thể đặt câu hỏi, góp ý hoặc lưu lại insight quan trọng sau khi đọc bài.