PCAt-SNE là hai thuật toán giảm số chiều dữ liệu (Dimensionality Reduction) rất nổi tiếng trong Machine Learning và Data Science. Tuy nhiên, mặc dù cùng có mục tiêu giảm số chiều, chúng được thiết kế cho mục đích hoàn toàn khác nhau.


Tổng quan

Dữ liệu nhiều chiều
        │
        ▼
Dimensionality Reduction
        │
 ┌──────┴──────┐
 ▼             ▼
PCA           t-SNE
(Linear)      (Non-linear)

1. PCA (Principal Component Analysis)

Khái niệm

PCA (Principal Component Analysis) là một thuật toán giảm số chiều tuyến tính bằng cách tìm các hướng (gọi là Principal Components) sao cho dữ liệu có phương sai lớn nhất khi chiếu lên các hướng đó.

Nói đơn giản:

PCA tìm cách "xoay" hệ trục tọa độ để giữ lại nhiều thông tin nhất với ít chiều hơn.


Ví dụ trực quan

Giả sử dữ liệu ban đầu có 2 chiều:

Y
↑

      •
    •
  •
•
────────────────────→ X

Các điểm gần như nằm trên một đường chéo.

PCA sẽ tìm hướng đó:

          PC1
         ↗
      •
    •
  •
•

Thay vì dùng 2 chiều (X, Y), chỉ cần dùng 1 chiều (PC1) mà vẫn giữ được phần lớn thông tin.


Mục tiêu