Chuẩn hóa rất hữu íchkhi dữ liệu của bạn có các tỷ lệ khác nhau và thuật toán bạn đang sử dụng không đưa ra giả định về việc phân phối dữ liệu của bạn, chẳng hạn như k-láng giềng gần nhất và nơ-ron nhân tạo mạng lưới. Tiêu chuẩn hóa giả định rằng dữ liệu của bạn có phân phối Gaussian (đường cong hình chuông).
Khi nào chúng ta nên chuẩn hóa dữ liệu?
Dữ liệu nên được chuẩn hóa hoặc chuẩn hóađể đưa tất cả các biến vào tỷ lệ với nhau. Ví dụ: nếu một biến lớn hơn 100 lần so với biến khác (trung bình), thì mô hình của bạn có thể hoạt động tốt hơn nếu bạn chuẩn hóa / chuẩn hóa để hai biến gần như tương đương.
Sự khác biệt giữa chuẩn hóa và tiêu chuẩn hóa là gì?
Chuẩn hóa thường có nghĩa là thay đổi tỷ lệ các giá trị thành một phạm vi [0, 1]. Chuẩn hóa thường có nghĩa là thay đổi tỷ lệ dữ liệu để có giá trị trung bìnhlà 0 và độ lệch chuẩn là 1(phương sai đơn vị).
Khi nào và tại sao chúng ta cần chuẩn hóa dữ liệu?
Nói một cách đơn giản hơn,chuẩn hóa đảm bảo rằng tất cả dữ liệu của bạn trông và đọc theo cùng một cách trên tất cả các bản ghi. Chuẩn hóa sẽ chuẩn hóa các trường bao gồm tên công ty, tên liên hệ, URL, thông tin địa chỉ (đường phố, tiểu bang và thành phố), số điện thoại và chức danh công việc.
Bạn chọn chuẩn hóa và chuẩn hóa như thế nào?
Trong thế giới kinh doanh, "chuẩn hóa" thường có nghĩa là phạm vi giá trị"chuẩn hóa thành từ 0,0đến 1,0 ". "Tiêu chuẩn hóa" thường có nghĩa là phạm vi giá trị được "tiêu chuẩn hóa" để đo lường giá trị có bao nhiêu độ lệch chuẩn so với giá trị trung bình của nó.