Normalizarea este utilă atunci când datele dvs. au scări diferite și algoritmul pe care îl utilizați nu face presupuneri cu privire la distribuția datelor dvs., cum ar fi cei mai apropiați k vecini și neuronale artificiale retelelor. Standardizarea presupune că datele dvs. au o distribuție gaussiană (curbă clopot).
Când ar trebui să normalizăm datele?
Datele ar trebui să fie normalizate sau standardizate pentru a aduce toate variabilele în proporție între ele. De exemplu, dacă o variabilă este de 100 de ori mai mare decât alta (în medie), atunci modelul dvs. se poate comporta mai bine dacă normalizați/standardizați cele două variabile pentru a fi aproximativ echivalente.
Care este diferența dintre normalizare și standardizare?
Normalizarea înseamnă de obicei redimensionarea valorilor într-un interval de [0, 1]. Standardizarea înseamnă de obicei redimensionarea datelor pentru a avea o medie de 0 și o abatere standard de 1 (varianța unității).
Când și de ce avem nevoie de normalizarea datelor?
În termeni mai simpli, normalizare se asigură că toate datele dvs. arată și se citesc la fel în toate înregistrările. Normalizarea va standardiza câmpuri, inclusiv nume de companii, nume de persoane de contact, adrese URL, informații despre adrese (străzi, state și orașe), numere de telefon și titluri de post.
Cum alegi normalizarea și standardizarea?
În lumea afacerilor, „normalizare” înseamnă de obicei că intervalul de valori este„normalizat să fie de la 0,0 la 1,0”. „Standardizare” înseamnă de obicei că intervalul de valori este „standardizat” pentru a măsura câte abateri standard este valoarea de la medie.