dbo:abstract
|
- A főkomponens-analízis vagy főkomponens-elemzés (angolul Principal Component Analysis, rövidítve PCA) egy többváltozós statisztikai eljárás, mely az adatredukciós módszerek közé sorolható, s a faktoranalízis egy speciális esetének tekinthető. Lényege, hogy egy nagy adathalmaz ─ melynek változói kölcsönös kapcsolatban állnak egymással ─ dimenzióit lecsökkentse, miközben a jelen lévő varianciát a lehető legjobban megtartja. Ezt úgy hajtja végre, hogy egy segítségével az adathalmaz lehetségesen korreláltatható változóit lineárisan korrelálatlan változók értékkészletévé alakítja át, melyeket főkomponenseknek nevezünk. A főkomponensek száma kisebb vagy egyenlő az eredeti változók számával. A transzformáció oly módon meghatározott, hogy az első főkomponens rendelkezik a lehető legnagyobb varianciával (vagyis az adatok akkora mértékű szóródását magyarázza, amekkora lehetséges), s minden utána következő komponens a fennmaradó legnagyobb varianciával fog rendelkezni, ha megfelel annak a feltételnek, hogy merőleges (azaz korrelálatlan) az azt megelőző komponensekre. A főkomponensek merőlegesek, mivel a – ami szimmetrikus ─ sajátvektorai. A főkomponens-analízis érzékeny az eredeti változók relatív skálázására. A főkomponens-analízist Karl Pearson alkotta meg 1901-ben, a mechanikában használt tehetetlenségi nyomaték elmélet analógiájára; később, tőle függetlenül, is kidolgozta 1933-ban, elterjedését azonban a számítógépek megjelenésének köszönheti. Az eljárást elsősorban a használják és a előállításában. A főkomponens-analízis elvégezhető egy kovariáns (vagy korrelációs) adatmátrix sajátértékeinek dekompozíciójával vagy egy adatmátrix szinguláris értékeinek dekompozíciójával, azután, hogy minden jellemzőre elvégeztük az adatmátrix mintaátlag igazítását (és normalizálását vagy Z-értékek használatát). A főkomponens-analízis eredményét általában komponens pontszámban, vagy faktorszkórban (adott adatpontnak megfelelő transzformált változó érték) és töltésben (az a súly, amellyel minden eredeti, standardizált változót meg kell szorozni, ahhoz, hogy megkapjuk a komponens pontszámokat) kifejezve értelmezzük. A főkomponens-analízis a legegyszerűbb a sajátvektor-alapú többváltozós elemzések közül. Működése felfogható úgy, mint az adat belső struktúrájának feltárása oly módon, hogy az a legjobban magyarázza az adathalmaz szóródását. Ha egy többváltozós adathalmaz egy nagy-dimenziós adattérben koordináták halmazaként ábrázolt, a főkomponens-analízis egy alacsonyabb dimenziójú képet szolgáltathat a felhasználó számára, a leginformatívabb nézőpontból nézve az objektum egy levetítése vagy „árnyéka” által. Ez az első néhány főkomponens felhasználásával történik úgy, hogy a transzformált adat dimenzióit lecsökkentjük. A főkomponens-analízis szorosan összefügg a faktoranalízissel és a . A faktoranalízis több doménium specifikus feltételt épít be a mögöttes struktúráról és egy kissé eltérő mátrix sajátvektoraival dolgozik. A kanonikus korrelációelemzés egy olyan koordináta rendszert határoz meg, mely két adathalmaz közti kereszt-kovarianciát írja le optimálisan, míg a főkomponens-analízis egy olyan, új ortogonális koordináta rendszert határoz meg, mely egyetlen adathalmaz varianciáját írja le optimálisan. (hu)
- A főkomponens-analízis vagy főkomponens-elemzés (angolul Principal Component Analysis, rövidítve PCA) egy többváltozós statisztikai eljárás, mely az adatredukciós módszerek közé sorolható, s a faktoranalízis egy speciális esetének tekinthető. Lényege, hogy egy nagy adathalmaz ─ melynek változói kölcsönös kapcsolatban állnak egymással ─ dimenzióit lecsökkentse, miközben a jelen lévő varianciát a lehető legjobban megtartja. Ezt úgy hajtja végre, hogy egy segítségével az adathalmaz lehetségesen korreláltatható változóit lineárisan korrelálatlan változók értékkészletévé alakítja át, melyeket főkomponenseknek nevezünk. A főkomponensek száma kisebb vagy egyenlő az eredeti változók számával. A transzformáció oly módon meghatározott, hogy az első főkomponens rendelkezik a lehető legnagyobb varianciával (vagyis az adatok akkora mértékű szóródását magyarázza, amekkora lehetséges), s minden utána következő komponens a fennmaradó legnagyobb varianciával fog rendelkezni, ha megfelel annak a feltételnek, hogy merőleges (azaz korrelálatlan) az azt megelőző komponensekre. A főkomponensek merőlegesek, mivel a – ami szimmetrikus ─ sajátvektorai. A főkomponens-analízis érzékeny az eredeti változók relatív skálázására. A főkomponens-analízist Karl Pearson alkotta meg 1901-ben, a mechanikában használt tehetetlenségi nyomaték elmélet analógiájára; később, tőle függetlenül, is kidolgozta 1933-ban, elterjedését azonban a számítógépek megjelenésének köszönheti. Az eljárást elsősorban a használják és a előállításában. A főkomponens-analízis elvégezhető egy kovariáns (vagy korrelációs) adatmátrix sajátértékeinek dekompozíciójával vagy egy adatmátrix szinguláris értékeinek dekompozíciójával, azután, hogy minden jellemzőre elvégeztük az adatmátrix mintaátlag igazítását (és normalizálását vagy Z-értékek használatát). A főkomponens-analízis eredményét általában komponens pontszámban, vagy faktorszkórban (adott adatpontnak megfelelő transzformált változó érték) és töltésben (az a súly, amellyel minden eredeti, standardizált változót meg kell szorozni, ahhoz, hogy megkapjuk a komponens pontszámokat) kifejezve értelmezzük. A főkomponens-analízis a legegyszerűbb a sajátvektor-alapú többváltozós elemzések közül. Működése felfogható úgy, mint az adat belső struktúrájának feltárása oly módon, hogy az a legjobban magyarázza az adathalmaz szóródását. Ha egy többváltozós adathalmaz egy nagy-dimenziós adattérben koordináták halmazaként ábrázolt, a főkomponens-analízis egy alacsonyabb dimenziójú képet szolgáltathat a felhasználó számára, a leginformatívabb nézőpontból nézve az objektum egy levetítése vagy „árnyéka” által. Ez az első néhány főkomponens felhasználásával történik úgy, hogy a transzformált adat dimenzióit lecsökkentjük. A főkomponens-analízis szorosan összefügg a faktoranalízissel és a . A faktoranalízis több doménium specifikus feltételt épít be a mögöttes struktúráról és egy kissé eltérő mátrix sajátvektoraival dolgozik. A kanonikus korrelációelemzés egy olyan koordináta rendszert határoz meg, mely két adathalmaz közti kereszt-kovarianciát írja le optimálisan, míg a főkomponens-analízis egy olyan, új ortogonális koordináta rendszert határoz meg, mely egyetlen adathalmaz varianciáját írja le optimálisan. (hu)
|