KOMPONEN UTAMA POPULASI (POPULATION PRINCIPAL COMPONENTS)

Juli 3rd, 2021

Analisis komponen utama (principal component analysis) berkenaan dengan menjelaskan struktur variansi-kovariansi sejumlah variabel yang banyak menggunakan variabel-variabel baru (yang selanjutnya disebut komponen-komponen) yang jumlahnya lebih sedikit, di mana setiap komponen merupakan kombinasi linier dari variabel-variabel lama. Banyaknya komponen dapat dipilih atau ditetapkan sedemikian hingga total variansi yang dihasilkan komponen-komponen tersebut hampir sama banyak dengan total variansi variabel-variabel asalnya. Dengan demikian, informasi dalam komponen-komponen tersebut hampir sama banyak dengan informasi dalam variabel-variabel semula. Selain itu, komponen-komponen yang terbentuk saling ortogonal satu sama lain. Dengan kata lain, komponen-komponen tersebut tidak berkorelasi satu dengan yang lainnya.

Komponen-komponen yang dihasilkan jarang diperlakukan sebagai tujuan akhir dalam statistika multivariat. Komponen-komponen ini seringkali diperlukan dalam menerapkan analisis statistika multivariat lainnya seperti regresi berganda, analisis kluster, dan analisis faktor.

 

Misalkan vektor acak X’ = [X1, X2, …, Xp] memiliki matriks kovariansi \Sigma dengan nilai-nilai eigen \lambda_1 \geq \lambda_2 \geq \ldots \geq \lambda_p \geq 0. Perhatikan p buah kombinasi linier berikut:

Dengan demikian:

Var(Yi) = {\vec{a}_i}^{\: \prime} \Sigma \vec{a}_i  ; i = 1, 2, …, p

Cov(Yi,Yk) = {\vec{a}_i}^{\: \prime} \Sigma \vec{a}_k  ; i, k = 1, 2, …, p

Komponen-komponen utama didefinisikan sebagai Y1, Y2, …, Yp yang saling ortogonal sedemikian hingga Var(Yi) maksimal untuk i = 1, 2, …, p.

Dengan memperhatikan pendefinisian Yi, masalah yang ditemukan adalah bahwa Var(Yi) dapat dibuat sebesar mungkin dengan cara mengalikan \vec{a}_i dengan konstanta yang sebesar mungkin. Untuk meniadakan masalah ini, ditambahkan syarat baru, yaitu \vec{a}_i haruslah merupakan vektor satuan. Karena itu komponen-komponen utama didefinisikan sebagai berikut.

Komponen utama pertama = kombinasi linier {\vec{a}_1}^{\: \prime} X yang memaksimalkan Var({\vec{a}_1}^{\: \prime} X) dengan {\vec{a}_1}^{\: \prime} \cdot \vec{a}_1 = 1 .
Komponen utama kedua = kombinasi linier {\vec{a}_2}^{\: \prime} X yang memaksimalkan Var({\vec{a}_2}^{\: \prime} X) dengan {\vec{a}_2}^{\: \prime} \cdot \vec{a}_2 = 1 dan Cov({\vec{a}_1}^{\: \prime} X, {\vec{a}_2}^{\: \prime} X) = 0.
Pada langkah ke-i,
Komponen utama ke-i = kombinasi linier {\vec{a}_i}^{\: \prime} X yang memaksimalkan Var({\vec{a}_i}^{\: \prime} X) dengan {\vec{a}_i}^{\: \prime} \cdot \vec{a}_i = 1 dan Cov({\vec{a}_i}^{\: \prime} X, {\vec{a}_k}^{\: \prime} X) = 0 untuk k < i.

 

Dalil 1

Misalkan \Sigma adalah matriks kovariansi dari vektor acak X’ = [X1, X2, …, Xp]. Misalkan pula \Sigma memiliki pasangan-pasangan nilai eigen – vektor eigen ({\lambda}_1, \vec{e}_1}), ({\lambda}_2, \vec{e}_2}), \ldots , ({\lambda}_p, \vec{e}_p}) dengan \lambda_1 \geq \lambda_2 \geq \ldots \geq \lambda_p \geq 0. Maka komponen utama ke-i adalah sebagai berikut:

Yi = {\vec{e}_i}^{\: \prime} X = ei1X1 + ei2X2 + … + eipXp untuk i = 1, 2, …, p
Akibat selanjutnya:

Var(Y_i) = {\vec{e}_i}^{\: \prime} \Sigma \vec{e}_i = \lambda_i  ; i = 1, 2, …, p

Cov(Y_i,Y_k) = {\vec{e}_i}^{\: \prime} \Sigma \vec{e}_k = 0 jika i \neq k.

Jika ada beberapa \lambda_i yang sama nilainya maka \vec{e}_i (dan karena itu Yi) tidak tunggal.

 

Contoh
Misalkan vektor acak X’ = [X1, X2, X3, X4] memiliki matriks kovariansi sebagai berikut.

\Sigma = \begin{pmatrix}30 & -8 &  -8 & 4 \\ -8 & 32 & 12 & -28 \\ -8 & 12 & 13 & -3 \\ 4 &  -28 & -3 & 45 \end{pmatrix}

Untuk menentukan komponen-komponen utama, hitung terlebih dahulu nilai-nilai eigen dan vektor-vektor eigen yang bersesuaian. Vektor-vektor eigen dipilih yang bernorma 1. Nilai-nilai eigen (diurutkan mulai dari yang terbesar hingga yang terkecil) dan vektor eigen yang bersesuaian adalah sebagai berikut.

Menurut Dalil 1, komponen-komponen utamanya adalah:
Y1 = -0,229 X1 + 0,622 X2 + 0,197 X3 – 0,722 X4
Y2 = 0,861 X1 – 0,028 X2 – 0,328 X3 – 0,387 X4
Y3 = 0,447 X1 + 0,477 X2 + 0,618 X3 + 0,437 X4
Y4 = -0,075 X1 + 0,620 X2 – 0,687 X3 + 0,371 X4

Juga menurut Dalil 1:

Var(Y1) = \lambda_1 = 71,224
Var(Y2) = \lambda_2 =31,511
Var(Y3) = \lambda_3 =14,343
Var(Y4) = \lambda_4 =2,923

 

Dalil 2

Misalkan vektor acak X’ = [X1, X2, …, Xp] memiliki matriks kovariansi \Sigma dengan pasangan-pasangan nilai eigen – vektor eigen ({\lambda}_1, \vec{e}_1}), ({\lambda}_2, \vec{e}_2}), \ldots , ({\lambda}_p, \vec{e}_p}) di mana \lambda_1 \geq \lambda_2 \geq \ldots \geq \lambda_p \geq 0. Misalkan Y_1 = {\vec{e}_1}^{\: \prime} X, Y_2 = {\vec{e}_2}^{\: \prime} X, \ldots , Y_p = {\vec{e}_p}^{\: \prime} X adalah komponen-komponen utamanya. Maka jumlah variansi X1, X2, …, Xp sama dengan jumlah variansi Y1, Y2, …, Yp.

 

Berdasarkan salah satu hasil dari Dalil 1 yaitu Var(Y_i) = {\vec{e}_i}^{\: \prime} \Sigma \vec{e}_i = \lambda_i untuk i = 1, 2, …, p, secara singkat Dalil 2 menyimpulkan:

Pada contoh kasus di atas, \sum_{i=1}^{4} Var(Y_i) = λ1 + λ2 + λ34 = 71,224 + 31,511 + 14,343 + 2,923 = 120,001. Jumlah nilai-nilai pada diagonal matriks \Sigma tak lain adalah \sum_{i=1}^{4} Var(X_i) = σ11 + σ22 + σ33 + σ44 =  30 + 32 + 13 + 45 = 120. Ini sesuai dengan kesimpulan Dalil 2.

 

Dalil 3

Jika Y_1 = {\vec{e}_1}^{\: \prime} X, Y_2 = {\vec{e}_2}^{\: \prime} X, \ldots , Y_p = {\vec{e}_p}^{\: \prime} X adalah komponen-komponen utama yang diperoleh dari matriks kovariansi \Sigma maka koefisien korelasi antara komponen Yi dan variabel Xk adalah \rho_{Y_i,X_k} = \frac{e_{ik} \sqrt{\lambda_i}}{\sqrt{\sigma_{kk}}} untuk i, k = 1, 2, …, p dengan ({\lambda}_1, \vec{e}_1}), ({\lambda}_2, \vec{e}_2}), \ldots , ({\lambda}_p, \vec{e}_p}) adalah pasangan-pasangan nilai eigen – vektor eigen bagi \Sigma.

 

Sebagai contoh penerapan Dalil 3, misalnya kita ingin mengetahui berapa besar korelasi antara Y4 dan X1. Dari persamaan Y4 = -0,075 X1 + 0,620 X2 – 0,687 X3 + 0,371 X4 kita peroleh e41 = -0,075. Dari hasil penerapan Dalil 1, sudah diperoleh bahwa λ4 = 2,923. Dari matriks kovariansi diperoleh σ11 = 30. Selanjutnya dari Dalil 3 diperoleh \rho_{Y_4,X_1} = \frac{-0,075 \sqrt{2,923}}{\sqrt{30}} \approx -0,023. Dengan cara serupa diperoleh korelasi antara Y4 dan X2 sebesar \rho_{Y_4,X_2} = \frac{0,620 \sqrt{2,923}}{\sqrt{32}} \approx 0,187.

 

Untuk mengukur seberapa penting variabel Xk dalam komponen Yi, sebagian ahli statistika menggunakan eik sedangkan sebagian lagi menggunakan \rho_{Y_i,X_k}. Salah satu alasan mengapa tidak menggunakan \rho_{Y_i,X_k}  adalah bahwa nilai tersebut hanya mengukur kontribusi univariat Xk terhadap Yi, yaitu tanpa menunjukkan pentingnya Xk terhadap Yj dengan adanya variabel X yang lain. Khususnya, Rencher dalam Johnson dan Wichern (2002) merekomendasikan penggunaan eik, bukan \rho_{Y_i,X_k}. Namun, Johnson dan Wichern (2002) menyatakan “Walaupun koefisien-koefisien dan korelasi dapat menghasilkan peringkat yang berbeda sebagai ukuran pentingnya variabel-variabel terhadap suatu komponen, pengalaman kami menyimpulkan peringkat-peringkat ini seringkali tidak jauh berbeda.” dan mereka merekomendasikan bahwa baik eik maupun \rho_{Y_i,X_k} keduanya diperhatikan dalam menafsirkan komponen utama.

Di bagian awal artikel ini telah disinggung bahwa yang dihasilkan analisis komponen utama adalah variabel-variabel baru (dinamakan komponen) yang lebih sedikit dari variabel-variabel asalnya namun dengan mempertahankan sebanyak mungkin total variansi variabel-variabel asal. Dengan dipertahankannya sebagian besar variabilitas dalam variabel-variabel asal, komponen-komponen yang dihasilkan dapat menggantikan variabel-variabel lama. Hal ini dapat didemonstrasikan sebagai berikut.

 

Pada contoh kasus di atas, misalnya kita hanya ingin menggunakan dua komponen, yaitu Y1 dan Y2. Berapa bagian dari total variansi variabel asal yang dipertahankan secara bersama oleh Y1 dan Y2? Proporsi total variansi populasi yang dipertahankan komponen utama pertama (yaitu Y1) adalah \frac{\lambda_1}{\lambda_1 + \lambda_2 + \lambda_3 + \lambda_4} = \frac{\lambda_1}{\sigma_{11} + \sigma_{22} + \sigma_{33} + \sigma_{44}} = \frac{71,224}{30+32+13+45} = 59,35%. Proporsi total variansi populasi yang dipertahankan komponen kedua, Y2, adalah \frac{\lambda_2}{\lambda_1 + \lambda_2 + \lambda_3 + \lambda_4} = \frac{\lambda_2}{\sigma_{11} + \sigma_{22} + \sigma_{33} + \sigma_{44}} = \frac{31,511}{30+32+13+45} = 26,26%. Alhasil, apabila kita menggunakan hanya dua komponen untuk menggantikan variabel-variabel semula maka proporsi total variansi yang dipertahankan kedua komponen itu adalah 59,35% + 26,26% = 85,61%. Dengan demikian kita dapat mengganti X1, X2, X3, X4 dengan dua variabel baru (yang dinamakan komponen) Y1 dan Y2. Akibat penggantian ini adalah sebagian besar (85,61%)  dari total variansi dipertahankan.

 

Referensi

Johnson, R. A.&Wichern, D.W. (2002). Applied Multivariate Statistical Analysis (5th ed.). Pearson Education

International.

 

 

 

 

 

Tagging:

Most visitors also read :



Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *