TAFSIRAN GEOMETRIS KOMPONEN UTAMA

Juli 8th, 2021

Misalkan terdapat n buah data bivariat. Data tersebut dapat dinyatakan dalam pasangan-pasangan berurut (x1,y1), (x2,y2), …, (xn,yn). Selanjutnya pasangan-pasangan berurut tersebut dapat dipandang sebagai n pasang koordinat yang dapat direpresentasikan dengan sekumpulan titik yang diletakkan di suatu bidang Kartesius. Sebagai contoh, misalkan terdapat 5 buah pasangan data sebagai berikut.

Kelima buah data tsb. dapat dianggap sebagai titik-titik A(0,3), B(2,6), C(5,13), D(5,11), dan E(8,22) yang selanjutnya dapat digambarkan sebagai berikut.

Untuk menentukan matriks variansi-kovariansi populasi Σ, kita dapat menggunakan rumus matriks S yang terdapat di http://edscyclopedia.com/matriks-variansi-kovariansi-dan-matriks-korelasi/ , namun dengan mengganti \frac{1}{n-1} dengan \frac{1}{n}. Ini menghasilkan \Sigma = \begin{pmatrix}7,6 & 17,6 \\ 17,6 & 42,8 \end{pmatrix}. Dari matriks ini kemudian didapatkan:

Variansi X = σ11 = 7,6

Variansi Y = σ22 = 42,8

Kovariansi antara X dan Y = σ12 = 17,6

Perhatikan bahwa nilai variansi dan kovariansi tersebut dihitung berdasarkan vektor-vektor koordinat (0,3), (2,6), (5,13), (5,11), dan (8,22) relatif terhadap basis B = \{ \begin{pmatrix}1 \\ 0 \end{pmatrix} , \begin{pmatrix}0 \\ 1 \end{pmatrix} \}. Dalam hal ini, \begin{pmatrix}1 \\ 0 \end{pmatrix} merupakan vektor arah bagi sumbu x arah positif, dan \begin{pmatrix}0 \\ 1 \end{pmatrix} merupakan vektor arah bagi sumbu y arah positif.

 

Bagaimana tafsiran terhadap vektor-vektor eigen dan komponen-komponen utama yang dihasilkan dari Σ? Perhatikan penjelasan sebagai berikut.

 

Dengan menerapkan Dalil 1 dalam http://edscyclopedia.com/komponen-utama-populasi-population-principal-components/ diperoleh:
Komponen utama pertama: PC1 = 0,3827 X + 0,9239 Y
Komponen utama kedua: PC2 = -0,9239 X + 0,3827 Y
Komponen-komponen utama tersebut diperoleh dari vektor-vektor eigen \vec{e}_1 = \begin{pmatrix}0,3827 \\ 0,9239 \end{pmatrix} dan \vec{e}_2 = \begin{pmatrix}-0,9239 \\ 0,3827 \end{pmatrix}, dengan nilai-nilai eigen λ1 = 50,0902 dan λ2 = 0,3098. Vektor-vektor eigen \vec{e}_1 dan \vec{e}_2 tidak lain merupakan vektor arah bagi sumbu-sumbu koordinat “baru”. Dengan adanya sumbu-sumbu koordinat yang baru tersebut, terjadilah perubahan vektor koordinat. Vektor-vektor koordinat yang baru diperoleh menggunakan rumus PC1 dan PC2, yaitu dengan menyulihkan X dengan koordinat-koordinat pertama dari vektor-vektor koordinat relatif terhadap basis B = \{ \begin{pmatrix}1 \\ 0 \end{pmatrix} , \begin{pmatrix}0 \\ 1 \end{pmatrix} \} dan menyulihkan Y dengan koordinat-koordinat kedua dari vektor-vektor koordinat relatif terhadap basis B tersebut.

 

Untuk mengilustrasikan tafsiran bagi PC1 dan PC2, perhatikan titik A, yang memiliki vektor koordinat (0,3) relatif terhadap basis B. Jika digunakan sumbu-sumbu koordinat yang baru dengan vektor-vektor arah \vec{e}_1 dan \vec{e}_2 maka koordinat-koordinat baru bagi A dapat diperoleh dengan menyulihkan X = 0 dan Y = 3 ke dalam persamaan PC1 dan PC2. Jadi, PC1 = 0,3827.(0) + 0,9239.(3) ≈ 2,772 dan PC2 = -0,9239.(0) + 0,3827.(3) ≈ 1,148. Juga, koordinat-koordinat baru bagi B dapat diperoleh dengan menyulihkan X = 2 dan Y = 6 ke dalam persamaan PC1 dan PC2. Jadi, PC1 = 0,3827.(2) + 0,9239.(6) ≈ 6,309 dan PC2 = -0,9239.(2) + 0,3827.(6) ≈ 0,448. Perbandingan koordinat-koordinat asal dan yang baru untuk A, B, C, D, dan E dapat dilihat pada tabel berikut. (Note: Pada tabel di bawah ini, nilai-nilai pada kolom x dengan latar merah adalah koordinat-koordinat pertama vektor koordinat relatif terhadap basis \{ \vec{e}_1 , \vec{e}_2 \}. Nilai-nilai pada kolom y dengan latar merah adalah koordinat-koordinat kedua vektor koordinat relatif terhadap basis \{ \vec{e}_1 , \vec{e}_2 \}.

Koordinat-koordinat baru pada tabel di atas dapat digambarkan sebagai berikut.

Apa kaitannya antara nilai-nilai pada kolom x dan y koordinat baru (latar merah pada tabel di atas) dengan nilai λ1 = 50,0902 dan λ2 = 0,3098?

Variansi dari koordinat-koordinat pertama vektor koordinat relatif terhadap basis \{ \vec{e}_1 , \vec{e}_2 \}, yaitu nilai-nilai pada kolom x yang berlatar merah, memiliki variansi sebesar λ1 = 50,0902. Variansi dari koordinat-koordinat kedua vektor koordinat relatif terhadap basis \{ \vec{e}_1 , \vec{e}_2 \}, yaitu nilai-nilai pada kolom y yang berlatar merah, memiliki variansi sebesar  λ2 = 0,3098.

Seperti telah diuraikan dalam http://edscyclopedia.com/komponen-utama-populasi-population-principal-components/ , dengan analisis komponen utama kita dapat “menggantikan” sejumlah banyak variabel semula dengan variabel-variabel baru (yang disebut komponen) yang lebih sedikit. Pada contoh kasus ini, seandainya kita hanya akan menggunakan satu komponen saja, yaitu PC1, maka variansi yang “dipertahankan” dari variabel-variabel asal adalah sebanyak 99,39%. Secara geometris, koordinat-koordinat pertama vektor-vektor koordinat (relatif terhadap basis baru) dari proyeksi A, B, C, D, dan E pada sumbu x’ dapat “mempertahankan” 99,39% dari total variansi data semula.

Pemilihan sumbu x’ dan y’ dengan menggunakan analisis komponen utama tersebut mempertahankan semaksimal mungkin proporsi (yaitu 99,39%) variansi data semula. Jika digunakan sumbu-sumbu lain maka, untuk banyaknya komponen yang sama, proporsi variansi yang dipertahankan akan lebih sedikit. Uraian berikut ini menggambarkan bagaimana proporsi variansi yang dipertahankan seandainya tidak digunakan analisis komponen utama, melainkan pasangan sumbu semula diputar sejauh 300 dan 450.

 

Rotasi Sumbu Asal Sejauh 300

Dengan menggunakan matriks rotasi T = \begin{pmatrix}\cos \theta & - \sin \theta \\  \sin \theta & \cos \theta \end{pmatrix} dengan θ = 300, vektor-vektor arah sumbu-sumbu baru dapat ditentukan sebagai berikut.

Dengan demikian B' = \{ \vec{u}_1, \vec{u}_2 \} merupakan basis baru bagi \mathbb{R}^2. Khususnya, \vec{u}_1 adalah vektor arah bagi x’, yaitu sumbu baru hasil rotasi sumbu x sejauh 300. Di samping itu, \vec{u}_2 adalah vektor arah bagi y’, yaitu sumbu baru hasil rotasi sumbu y sejauh 300.

 

Selanjutnya, matriks koordinat relatif terhadap basis yang baru dapat diperoleh dengan mengalikan T-1 dengan matriks koordinat relatif terhadap basis asal: {\left[ \vec{v} \right]}_{B'} = T^{-1} {\left[ \vec{v} \right]}_B.  Di sini {\left[ \vec{v} \right]}_B adalah matriks koordinat relatif dari \vec{v} terhadap B (=basis asal) dan {\left[ \vec{v} \right]}_{B'} adalah matriks koordinat relatif dari \vec{v} terhadap B’ (= basis baru). Jadi, untuk contoh kasus ini:

Untuk A(0,3), matriks koordinat relatif terhadap B’ adalah:

Untuk keseluruhan titik-titik tersebut, matriks koordinat relatifnya terhadap B’ dapat dihitung sekaligus sbb.

Dengan demikian, koordinat A, B, C, D, dan E relatif terhadap koordinat lama dan koordinat baru dapat diringkas pada tabel di bawah ini.

 

Apa yang direpresentasikan tabel di atas dapat pula direpresentasikan dengan cara di bawah ini.


Catatan:
Pada gambar di atas hanya ditampilkan koordinat-koordinat C dan E. Titik-titik lainnya ditafsirkan dengan cara serupa.

 

Seandainya hanya akan digunakan kombinasi linier LC1 = 0,866 X + 0,500 Y sebagai pengganti variabel-variabel semula, maka variansi yang dipertahankan adalah sebesar variansi dari koordinat-koordinat pertama dari vektor-vektor koordinat A, B, C, D, dan E relatif terhadap B’, yaitu variansi dari data pada kolom x berlatar hijau pada tabel di atas, yaitu sebesar 31,642. Ini mencakup 62,78% dari total variansi data semula. Proporsi ini lebih kecil daripada yang dihasilkan analisis komponen utama (yaitu sebesar 99,39%).

 

Rotasi Sumbu Asal Sejauh 450

Dengan cara serupa seperti di atas, dapat ditunjukkan bahwa rotasi 450 akan menghasilkan vektor basis B'' = \{ \begin{pmatrix}0,7071 \\ 0,7071 \end{pmatrix} , \begin{pmatrix}-0,7071 \\ 0,7071 \end{pmatrix} \}. Matriks koordinat A, B, C, D, dan E relatif terhadap B” dapat dihitung dengan:

Selanjutnya, dari perhitungan:

diperoleh koordinat titik-titik tsb. relatif terhadap basis yang baru (hasil rotasi sumbu sejauh 450), sebagaimana dapat dilihat di kolom dengan latar kuning tabel berikut.

Seandainya hanya akan digunakan kombinasi linier LC1 = 0,7071 X + 0,7071 Y pengganti variabel-variabel semula, maka variansi yang dipertahankan adalah sebesar variansi dari koordinat-koordinat pertama dari vektor-vektor koordinat A, B, C, D, dan E relatif terhadap B”, yaitu variansi dari data pada kolom x berlatar kuning pada tabel di atas, yaitu sebesar 42,8. Ini mencakup 84,92% dari total variansi data semula. Proporsi ini pun lebih kecil daripada yang dihasilkan analisis komponen utama (yaitu sebesar 99,39%).

Tagging: ,

Most visitors also read :



Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *