Sebelum kita bahas jarak statistikal, pertama perlu diuraikan terlebih dahulu apa yang dimaksud dengan jarak dalam matematika.
Definisi
Misalkan V suatu himpunan tak kosong dan d suatu fungsi dengan daerah asal VxV dan daerah kawan . d merupakan suatu fungsi jarak atau suatu metrik jika untuk setiap p, q, r ∈ V berlaku:
d(p,q) ≥ 0
d(p,q) = 0 ⇔ p = q
d(p,q) = d(q,p)
d(p,q) ≤ d(p,r) + d(r,q)
Sebagai contoh, dalam kita dapat mendefinisikan fungsi jarak d dengan untuk setiap p, q ∈ . (Secara ekivalen, ). Dapat ditunjukkan bahwa untuk setiap p, q, r ∈ berlaku: 1) , 2) , 3) , dan 4) .
Sebagai contoh lain, dalam dapat didefinisikan jarak antara dua buah titik A(a1,a2) dan B(b1,b2) sebagai berikut: . Juga dapat dibuktikan bahwa d yang didefinisikan dengan cara ini pun memenuhi keempat syarat 1), 2), 3), dan 4) di atas.
Pendefinisian jarak dalam tersebut dapat diperluas ke di mana jarak antara dan didefinisikan sebagai Tentunya dapat juga ditunjukkan bahwa d yang didefinisikan dengan cara ini memenuhi keempat syarat 1), 2), 3), dan 4) di atas.
Data kuantitatif dalam statistika dapat digambarkan dalam bidang koordinat. Data univariat dapat “ditempatkan” dalam satu sumbu (misalnya sumbu x). Data bivariat (memuat dua buah variabel) dapat ditempatkan dalam bidang koordinat dengan dua sumbu saling tegak lurus (misalnya sumbu x dan y pada bidang Kartesius). Sebagai contoh untuk data bivariat, perhatikan 5 buah data hasil sampling sbb.
Data tersebut dapat “ditempatkan” dalam bidang-xy sebagai berikut.
Kata “ditempatkan” tersebut tidak selalu berarti benar-benar digambarkan pada suatu bidang gambar. Untuk data bivariat memang masih dapat digambarkan sebagaimana ditunjukkan di atas. Tetapi untuk data yang terdiri dari lebih dari 3 variat misalnya, penggambaran tersebut tidak mungkin dilakukan. Karena itu “penempatan data pada bidang koordinat” di sini memiliki arti yang lebih umum, yaitu: “Setiap data bivariat dapat ditempatkan dalam bidang koordinat dengan dua sumbu saling tegak lurus berarti bahwa setiap data memiliki korespondensi satu-satu dengan vektor koordinat relatif terhadap suatu basis ortonormal .” Uraian tersebut dapat juga diperluas untuk data dengan p buah variabel sebagai berikut: “Setiap data multivariat dengan p buah variabel memiliki korespondensi satu-satu dengan vektor koordinat relatif terhadap suatu suatu basis ortonormal .”
Sekarang, bagaimana pendefinisian jarak statistikal yang dimaksud dalam tulisan ini? Pendefinisian jarak antara dua titik dalam ruang (atau dua data dengan p buah variat) menggunakan tidak memperhitungkan variansi yang terdapat pada masing-masing variat dan tidak memperhitungkan kovariansi di antara variat-variat. Jarak statistikal d antara vektor-vektor data dan didefinisikan sebagai berikut:
di mana
A = suatu matriks simetris yang definit positif berordo p
Jadi, dapat dikatakan bahwa A (dengan pengertian sebagaimana di atas) mendefinisikan suatu jarak statistikal. Khususnya dalam analisis komponen utama, A merupakan matriks variansi-kovariansi.
Contoh 1
Diketahui matriks definit positif . Tentukan jarak statistikal antara K(2,1) dengan titik pangkal koordinat L(-1,0).
Jawaban
Misalkan dan . Selanjutnya, dan . Dari pendefinisian jarak statistikal , diperoleh:
Jadi, jarak statistikal antara K dan L adalah .
Bentuk “Lingkaran” Menggunakan Jarak Statistikal
Secara umum, lingkaran didefinisikan sebagai himpunan semua titik yang berjarak sama terhadap suatu titik tetap tertentu; titik tetap tersebut dinamakan pusat lingkaran dan jarak yang sama tersebut dinamakan jari-jari. Dari definisi tersebut secara implisit dapat disimpulkan bahwa lingkaran yang terbentuk tergantung dari daerah asal (domain) fungsi jarak dan pendefinisian fungsi jarak itu sendiri. Sebagai ilustrasi, misalnya fungsi jarak didefinisikan dengan daerah asal dengan ketentuan bahwa jarak antara A(a1,a2) ∈ dengan B(b1,b2) adalah . Dengan pendefinisian jarak seperti ini, lingkaran dengan pusat O dan berjari-jari 1 tampil seperti gambar berikut.
Namun bagaimana bentuk lingkaran dengan jari-jari 1 namun menggunakan jarak statistikal? Perhatikan contoh berikut.
Contoh 2
Tentukan persamaan lingkaran dengan pusat O dan jari-jari 1 apabila yang digunakan adalah jarak statistikal dengan dan gambarkan.
Jawaban
Lingkaran dengan pusat O dan jari-jari 1 memenuhi persamaan . Jika maka persamaan tersebut dapat dinyatakan sebagai berikut:
Tempat kedudukan titik-titik dengan persamaan digambarkan sebagai berikut.
Jadi, lingkaran yang terbentuk apabila digunakan jarak statistikal sebagaimana ditentukan A berbentuk elips.
Bagaimana menentukan arah dan panjang sumbu-sumbu elips jika diketahui fungsi jarak statistikal? Perhatikan uraian berikut.
Dalil 1
Jika A suatu matriks simetris yang definit positif dengan dekomposisi spektral maka:
himpunan titik-titik yang berjarak c dari titik pangkal koordinat O memiliki persamaan , yang ekivalen dengan ,
merupakan suatu solusi bagi ; i = 1, 2, …, p, dan
adalah vektor arah sumbu-sumbu elips .
Pada Contoh 2 di atas, dengan λ1 = 10, , λ2 = 5, . Setengah panjang sumbu elips dalam arah adalah dan setengah panjang sumbu elips dalam arah adalah . Situasi ini digambarkan sebagai berikut.
Pada gambar di atas, dan .
Contoh 3
Dalam suatu populasi bivariat didefinisikan fungsi jarak statistikal yang ditentukan oleh matriks variansi-kovariansi .
Nyatakan persamaan jarak titik sembarang (x1,x2) ke titik pangkal koordinat O dalam bentuk .
Tentukan jarak titik terhadap O.
Misalkan jarak T terhadap O adalah c. Tentukan persamaan elips yang menyatakan tempat kedudukan titik-titik yang berjarak c terhadap O dan gambarkan.
Misalkan dekomposisi spektral Σ adalah dengan λ1 > λ2. Tentukan dan gambarkan sumbu-sumbu koordinat yang baru dan dengan ketentuan vektor arah bagi sumbu adalah dan vektor arah bagi adalah .
Nyatakan persamaan elips pada butir 3 contoh ini dalam dan .
Tentukan koordinat T relatif terhadap basis terurut .
Misalkan koordinat T pada butir 6 contoh ini adalah (k1,k2). Periksalah bahwa dan memenuhi persamaan elips pada butir 5 contoh ini.
Jawaban butir 1
Jawaban butir 2
Substitusikan dan ke dalam d pada jawaban butir 1, diperoleh:
Jadi, jarak T terhadap O adalah 50 satuan.
Jawaban butir 3
Persamaan elips yang dimaksud adalah:
Persamaan karakteristik bagi Σ adalah:
Ini menghasilkan nilai-nilai eigen λ1 = 100 dan λ2 = 25.
λ1 = 100 menghasilkan vektor eigen .
λ2 = 25 menghasilkan vektor eigen .
Menurut Dalil 1, dan merupakan vektor arah sumbu-sumbu elips tsb. Dari Dalil 1 butir 2) pun dapat disimpulkan bahwa setengah panjang sumbu dalam arah adalah dan setengah panjang sumbu dalam arah adalah . Situasi ini dapat dilukiskan sebagai berikut.
Jawaban butir 4
Jawaban butir 5
Untuk menentukan persamaan elips dalam dan , dilakukan pendiagonalan terhadap Σ. Jika maka hasil pendiagonalan ini adalah .
Dalam hal ini, sehingga:
Jadi, persamaan yang dimaksud adalah , yang ekivalen dengan .
Jawaban butir 6
Untuk menentukan koordinat T relatif terhadap yang digunakan sebagai basis terurut bagi bidang-, dapat digunakan rumus , dengan . Di sini adalah matriks koordinat T relatif terhadap basis B’ dan adalah matriks koordinat T relatif terhadap basis B.
Jadi, koordinat T relatif terhadap basis terurut adalah .
Jawaban butir 7
Substitusikan dan ke dalam persamaan .
2500 = 2500 (pernyataan yang benar)
Jadi, dan memenuhi persamaan elips pada butir 5. (Kedua nilai ini dapat digambarkan sebagai berikut.)
Contoh 4
Suatu vektor acak memiliki densitas normal bivariat dengan . Gambarkan elips densitas konstan dan tunjukkan komponen-komponen utamanya.
Jawaban
Dapat ditunjukkan bahwa dekomposisi spektral dari Σ adalah dengan λ1 = 10, , λ2 = 5, .
Akibatnya, dekomposisi spektral dari Σ-1 adalah:
Dari Dalil 1 butir 2) dapat disimpulkan bahwa setengah panjang sumbu elips dalam arah adalah dan setengah panjang sumbu elips dalam arah adalah .
Komponen utama pertama:
Komponen utama pertama:
Contoh 4 mengilustrasikan suatu penerapan dalil yang berlaku umum untuk populasi multivariat yang melibatkan p buah variat sebagai berikut.
Dalil 2
Jika vektor acak berdistribusi normal multivariat dengan rata-rata dan matriks kovariansi Σ maka densitas konstan pada elipsoida yang berpusat di dengan persamaan yang memiliki sumbu-sumbu , i = 1, 2, …, p, di mana adalah pasangan-pasangan nilai eigen-vektor eigen dari Σ.
JARAK STATISTIKAL
Sebelum kita bahas jarak statistikal, pertama perlu diuraikan terlebih dahulu apa yang dimaksud dengan jarak dalam matematika.
Definisi
Misalkan V suatu himpunan tak kosong dan d suatu fungsi dengan daerah asal VxV dan daerah kawan . d merupakan suatu fungsi jarak atau suatu metrik jika untuk setiap p, q, r ∈ V berlaku:
Sebagai contoh, dalam kita dapat mendefinisikan fungsi jarak d dengan untuk setiap p, q ∈ . (Secara ekivalen, ). Dapat ditunjukkan bahwa untuk setiap p, q, r ∈ berlaku: 1) , 2) , 3) , dan 4) .
Sebagai contoh lain, dalam dapat didefinisikan jarak antara dua buah titik A(a1,a2) dan B(b1,b2) sebagai berikut: . Juga dapat dibuktikan bahwa d yang didefinisikan dengan cara ini pun memenuhi keempat syarat 1), 2), 3), dan 4) di atas.
Pendefinisian jarak dalam tersebut dapat diperluas ke di mana jarak antara dan didefinisikan sebagai Tentunya dapat juga ditunjukkan bahwa d yang didefinisikan dengan cara ini memenuhi keempat syarat 1), 2), 3), dan 4) di atas.
Data kuantitatif dalam statistika dapat digambarkan dalam bidang koordinat. Data univariat dapat “ditempatkan” dalam satu sumbu (misalnya sumbu x). Data bivariat (memuat dua buah variabel) dapat ditempatkan dalam bidang koordinat dengan dua sumbu saling tegak lurus (misalnya sumbu x dan y pada bidang Kartesius). Sebagai contoh untuk data bivariat, perhatikan 5 buah data hasil sampling sbb.
Data tersebut dapat “ditempatkan” dalam bidang-xy sebagai berikut.
Kata “ditempatkan” tersebut tidak selalu berarti benar-benar digambarkan pada suatu bidang gambar. Untuk data bivariat memang masih dapat digambarkan sebagaimana ditunjukkan di atas. Tetapi untuk data yang terdiri dari lebih dari 3 variat misalnya, penggambaran tersebut tidak mungkin dilakukan. Karena itu “penempatan data pada bidang koordinat” di sini memiliki arti yang lebih umum, yaitu: “Setiap data bivariat dapat ditempatkan dalam bidang koordinat dengan dua sumbu saling tegak lurus berarti bahwa setiap data memiliki korespondensi satu-satu dengan vektor koordinat relatif terhadap suatu basis ortonormal .” Uraian tersebut dapat juga diperluas untuk data dengan p buah variabel sebagai berikut: “Setiap data multivariat dengan p buah variabel memiliki korespondensi satu-satu dengan vektor koordinat relatif terhadap suatu suatu basis ortonormal .”
Sekarang, bagaimana pendefinisian jarak statistikal yang dimaksud dalam tulisan ini? Pendefinisian jarak antara dua titik dalam ruang (atau dua data dengan p buah variat) menggunakan tidak memperhitungkan variansi yang terdapat pada masing-masing variat dan tidak memperhitungkan kovariansi di antara variat-variat. Jarak statistikal d antara vektor-vektor data dan didefinisikan sebagai berikut:
di mana
A = suatu matriks simetris yang definit positif berordo p
Jadi, dapat dikatakan bahwa A (dengan pengertian sebagaimana di atas) mendefinisikan suatu jarak statistikal. Khususnya dalam analisis komponen utama, A merupakan matriks variansi-kovariansi.
Contoh 1
Diketahui matriks definit positif . Tentukan jarak statistikal antara K(2,1) dengan titik pangkal koordinat L(-1,0).
Jawaban
Misalkan dan . Selanjutnya, dan . Dari pendefinisian jarak statistikal , diperoleh:
Jadi, jarak statistikal antara K dan L adalah .
Bentuk “Lingkaran” Menggunakan Jarak Statistikal
Secara umum, lingkaran didefinisikan sebagai himpunan semua titik yang berjarak sama terhadap suatu titik tetap tertentu; titik tetap tersebut dinamakan pusat lingkaran dan jarak yang sama tersebut dinamakan jari-jari. Dari definisi tersebut secara implisit dapat disimpulkan bahwa lingkaran yang terbentuk tergantung dari daerah asal (domain) fungsi jarak dan pendefinisian fungsi jarak itu sendiri. Sebagai ilustrasi, misalnya fungsi jarak didefinisikan dengan daerah asal dengan ketentuan bahwa jarak antara A(a1,a2) ∈ dengan B(b1,b2) adalah . Dengan pendefinisian jarak seperti ini, lingkaran dengan pusat O dan berjari-jari 1 tampil seperti gambar berikut.
Namun bagaimana bentuk lingkaran dengan jari-jari 1 namun menggunakan jarak statistikal? Perhatikan contoh berikut.
Contoh 2
Tentukan persamaan lingkaran dengan pusat O dan jari-jari 1 apabila yang digunakan adalah jarak statistikal dengan dan gambarkan.
Jawaban
Lingkaran dengan pusat O dan jari-jari 1 memenuhi persamaan . Jika maka persamaan tersebut dapat dinyatakan sebagai berikut:
Tempat kedudukan titik-titik dengan persamaan digambarkan sebagai berikut.
Jadi, lingkaran yang terbentuk apabila digunakan jarak statistikal sebagaimana ditentukan A berbentuk elips.
Bagaimana menentukan arah dan panjang sumbu-sumbu elips jika diketahui fungsi jarak statistikal? Perhatikan uraian berikut.
Dalil 1
Jika A suatu matriks simetris yang definit positif dengan dekomposisi spektral maka:
Pada Contoh 2 di atas, dengan λ1 = 10, , λ2 = 5, . Setengah panjang sumbu elips dalam arah adalah dan setengah panjang sumbu elips dalam arah adalah . Situasi ini digambarkan sebagai berikut.
Pada gambar di atas, dan .
Contoh 3
Dalam suatu populasi bivariat didefinisikan fungsi jarak statistikal yang ditentukan oleh matriks variansi-kovariansi .
Jawaban butir 1
Jawaban butir 2
Substitusikan dan ke dalam d pada jawaban butir 1, diperoleh:
Jadi, jarak T terhadap O adalah 50 satuan.
Jawaban butir 3
Persamaan elips yang dimaksud adalah:
Persamaan karakteristik bagi Σ adalah:
Ini menghasilkan nilai-nilai eigen λ1 = 100 dan λ2 = 25.
λ1 = 100 menghasilkan vektor eigen .
λ2 = 25 menghasilkan vektor eigen .
Menurut Dalil 1, dan merupakan vektor arah sumbu-sumbu elips tsb. Dari Dalil 1 butir 2) pun dapat disimpulkan bahwa setengah panjang sumbu dalam arah adalah dan setengah panjang sumbu dalam arah adalah . Situasi ini dapat dilukiskan sebagai berikut.
Jawaban butir 4
Jawaban butir 5
Untuk menentukan persamaan elips dalam dan , dilakukan pendiagonalan terhadap Σ. Jika maka hasil pendiagonalan ini adalah .
Dalam hal ini, sehingga:
Jadi, persamaan yang dimaksud adalah , yang ekivalen dengan .
Jawaban butir 6
Untuk menentukan koordinat T relatif terhadap yang digunakan sebagai basis terurut bagi bidang-, dapat digunakan rumus , dengan . Di sini adalah matriks koordinat T relatif terhadap basis B’ dan adalah matriks koordinat T relatif terhadap basis B.
Jadi, koordinat T relatif terhadap basis terurut adalah .
Jawaban butir 7
Substitusikan dan ke dalam persamaan .
2500 = 2500 (pernyataan yang benar)
Jadi, dan memenuhi persamaan elips pada butir 5. (Kedua nilai ini dapat digambarkan sebagai berikut.)
Contoh 4
Suatu vektor acak memiliki densitas normal bivariat dengan . Gambarkan elips densitas konstan dan tunjukkan komponen-komponen utamanya.
Jawaban
Dapat ditunjukkan bahwa dekomposisi spektral dari Σ adalah dengan λ1 = 10, , λ2 = 5, .
Akibatnya, dekomposisi spektral dari Σ-1 adalah:
Dari Dalil 1 butir 2) dapat disimpulkan bahwa setengah panjang sumbu elips dalam arah adalah dan setengah panjang sumbu elips dalam arah adalah .
Komponen utama pertama:
Komponen utama pertama:
Contoh 4 mengilustrasikan suatu penerapan dalil yang berlaku umum untuk populasi multivariat yang melibatkan p buah variat sebagai berikut.
Dalil 2
Jika vektor acak berdistribusi normal multivariat dengan rata-rata dan matriks kovariansi Σ maka densitas konstan pada elipsoida yang berpusat di dengan persamaan yang memiliki sumbu-sumbu , i = 1, 2, …, p, di mana adalah pasangan-pasangan nilai eigen-vektor eigen dari Σ.
Bagikan ini:
Most visitors also read :
DEKOMPOSISI NILAI SINGULAR (SINGULAR VALUE DECOMPOSITION)
MAXIMUM LIKELIHOOD ESTIMATOR
SOAL DAN PEMBAHASAN ANALISIS KOMPONEN UTAMA
TAFSIRAN GEOMETRIS KOMPONEN UTAMA