JARAK STATISTIKAL

Juli 24th, 2021

Sebelum kita bahas jarak statistikal, pertama perlu diuraikan terlebih dahulu apa yang dimaksud dengan jarak dalam matematika.

Definisi
Misalkan V suatu himpunan tak kosong dan d suatu fungsi dengan daerah asal VxV dan daerah kawan $\mathbb{R}$ . d merupakan suatu fungsi jarak atau suatu metrik jika untuk setiap p, q, r ∈ V berlaku:

d(p,q) ≥ 0
d(p,q) = 0 ⇔ p = q
d(p,q) = d(q,p)
d(p,q) ≤ d(p,r) + d(r,q)

Sebagai contoh, dalam $\mathbb{R}$ kita dapat mendefinisikan fungsi jarak d dengan $d(p,q) = \sqrt{(p-q)^2}$ untuk setiap p, q ∈ $\mathbb{R}$ . (Secara ekivalen, $d(p,q)= |p-q|$ ). Dapat ditunjukkan bahwa untuk setiap p, q, r ∈ $\mathbb{R}$ berlaku: 1) $|p-q| \geq 0$ , 2) $|p-q| = 0 \Leftrightarrow p = q$ , 3) $|p-q| = |q-p|$ , dan 4) $|p-q| \leq |p-r| + |r-q|$ .

Sebagai contoh lain, dalam $\mathbb{R}^2$ dapat didefinisikan jarak antara dua buah titik A(a₁,a₂) dan B(b₁,b₂) sebagai berikut: $d{A,B) = \sqrt{(a_1-b_1)^2+(a_2-b_2)^2}$ . Juga dapat dibuktikan bahwa d yang didefinisikan dengan cara ini pun memenuhi keempat syarat 1), 2), 3), dan 4) di atas.

Pendefinisian jarak dalam $\mathbb{R}^2$ tersebut dapat diperluas ke $\mathbb{R}^p$ di mana jarak antara $A(a_1,a_2, \cdots ,a_p)$ dan $B(b_1,b_2, \cdots ,b_p)$ didefinisikan sebagai $d(A,B)=\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+ \cdots + (a_p-b_p)^2}.$ Tentunya dapat juga ditunjukkan bahwa d yang didefinisikan dengan cara ini memenuhi keempat syarat 1), 2), 3), dan 4) di atas.

Data kuantitatif dalam statistika dapat digambarkan dalam bidang koordinat. Data univariat dapat “ditempatkan” dalam satu sumbu (misalnya sumbu x). Data bivariat (memuat dua buah variabel) dapat ditempatkan dalam bidang koordinat dengan dua sumbu saling tegak lurus (misalnya sumbu x dan y pada bidang Kartesius). Sebagai contoh untuk data bivariat, perhatikan 5 buah data hasil sampling sbb.

Data tersebut dapat “ditempatkan” dalam bidang-xy sebagai berikut.

Kata “ditempatkan” tersebut tidak selalu berarti benar-benar digambarkan pada suatu bidang gambar. Untuk data bivariat memang masih dapat digambarkan sebagaimana ditunjukkan di atas. Tetapi untuk data yang terdiri dari lebih dari 3 variat misalnya, penggambaran tersebut tidak mungkin dilakukan. Karena itu “penempatan data pada bidang koordinat” di sini memiliki arti yang lebih umum, yaitu: “Setiap data bivariat dapat ditempatkan dalam bidang koordinat dengan dua sumbu saling tegak lurus berarti bahwa setiap data memiliki korespondensi satu-satu dengan vektor koordinat relatif terhadap suatu basis ortonormal $\mathbb{R}^2$ .” Uraian tersebut dapat juga diperluas untuk data dengan p buah variabel sebagai berikut: “Setiap data multivariat dengan p buah variabel memiliki korespondensi satu-satu dengan vektor koordinat relatif terhadap suatu suatu basis ortonormal $\mathbb{R}^p$ .”

Sekarang, bagaimana pendefinisian jarak statistikal yang dimaksud dalam tulisan ini? Pendefinisian jarak antara dua titik dalam ruang $\mathbb{R}^p$ (atau dua data dengan p buah variat) menggunakan $d(A,B)=\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+ \cdots + (a_p-b_p)^2}$ tidak memperhitungkan variansi yang terdapat pada masing-masing variat dan tidak memperhitungkan kovariansi di antara variat-variat. Jarak statistikal d antara vektor-vektor data $\vec{x}$ dan $\vec{y}$ didefinisikan sebagai berikut:

$d(\vec{x},\vec{y})= \sqrt{(\vec{x}-\vec{y})'A(\vec{x}-\vec{y})}$

di mana

$\vec{x}= (x_1 \quad x_2 \quad \cdots x_p)$

$\vec{y}= (y_1 \quad y_2 \quad \cdots y_p)$

A = suatu matriks simetris yang definit positif berordo p

Jadi, dapat dikatakan bahwa A (dengan pengertian sebagaimana di atas) mendefinisikan suatu jarak statistikal. Khususnya dalam analisis komponen utama, A merupakan matriks variansi-kovariansi.

Contoh 1
Diketahui matriks definit positif $A = \begin{pmatrix}9 & -2 \\ -2 & 6 \end{pmatrix}$ . Tentukan jarak statistikal antara K(2,1) dengan titik pangkal koordinat L(-1,0).

Jawaban
Misalkan $\vec{x}= \begin{pmatrix}2 \\ 1 \end{pmatrix}$ dan $\vec{y}= \begin{pmatrix}-1 \\ 0 \end{pmatrix}$ . Selanjutnya, $\vec{x} - \vec{y} = \begin{pmatrix}2 \\ 1 \end{pmatrix} - \begin{pmatrix}-1 \\ 0 \end{pmatrix} = \begin{pmatrix}3 \\ 1 \end{pmatrix}$ dan $(\vec{x} - \vec{y})' = (3 \quad 1)$ . Dari pendefinisian jarak statistikal $d(\vec{x},\vec{y})= \sqrt{(\vec{x}-\vec{y})'A(\vec{x}-\vec{y})}$ , diperoleh:

Jadi, jarak statistikal antara K dan L adalah $3 \sqrt{5}$ .

Bentuk “Lingkaran” Menggunakan Jarak Statistikal
Secara umum, lingkaran didefinisikan sebagai himpunan semua titik yang berjarak sama terhadap suatu titik tetap tertentu; titik tetap tersebut dinamakan pusat lingkaran dan jarak yang sama tersebut dinamakan jari-jari. Dari definisi tersebut secara implisit dapat disimpulkan bahwa lingkaran yang terbentuk tergantung dari daerah asal (domain) fungsi jarak dan pendefinisian fungsi jarak itu sendiri. Sebagai ilustrasi, misalnya fungsi jarak didefinisikan dengan daerah asal $\mathbb{R}^2$ dengan ketentuan bahwa jarak antara A(a₁,a₂) ∈ $\mathbb{R}^2$ dengan B(b₁,b₂) adalah $d(A,B) = \sqrt{(a_1 - b_1)^2+(a_2 - b_2)^2}$ . Dengan pendefinisian jarak seperti ini, lingkaran dengan pusat O dan berjari-jari 1 tampil seperti gambar berikut.

Namun bagaimana bentuk lingkaran dengan jari-jari 1 namun menggunakan jarak statistikal? Perhatikan contoh berikut.

Contoh 2
Tentukan persamaan lingkaran dengan pusat O dan jari-jari 1 apabila yang digunakan adalah jarak statistikal dengan $A = \begin{pmatrix}9 & -2 \\ -2 & 6 \end{pmatrix}$ dan gambarkan.

Jawaban
Lingkaran dengan pusat O dan jari-jari 1 memenuhi persamaan $d^2(\vec{x},O)=1$ . Jika $\vec{x}= \begin{pmatrix}x_1 \\ x_2 \end{pmatrix}$ maka persamaan tersebut dapat dinyatakan sebagai berikut:

Tempat kedudukan titik-titik dengan persamaan $9 {x_1}^2 - 4 x_1 x_2 + 6 {x_2}^2 = 1$ digambarkan sebagai berikut.

Jadi, lingkaran yang terbentuk apabila digunakan jarak statistikal sebagaimana ditentukan A berbentuk elips.

Bagaimana menentukan arah dan panjang sumbu-sumbu elips jika diketahui fungsi jarak statistikal? Perhatikan uraian berikut.

Dalil 1
Jika A suatu matriks simetris yang definit positif dengan dekomposisi spektral $A = \sum_{i=1}^p \lambda_i \vec{e}_i \vec{e}_i \: '$ maka:

himpunan titik-titik yang berjarak c dari titik pangkal koordinat O memiliki persamaan $\vec{x} \: ' A \vec{x} = c^2$ , yang ekivalen dengan $\sum_{i=1}^p \lambda_i (\vec{x} \: ' \cdot \vec{e}_i)^2 = c^2$ ,
$\vec{x}= \frac{c}{\sqrt{\lambda_i}} \vec{e}_i$ merupakan suatu solusi bagi $\sum_{i=1}^p \lambda_i (\vec{x} \: ' \cdot \vec{e}_i)^2 = c^2$ ; i = 1, 2, …, p, dan
$\vec{e}_i$ adalah vektor arah sumbu-sumbu elips $\sum_{i=1}^p \lambda_i (\vec{x} \: ' \cdot \vec{e}_i)^2 = c^2$ .

Pada Contoh 2 di atas, $A = \lambda_1 \vec{e}_1 \cdot \vec{e}_1 \: ' + \lambda_2 \vec{e}_2 \cdot \vec{e}_2 \: '$ dengan λ₁ = 10, $\vec{e}_1 = \begin{pmatrix}2/\sqrt{5} \\ -1/\sqrt{5} \end{pmatrix}$ , λ₂ = 5, $\vec{e}_2 = \begin{pmatrix}1/\sqrt{5} \\ 2/\sqrt{5} \end{pmatrix}$ . Setengah panjang sumbu elips dalam arah $\vec{e}_1$ adalah $\frac{1}{\sqrt{10}}$ dan setengah panjang sumbu elips dalam arah $\vec{e}_2$ adalah $\frac{1}{\sqrt{5}}$ . Situasi ini digambarkan sebagai berikut.

Pada gambar di atas, $|\overrightarrow{OV}| = \frac{1}{\sqrt{10}}$ dan $|\overrightarrow{OW}| = \frac{1}{\sqrt{5}}$ .

Contoh 3
Dalam suatu populasi bivariat didefinisikan fungsi jarak statistikal yang ditentukan oleh matriks variansi-kovariansi $\Sigma = \begin{pmatrix}73 & -36 \\ -36 & 52 \end{pmatrix}$ .

Nyatakan persamaan jarak titik sembarang (x₁,x₂) ke titik pangkal koordinat O dalam bentuk $d= \sqrt{a{x_1}^2 + bx_1 x_2 + c{x_2}^2}$ .
Tentukan jarak titik $T(3 - 2 \sqrt{3},4+ \frac{3 \sqrt{3}}{2})$ terhadap O.
Misalkan jarak T terhadap O adalah c. Tentukan persamaan elips yang menyatakan tempat kedudukan titik-titik yang berjarak c terhadap O dan gambarkan.
Misalkan dekomposisi spektral Σ adalah $\Sigma = \lambda_1 \vec{e}_1 \cdot \vec{e}_1 \: ' + \lambda_2 \vec{e}_2 \cdot \vec{e}_2 \: '$ dengan λ₁ > λ₂. Tentukan dan gambarkan sumbu-sumbu koordinat yang baru $\tilde{x}_1$ dan $\tilde{x}_2$ dengan ketentuan vektor arah bagi sumbu $\tilde{x}_1$ adalah $\vec{e}_1$ dan vektor arah bagi $\tilde{x}_2$ adalah $\vec{e}_2$ .
Nyatakan persamaan elips pada butir 3 contoh ini dalam $\tilde{x}_1$ dan $\tilde{x}_2$ .
Tentukan koordinat T relatif terhadap basis terurut $\{\vec{e}_1,\vec{e}_2 \}$ .
Misalkan koordinat T pada butir 6 contoh ini adalah (k₁,k₂). Periksalah bahwa $\tilde{x}_1 = k_1$ dan $\tilde{x}_2 = k_2$ memenuhi persamaan elips pada butir 5 contoh ini.

Jawaban butir 1

Jawaban butir 2

Substitusikan $x_1 = 3 - 2 \sqrt{3}$ dan $x_2 = 4 + \frac{3 \sqrt{3}}{2}$ ke dalam d pada jawaban butir 1, diperoleh:

Jadi, jarak T terhadap O adalah 50 satuan.

Jawaban butir 3

Persamaan elips yang dimaksud adalah:

Persamaan karakteristik bagi Σ adalah:

Ini menghasilkan nilai-nilai eigen λ₁ = 100 dan λ₂ = 25.

λ₁ = 100 menghasilkan vektor eigen $\vec{e}_1 = \begin{pmatrix}0,8 \\ -0,6 \end{pmatrix}$ .

λ2 = 25 menghasilkan vektor eigen $\vec{e}_2 = \begin{pmatrix}0,6 \\ 0,8 \end{pmatrix}$ .

Menurut Dalil 1, $\vec{e}_1$ dan $\vec{e}_2$ merupakan vektor arah sumbu-sumbu elips tsb. Dari Dalil 1 butir 2) pun dapat disimpulkan bahwa setengah panjang sumbu dalam arah $\vec{e}_1$ adalah $\frac{50}{\sqrt{100}}=5$ dan setengah panjang sumbu dalam arah $\vec{e}_2$ adalah $\frac{50}{\sqrt{25}}=10$ . Situasi ini dapat dilukiskan sebagai berikut.

Jawaban butir 4

Jawaban butir 5

Untuk menentukan persamaan elips dalam $\tilde{x}_1$ dan $\tilde{x}_2$ , dilakukan pendiagonalan terhadap Σ. Jika $P = ( \vec{e}_1 \quad \vec{e}_2)$ maka hasil pendiagonalan ini adalah $P' \Sigma P$ .

Dalam hal ini, $P = \begin{pmatrix}0,8 & 0,6 \\ -0,6 & 0,8 \end{pmatrix}$ sehingga:

Jadi, persamaan yang dimaksud adalah $100 {\tilde{x}_1}^2 + 25 {\tilde{x}_2}^2 = 2500$ , yang ekivalen dengan $\frac{{\tilde{x}_1}^2}{25}+\frac{{\tilde{x}_2}^2}{100}=1$ .

Jawaban butir 6

Untuk menentukan koordinat T relatif terhadap $B' = \{\vec{e}_1,\vec{e}_2 \}$ yang digunakan sebagai basis terurut bagi bidang- $\tilde{x}_1 \tilde{x}_2$ , dapat digunakan rumus ${\left[ T \right]}_{B'} = P^{-1} {\left[ T \right]}_B$ , dengan $B = \{\begin{pmatrix}1 \\ 0 \end{pmatrix},\begin{pmatrix}0 \\ 1 \end{pmatrix} \}$ . Di sini ${\left[ T \right]}_{B'}$ adalah matriks koordinat T relatif terhadap basis B’ dan ${\left[ T \right]}_B$ adalah matriks koordinat T relatif terhadap basis B.

Jadi, koordinat T relatif terhadap basis terurut $\{\vec{e}_1,\vec{e}_2 \}$ adalah $(T)_{B'}=(\frac{-5 \sqrt{3}}{2},5)$ .

Jawaban butir 7

Substitusikan $\tilde{x}_1 = \frac{-5 \sqrt{3}}{2}$ dan $\tilde{x}_2 = 5$ ke dalam persamaan $100 {\tilde{x}_1}^2 + 25 {\tilde{x}_2}^2 = 2500$ .

2500 = 2500 (pernyataan yang benar)

Jadi, $\tilde{x}_1 = \frac{-5 \sqrt{3}}{2}$ dan $\tilde{x}_2 = 5$ memenuhi persamaan elips pada butir 5. (Kedua nilai ini dapat digambarkan sebagai berikut.)

Contoh 4
Suatu vektor acak $\vec{X}= \begin{pmatrix} \vec{X}_1 \\ \vec{X}_2 \end{pmatrix}$ memiliki densitas normal bivariat $f(\vec{x}) = \frac{1}{2 \pi | \Sigma |^{1/2}} e^{-\frac{1}{2} \vec{x} \: ' \Sigma^{-1} \vec{x}}$ dengan $\Sigma = \begin{pmatrix} 9 & -2 \\ -2 & 6 \end{pmatrix}$ . Gambarkan elips densitas konstan $\vec{x} \: ' \Sigma^{-1} \vec{x} = 1$ dan tunjukkan komponen-komponen utamanya.

Jawaban
Dapat ditunjukkan bahwa dekomposisi spektral dari Σ adalah $\Sigma = \lambda_1 \vec{e}_1 \cdot \vec{e}_1 \: ' + \lambda_2 \vec{e}_2 \cdot \vec{e}_2 \: '$ dengan λ₁ = 10, $\vec{e}_1 = \begin{pmatrix}2/\sqrt{5} \\ -1/\sqrt{5} \end{pmatrix}$ , λ₂ = 5, $\vec{e}_2 = \begin{pmatrix}1/\sqrt{5} \\ 2/\sqrt{5} \end{pmatrix}$ .

Akibatnya, dekomposisi spektral dari Σ^-1adalah:

Dari Dalil 1 butir 2) dapat disimpulkan bahwa setengah panjang sumbu elips dalam arah $\vec{e}_1$ adalah $\frac{1}{\sqrt{\frac{1}{10}}} = \sqrt{10}$ dan setengah panjang sumbu elips dalam arah $\vec{e}_2$ adalah $\frac{1}{\sqrt{\frac{1}{5}}} = \sqrt{5}$ .

Komponen utama pertama: $Y_1 = \vec{e}_1 \: ' \cdot \vec{X} = \frac{2}{\sqrt{5}} X_1 - \frac{1}{\sqrt{5}} X_2$

Komponen utama pertama: $Y_2 = \vec{e}_2 \: ' \cdot \vec{X} = \frac{1}{\sqrt{5}} X_1 + \frac{2}{\sqrt{5}} X_2$

Contoh 4 mengilustrasikan suatu penerapan dalil yang berlaku umum untuk populasi multivariat yang melibatkan p buah variat sebagai berikut.

Dalil 2
Jika vektor acak $\vec{X}=(X_1 \quad X_2 \quad \cdots \quad X_p)'$ berdistribusi normal multivariat dengan rata-rata $\vec{\mu}$ dan matriks kovariansi Σ maka densitas $\vec{X}$ konstan pada elipsoida yang berpusat di $\vec{\mu}$ dengan persamaan $(\vec{x} - \vec{\mu})' \Sigma^{-1} (\vec{x} - \vec{\mu}) = c^2$ yang memiliki sumbu-sumbu $(\pm c \sqrt{\lambda_i}) \vec{e}_i$ , i = 1, 2, …, p, di mana $( \lambda_i , \vec{e}_i )$ adalah pasangan-pasangan nilai eigen-vektor eigen dari Σ.