Mathematical Foundations of Machine Learning (Part 1 — Linear Algebra)

15 min readMar 6, 2023

Created by Pompy Mandislian and Fernando Nainggolan

Matematika merupakan pondasi penting untuk membuat sebuah machine learning dan kemajuan teknologi khususnya di dunia data. Beberapa pondasi yang digunakan yaitu : Linear Algebra, kalkulus, dan lain-lain.

Linear Algebra

Apa itu linear algebra?
Linear algebra adalah bidang studi matematika yang mempelajari sistem persamaan linear seperti pemetaan linear dan representasinya dalam ruang vektor maupun dengan matriks. Beberapa konsep yang ada pada linear algebra:

Linier Algebra I

1. Data Structure

Data structure yang pertama adalah persamaan linier yang berfungsi untuk menyelesaikan sebuah masalah liner, contohnya:
a. Plotting.

Plotting ini untuk menyelesaikan permasalahaan garis melintang satu kali.

No Solution : Jika slope A dan slope B mempunyai kesamaan nilai, jadi ketika kedua slope tersebut mempunyai nilai yang sama terus menerus maka hal tersebut tidak memberikan solusi.

Infinite Solution : Jika slope A dan slope B mempunyai kesamaan nilai dan bersinggungan di titik awal mulai maka dapat menjadi solusi pada kedua slope.
Lalu bagaimana jika ingin memrepresentasikan banyak variable atau nilai?
cara untuk melakukan multiple tersebut yaitu menggunakan persamaan linier.

b. Persamaan Linier

Persamaan ini digunakan untuk banyak persamaan dan banyak persamaan yang tidak diketahui, contoh:
y = a + bx1 + cx2 +…+mxm >> y merupakan sesuatu yang akan dicari (dependent), a adalah y-intercept dimana jika nilai 0 maka semua dependent (y) akan bernilai 0 ketika independent(x) bernilain 0 ataupun sebaliknya, fungsinya untuk menghubungkan antara y (dependent) dan x (independent). Sedangkan variable b dan c merupakan slope atau variable nilai. Untuk m merupakan banyak variable lain yang digunakan. Lalu bagaimana dengan multiple persamaan?

Banyak persamaan dapat dilakukan menggunakan matrix, pada gambar di atas menunjukan banyak persamaan untuk menyelesaikan masalah multiple.

Selanjutnya bagaimana penerapan sebelumya digunakan pada machine learning?

ML secara umum terdiri atas scalar, vektor, matriks, dan 3-tensor.

a. Scalars

karakteristik untuk metode ini adalah tidak mempunyai dimensi, single Number, Tipe data int, float32, etc.

b. Vector

karakteristik untuk metode ini adalah mempunyai satu dimensi, merepresentasikan sebuah titik antara sumbu X dan Y.

Vektor Transposition, merepresentasikan pengubahan kolom horisontal menjadi vertikal ataupun sebaliknya.

Penggunakan vektor tranpose bertujuan untuk mengubah dot product dari baris menjadi kolom untuk penggunaan machine learning sehingga dapat melakukan standarisasi data ataupun modeling.

Pada vektor dapat dilakukan normalisasi dan merepresentasikan magnitude dan direction atau menentukan jarak, norm dapat dibagi beberapa yaitu:
L2Norm

Metode ini digunakan untuk mengukur jarak euclidean dari jarak asalnya. Pengukuran jarak ini digunakan dibeberapa model seperti Clustering : K-Means, Classification : K-NN, Feature Selection : untuk pemilihan dataset yang berkolerasi dengan model, Dimensionality reduction : PCA Model.

L1Norm

Metode ini digunakan untuk memvariasikan secara linier ke semua lokasi baik dekat ataupun jauh dari jarak asalnya, Digunakan setiap kali perbedaan antara nol dan bukan nol. Metode ini biasa disebut Manhattan distance dan digunakan dibeberapa model Clustering : K-Means, Classification : K-NN, Feature Selection : Untuk membuat rank pada dataset yang sangat relevant, Recomender System : digunakan untuk memberikan rekomendasi berdasarkan ranking yang mengukur kesamaan antara dua user atau item.

Squared L2Norm

Squared L2Norm berbasis Computasi sehingga lebih murah digunakan dibandingkan L2 karena disederhanakan menjadi XTX, derivative (digunakan pada Train ML) elemen x membutuhkan elemen itu sendiri, dimana L2 norm membutuhkan X vektor. Kelemahannya pertumbuhan yang lambat menyebabkan tidak dapat membedakan antara zero dan near-zero penting.
Metode ini disebut juga dengan squared Euclidean distance dan digunakan pada ml untuk Model Clustering : K-Means menentukan jarak data points dengan cluster centroids, Model Regression : digunakan sebagai lost function pada linear regression and ridge regression, Model Neural Network : sebagai teknik regularisasi dan menambahkan ketentuan penalty ke fungsi kerugian untuk mencegah overfitting, Model Gradient descent : digunakan untuk teknik regulasi optimasi gradient descent untuk menghindari overfitting.

Max Norm (or L∞Norm)

Dalam ML, regularisasi Max Norm sering digunakan dalam model Deep Learning, seperti jaringan saraf konvolusional (CNN) dan jaringan saraf berulang (RNN). Ini membantu mencegah overfitting dengan membatasi nilai maksimum weight dalam jaringan, dan mendorong jaringan untuk mempelajari representasi yang jarang.
Regularisasi Max Norm dapat ditambahkan ke fungsi kerugian model sebagai penalty, atau sebagai kendala weight selama Trainning. Dengan membatasi nilai maksimum bobot, model didorong untuk mempelajari representasi data yang lebih sederhana dan lebih kuat, yang dapat meningkatkan kinerjanya pada data yang tidak terlihat.

Generalized Lp Norm

metode ini biasa disebut p, p harus number asli dan lebih dari atau sama dengan, dapat berasal dari L1, L2, L∞ norm formula dengan mengganti p. Norm, khususnya L1 dan L2 digunakan untuk regulasi fungsi objektif. Pada machine learning digunakan untuk, feature selection : L1 Norm (p = 1) digunakan untuk membantu pemilihan best feature dataset, Model Regression : L2 Norm (p = 2) digunakan untuk lost function seperti pada model linear regression and logistic regression, SVM Model : L1 dan L2 Norms digunakan untuk mengkontrol komplesitas model dan menghindari overfitting, Neural Network Model : Untuk menghindari overfitting dan mendorong network mempelajari secara halus dan berlanjut terus menerus.

C. Metrics

Dimensi selanjutnya adalah metriks, dengan memiliki karakter:
Terdapat matriks rows dan columns, contohnya 3 rows dan 2 columns Shape (3,2). Kiri kolom pada metriks adalah X1 sedangkan kanan kolom pada metriks adalah X2. Dimensi ini digunakan pada machine learning untuk represent data, parameters, and operations. Beberapa fungsi lainnya yaitu :
1. Transpose : Berguna untuk flips matriks merubah kolom menjadi baris atau sebaliknya.
2. Dot Product : Digunakan untuk menggabungkan metrik menjadi yang baru. Ini digunakan untuk matrix multiplication dan calculating output pada neural networks.
3. Invers : Ini digunakan untuk menyelesaikan persamaan linier dan untuk melakukan optimasi tertentu.
4. Determinant : untuk menguji apakah matriks dapat dibalik atau tidak.
5. Singular Value Decomposition (SVD): Berguna untuk teknik faktorasi yaitu : sebuah diagonal matrix dari singular values, left singular matrix, dan right singular matrix. Ini digunakan sebagai dimensionality reduction, noise reduction, dll.

D. Tensor Notation

Tensor Notation juga mencakup aturan untuk melakukan operasi pada tensor, seperti penjumlahan, perkalian, dan kontraksi. Contoh A dan B digabungkan menjadi AB, hal ini menunjukkan bahwa kedua vektor tersebut dikalikan elemennya dan kemudian dijumlahkan pada seluruh elemen. Tensor Notation juga digunakan untuk merepresentasikan parameter dari model machine learning, seperti bobot neural network. Parameter dari model machine learning dapat direpresentasikan sebagai kumpulan tensor, yang dapat dioptimalkan menggunakan teknik seperti gradient descent untuk meminimalkan fungsi kerugian (loss function) dari model.

2. Tensor Operation

Tensor Transposition
Tensor ini mentranspose diri sendiri Xt = X, Kemudian transpose vektor mengubah kolom menjadi baris.

Dalam machine learning, fungsi transpose dan diagonal sering digunakan untuk memanipulasi data, seperti untuk mentransformasikan matriks data menjadi format yang lebih mudah diproses atau untuk mengekstrak fitur-fitur penting dari data dalam bentuk vektor.

Hadamart Product
Operasi ini berfungsi untuk mengubah nilai dalam metriks tanpa mengubah shape kolom dan baris metriks. Di machine learning contohnya digunakan untuk melakukan perkalian berdasarkan elemen antara dua matriks, yang dapat berguna dalam jenis arsitektur Neural Network tertentu. Selain itu, ini dapat digunakan untuk menerapkan fungsi aktivasi berdasarkan elemen ke matriks, yang dapat digunakan di berbagai jenis jaringan saraf, seperti fungsi aktivasi Rectified Linear Unit (ReLU).

Dot Product
Jika kita mempunyai dua vektor (x dan y) dengan panjang yang sama kita dapat mengkalkulasi antara dot product dengan vektor. Notasi Ini dapat dijelaskan dengan beberapa cara yaitu :
.) X . Y
.) XTY
.) (X, Y)
Tanpa mempedulikan notasi mana yang digunakan, cara melakukan kalkulasinya sama di dalam element-wise fashion dan kemudian dijumlahkan secara reduksi di seluruh produk nilai skalar, dapat di formulakan di bawah ini:

dua vektor a dan b dihitung dengan mengalikan elemen yang sesuai dari vektor dan menjumlahkan hasilnya:

a · b = a₁b₁ + a₂b₂ + … + aₙbₙ

dimana a₁, a₂, …, aₙ and b₁, b₂, …, bₙ masing-masing adalah elemen vektor a dan b, dan n adalah dimensi vektor.

Operasi ini digunakan pada deep learning, pada neural network digunakan untuk membuat hidden layers, di mana setiap aktivasi dihitung dengan mengambil dot product dari fitur input dan weight dari lapisan yang sesuai, dan meneruskan hasilnya melalui fungsi aktivasi. Di dalam machine learning digunakan pada model linear regression, logistic regression, and support vector machines (SVMs).

Solving Linier System

Substitution
Penyelesaian linier sistem menggunakan substitution digunakan ketika terdapat variabel di dalam koefisiennya 1. Sebagai contoh ketika menyelesaikan persamaan linier y = 3x , -5x + 2y = 2 dapat disubtitusi menjadi -5x + 3x = 2, subtitusi ini bisa mendapatkan nilai x dan y.

jika diplottingkan maka

Maka (x,y) = (2,6). Metode ini digunakan ke beberapa model, contohnya linier regresi adalah jenis algoritma machine learning yang menggunakan model linier untuk membuat prediksi berdasarkan data masukan. Dalam regresi linier, tujuannya adalah untuk menemukan seperangkat koefisien yang meminimalkan perbedaan antara keluaran yang diprediksi dan keluaran aktual. Hal ini dapat dilakukan dengan menyelesaikan sistem persamaan linier menggunakan substitusi, dimana setiap persamaan merepresentasikan hubungan antara variabel masukan dan variabel keluaran.

Demikian pula, Super Vector Machine (SVM) adalah jenis algoritma pembelajaran mesin yang menggunakan model linier untuk mengklasifikasikan data ke dalam kategori yang berbeda. Dalam SVM, tujuannya adalah menemukan hyperplane yang memisahkan data ke dalam kelas yang berbeda. Ini juga dapat dilakukan dengan menyelesaikan sistem persamaan linier menggunakan substitusi, di mana setiap persamaan mewakili hubungan antara variabel input dan kelas output.

Elimination
Selanjutnya metode eliminasi digunakan jika tidak memiliki variable dalam sistem yang mempunyai koefisien 1. Kemudian digunakan Menggunakan properti penambahan persamaan untuk menghilangkan variabel, contohnya :

Jika diplotting maka:

Eliminasi dapat digunakan untuk mengubah sistem menjadi bentuk eselon baris tereduksi yang setara, yang dapat digunakan untuk menemukan solusi atau menentukan apakah solusi itu ada. Apa itu eselon baris?

-) Semua baris yang hanya berisi nol terletak di bagian bawah matriks.
-) Untuk setiap baris bukan nol, elemen bukan nol pertama (juga dikenal sebagai koefisien terdepan) berada tepat di sebelah kanan koefisien terdepan dari baris di atasnya.
-) Semua entri di bawah koefisien utama adalah nol.

Bentuk eselon penting dalam aljabar linier karena dapat digunakan antara lain untuk menyelesaikan sistem persamaan linier, menghitung invers matriks, dan menentukan pangkat matriks. Ini juga digunakan dalam Machine Learning, khususnya dalam regresi linier dan jenis model linier lainnya, yang digunakan untuk menemukan koefisien yang paling sesuai dengan data.

pada metode eleminasi dengan menggunakan operasi aselon dapat digunakan pada linier regresion, tujuannya adalah untuk menemukan sekumpulan koefisien yang meminimalkan perbedaan antara keluaran yang diprediksi dan keluaran aktual. Demikian pula, di PCA dan SVD, eliminasi dapat digunakan untuk mengubah matriks menjadi bentuk eselon baris tereduksi, yang dapat digunakan untuk mengekstrak fitur penting atau mengurangi dimensi data.

Linier Algebra II (Matrix Operations)

1. Metrix Properties

Frobenius Norm
Karakteristiknya sejalan dengan L2 norm pada vektor, mengukur ketentuan jarak euclidien. Cara mengukur jaraknya yaitu menjumlahkan magnitude pada semua vektor dalam X

Operasi ini digunakan pada machine learning, Salah satu penggunaan umum adalah dalam teknik regularisasi seperti regresi ridge, di mana norma Frobenius digunakan untuk memberikan penalty weight yang besar dalam model. Secara khusus, norma Frobenius dari matriks weight ditambahkan ke fungsi kerugian untuk mendorong weight yang lebih kecil.

Aplikasi lainnya adalah menghitung jarak antara dua matriks, norma Frobenius dapat digunakan untuk mengukur perbedaan antara dua matriks. Ukuran jarak ini dapat digunakan dalam algoritma clustering untuk mengelompokkan titik data yang serupa menjadi satu.

Matrix Multiplication
dasar matrix ini dapat dijabarkan seperti di bawah ini:

dapat diartikan bahwa matriks A dan B dikalikan sehingga menjadi matrix C, sebagai contoh:

jika perhitungan metriks tersebut mengalikan kolom (metrix A) dikali baris (Metrix B) kemudian jumlahkan, jika perkalian antar 2 kolom juga maka perkalian dapat dilakukan dengan cara baris (metriks A) kali kolom (Metriks B) kemudian jumlahkan. Operasi ini digunakan deep learning untuk menghitung output setiap layer dalam neural network. Dalam regresi linier, digunakan untuk menghitung produk dari data input dan matriks weight untuk menghasilkan output yang diprediksi. Dalam algoritma clustering, ini digunakan untuk menghitung jarak antara titik data.

Matrix Invers
Matriks inverse dilambangakan sebagai X menjadi X-1 ( X-1X = In), selanjutnya akan diberikan contoh bagaimana penggunaan matriks di regression.

Regression di atas dapat dirumuskan menjadi y=Xw (w merupakan vektor pada weights a sampai m). Persamaan ini dapat dideskripsikan :
a. y merupakan outcome case
b. X merupakan predictor
c. w merupakan varibel yang tidak diketahui , parameter model yang dapat dipelajari.

penggunakan X-1 (inverse) dapat menyelesaikan variabel w yang tidak diketahui dengan cara: w = X-1y. Berikut contoh untuk penyelesaian ini.

ketentuan untuk matriks inverse yaitu :
a. matrix adalah square artinya nrows = ncols ( vektor span = matrix range)
b. menghindari overdetemination yaitu nrows > ncols (npersamaan > ndimensi)
c. menghindari underdetermination yaitu nrows < ncols ( npersamaan < ndimensi).
dapat digambarkan menjadi :

overdetemination tidak dapat dikalkulasi karena garis linier mempunyai multiple point, sedangkan underdetermination hanya mempunyai satu garis linier sehingga tidak dapat dikalkulasi menggunakan inverse matrix.

Pada machine learning digunakan untuk linier regression, Matriks invers dihitung dengan menggunakan aljabar matriks dan digunakan untuk mengubah data input menjadi nilai output dari model linier. Koefisien model linier kemudian dapat dihitung menggunakan matriks invers dan data masukan.

2. Eigenvectors and Eigenvalues

a. Affine Transformation
penggunaan operasi ini dapat flip vektor menjadi vektor mirror, sehingga operasi ini dapat mengubah jarak dan angle antar vektor, selain itu dapat dilakukan untuk multiple vektor. Operasi ini dapat melakukan :
a. Scalling (mengubah panjang vektor)
b. Shearing (memperpendek vektor)
c. Rotation

Pada machine learning Operasi ini digunakan untuk augmentasi data, yang melibatkan pembuatan contoh pelatihan baru dengan menerapkan transformasi acak ke data yang ada. Dengan menerapkan transformasi affine secara acak seperti translasi, rotasi, penskalaan, dan pemotongan ke gambar atau data lain, kumpulan data yang dihasilkan dapat ditambah untuk meningkatkan ukuran dan keragamannya, yang dapat meningkatkan kinerja model machine learning.

Transformasi affine juga dapat digunakan untuk feature engineer, yang melibatkan transformasi data masukan mentah menjadi bentuk yang lebih sesuai untuk model machine learning. Misalnya, jika kumpulan data berisi beberapa fitur yang berkorelasi, transformasi affine dapat digunakan untuk membuat kumpulan fitur baru yang tidak berkorelasi sehingga dapat menangkap informasi yang sama. Ini dapat meningkatkan interpretabilitas dan kinerja model machine learning.

b. Eigenvectors and Eigenvalues

Eigenvectors digunakan sebagai petunjuk arah sedangkan Eigenvalues yang menentukan nilai arah yang dituju, gabungan antar kedua operasi ini saling berkaitan.

Gambar kiri warna merah dan biru merupakan Eigenvectors sedangkan nilai Eigenvalues = 1, jika dibandingkan dengan gambar kanan Eigenvalues diubah dari 1 menjadi 0.5 sehingga terdapat perubahaan. Eigenvectors dapat dikatakan sebagai metriks, sedangkan Eigenvalues dapat dikatakan vektor.

Pada machine learning operasi ini digunakan pada PCA, PCA adalah teknik yang digunakan untuk mengurangi dimensi dataset dengan mengidentifikasi fitur atau dimensi data yang paling penting. Untuk melakukan ini, PCA menemukan vektor eigen dan nilai eigen dari matriks kovarians data. Eigenvectors mewakili komponen utama dari data, yang merupakan arah varians maksimum, dan Eigenvalues mewakili jumlah varians yang dijelaskan oleh masing-masing komponen utama. Dengan memilih Eigenvectors dengan Eigenvalues terbesar, PCA dapat mengubah data asli berdimensi tinggi menjadi ruang berdimensi lebih rendah sambil mempertahankan informasi terpenting.

c. Determinant Metrics

Operasi ini dilakukan dengan cara memilih baris pertama sebagai pembagi matriks. Konsep yang digunakan untuk menentukan apakah suatu sistem persamaan linier mempunyai penyelesaian tunggal atau tidak. Jika determinan suatu matriks adalah nol, matriks tersebut dikatakan singular, yang berarti matriks tersebut tidak memiliki invers. Dalam pembelajaran mesin, matriks singular dapat terjadi ketika ada variabel prediktor yang independent secara linear dalam kumpulan data, dapat menyebabkan prediksi model yang tidak akurat dan overfitting. Oleh karena itu, penting untuk memeriksa determinan suatu matriks ketika membangun model machine learning untuk memastikan bahwa matriks tersebut dapat dibalik dan sistem persamaan linier memiliki solusi yang unik.

Determinant Metrics juga digunakan dalam aplikasi machine learning lainnya, seperti principal component analysis (PCA), yang digunakan untuk menghitung Eigenvectors dan Eigenvalues dari matriks kovarians. Eigenvalues mewakili varians data di sepanjang setiap komponen utama, dan Determinant Metrics kovarians mewakili total varians data.

Pada machine learning operasi ini digunakan untuk feature selection, dimensionality reduction, and matrix factorization.

Eigendecomposition

Decomposition pada matriks ke dalam eigenvectors dan eaignvalues mengacu pada karakteristik:
. matriks singular jika terdapat eaignvalues yang nol.
. Max (X) = nilai eaignvalues terbesar
. Min(X) = nilai eaignvalues terkecil

Proses operasi ini mulai dari matriks diubah menjadi eigenvalues, kemudian lakukan proses invers, kemudian pencarian lambda untuk mendapatkan diagonal matriks. Untuk mendapatkan nilai eigendecomposition makan gabungkan pencarian nilai sebelumnya menggunakn dot product maka didapatkan matrix baru hasil dari perhitung sebelumnya. Kelemahan inverse ini tidak dapat dilakukan dengan semua matriks, sehingga untuk melakukan hal tersebut dapat menggunakan transpose dengan rumus :

dimana Q dianalogikan sebagai V. Proses perhitungan sama dengan sebelumnya, perbadaannya tidak di inverse melainkan di transpose.

Pada machine learning digunakan sebagai teknik untuk merekonstruksi data atau matriks yang telah dikompresi atau didekomposisi menjadi bentuk yang lebih sederhana. Teknik ini biasanya digunakan dalam reduksi dimensi, di mana data diubah menjadi representasi yang lebih ringkas dengan memproyeksikannya ke ruang fitur yang lebih rendah. Salah satu teknik decomposesion inverse yang umum digunakan dalam machine learning adalah Principal Component Analysis (PCA). PCA mengurangi dimensi data dengan memproyeksikannya ke ruang fitur yang paling relevan, sehingga memungkinkan kita merekonstruksi kembali data asli dari representasi yang lebih rendah.

Salah satu teknik yang menggunakan operasi transpose adalah regresi linier. Dalam regresi linier, model dibentuk dengan mengalikan matriks desain X dengan vektor bobot w untuk memprediksi variabel target y. Teknik lain yang menggunakan operasi transpose adalah metode regresi Ridge dan Lasso. Dalam kedua teknik ini, kita menambahkan istilah regularisasi pada model regresi untuk mengurangi overfitting.

3. Matrix Operations for Machine Learning

Singular Value Decomposition (SVD)
Operasi ini dapat diaplikasikan ke metriks apapun, singular verctors (sejalan dengan eigenvektor), singular values (sejalan dengan eigenvalues). beberapa matriks A SVD adalah A = UDVt.

Singular matriks dapat dilakukan dengan cara satu deret kolom, diagonal, transpose dan baris. Dengan menggunakan operasi ini, sehingga dapat mengkompress sebuah data bahkan image. Hal ini disebabkan karena eigenvalue disusun secara diagonal , dengan syarat penyusunan dilakukan secara descending pada D. Kemudian, left-singular vektor pertama pada U dan right-singular vektor pertama pada V mewakili fitur yang paling menonjol dari gambar. Operasi ini sering digunakan untuk data compression, dimensionality reduction, and collaborative filtering. Pada machine learning untuk pengurangan dimensi dengan mempertahankan hanya nilai singular top-k dan vektor singular yang sesuai. Hal ini mengurangi ukuran data, yang dapat mempercepat komputasi dan mengurangi gangguan pada data.

Operasi ini biasa digunakan juga dalam filtering kolaboratif, teknik untuk sistem pemberi rekomendasi (unsupervised). Dalam hal ini, matriks A merepresentasikan peringkat yang diberikan oleh pengguna terhadap item, dan SVD dapat digunakan untuk menemukan faktor laten yang menjelaskan peringkat tersebut.

The Moore-Penrose Pseudoinverse
Operasi ini dilakukan ketika matriks tidak bisa diinvert, untuk beberapa matriks A, dapat dikalkulasi menjadi:

dimana :
D+ = D merupakan kebalikan dari semua elemen bukan nol

Pada machine learning operasi ini digunakan untuk pseudo invers digunakan dalam regresi linier untuk menemukan koefisien yang meminimalkan jumlah squared errors. Ini juga digunakan dalam teknik regularisasi seperti regresi Ridge dan regresi Lasso, di mana invers pseudo digunakan untuk menemukan koefisien yang meminimalkan jumlah squared errors yang tunduk pada penalti regularisasi.

Berikut adalah pemamparan fundamental untuk membangun sebuah machine learning yang dibuat menggunakan logika linear algebra. Selanjutnya akan dilakukan pembahasan pentingnya Calculus (Part II) untuk sebuah machine learning.

Link profil :

Linkedin : Pompy Mandislian S.T and Fernando Nainggolan

Sumber materi : Udemy