Form Bimbingan

Nama
Muhammad Rizqi Nur
NRP
6026221012
Pembimbing 2
Judul
kembali
No Tanggal Pokok Bahasan Status
1 2023-10-23 1. Saya sudah coba SGD dan tanpa bias, tapi prediksi tetap collapse ke 0 stdev. 2. Saya coba tambahkan perbedaan stdev (mse) sebagai loss, jadi sedikit lebih lambat collapse, tapi tetap collapse juga. Saya cek lagi nilai stdev ini memang kecil sekali. Mungkin saya akan buat penalty stdev menuju infinity ketika stdev mendekati nol. Mungkin dengan 1/x atau tan. Untuk bagian positifnya mungkin MSE atau 0. 3. Saya lihat bahwa gradient penalty bisa sangat besar dibanding regression loss. Sedangkan ketika model collapse ke mean, keduanya bisa sangat kecil. Ini karena gradient akan sangat kecil ketika loss kecil. Collapse ke mean adalah langkah terbaik yang bisa diambil model untuk meminimalkan total loss. 4. Sedangkan embed loss trivial karena tidak memprediksi label. Nilainya bisa kecil meskipun ketika model (role model) gagal berkonvergensi ke mean. 5. Karena sebelumnya saya duga ini terjadi karena ketidakseimbangan loss, saya coba pakai metode loss balancing dari beberapa paper, tapi ternyata sama saja. 6. Kemudian saya coba untuk mengesampingkan gradient penalty, ternyata model tetap collapse ke mean. 7. Berarti kemungkinannya hanya model tidak mampu mempelajari pola, atau ada bug. 8. Adapter dan head cuma setumpuk dense layer, jadi saya bisa uji konvergensi untuk regresi biasa. 9. Untuk transformer, kira-kira dataset apa yang cocok untuk mengujinya? Yang jumlahnya kecil (training cepat) dan sudah pasti bagus kalau tidak ada bug. 10. Saya lihat model yang sudah collapse ke mean tidak pernah recover. Jadi sekarang langsung saya prune saja, tidak menunggu early stopping atau epoch habis. 11. Sementara tuning saya lanjutkan dengan LR sangat kecil (1e-7 - 1e-4) belum disetujui
2 2023-11-04 1. Percobaan regresi 20 epoch untuk adapter dan head (MLP) tidak ada masalah. Model berkonvergensi sama dengan MLP biasa. 2. Percobaan translasi 10 epoch untuk layer encoder & decoder tidak ada masalah. Model berkonvergensi sama dengan transformer aslinya. 3. Percobaan prediksi set 20 epoch untuk modul set attention ada bug, karena ternyata implementasi attentionnya beda dengan attention biasa tapi tidak disebutkan di papernya. Dia tambahkan fungsi aktivasi ReLU setelah w_O dan koneksi residual sebelum w_O, serta menghilangkan LayerNorm. Sudah saya samakan dan model berkonvergensi sama dengan set transformer aslinya. 4. Perubahan dari set attention saya coba untuk percobaan translasi transformer, dan hasilnya lebih baik dari transformer aslinya. 5. Tapi ketika saya coba kembali eksperimen saya, ternyata model masih collapse ke mean. 6. Saya coba menghilangkan gradient penalty (gp loss = 0), model masih collapse ke mean. 7. Saya coba fitting untuk role model saja (embed loss=0), model masih collapse ke mean. 8. Saya coba fitting untuk 2 example saja, model tidak bisa overfit dan masih collapse ke mean. 9. Meskipun ketika std loss (mean penalty) tinggi, model tetap berusaha collapse ke mean 10. Kadang loss berosilasi antara menurunkan std loss atau menurunkan error prediksi. Ini berarti model hanya mampu menurunkan error prediksi dengan collapse ke mean, sedangkan menurunkan std loss meningkatkan error prediksi yang berarti peningkatan varian tidak berarti. belum disetujui