Form Bimbingan

Nama
Muhammad Rizqi Nur
NRP
6026221012
Pembimbing 2
Judul
kembali
No Tanggal Pokok Bahasan Status
1 2023-10-23 1. Saya sudah coba SGD dan tanpa bias, tapi prediksi tetap collapse ke 0 stdev. 2. Saya coba tambahkan perbedaan stdev (mse) sebagai loss, jadi sedikit lebih lambat collapse, tapi tetap collapse juga. Saya cek lagi nilai stdev ini memang kecil sekali. Mungkin saya akan buat penalty stdev menuju infinity ketika stdev mendekati nol. Mungkin dengan 1/x atau tan. Untuk bagian positifnya mungkin MSE atau 0. 3. Saya lihat bahwa gradient penalty bisa sangat besar dibanding regression loss. Sedangkan ketika model collapse ke mean, keduanya bisa sangat kecil. Ini karena gradient akan sangat kecil ketika loss kecil. Collapse ke mean adalah langkah terbaik yang bisa diambil model untuk meminimalkan total loss. 4. Sedangkan embed loss trivial karena tidak memprediksi label. Nilainya bisa kecil meskipun ketika model (role model) gagal berkonvergensi ke mean. 5. Karena sebelumnya saya duga ini terjadi karena ketidakseimbangan loss, saya coba pakai metode loss balancing dari beberapa paper, tapi ternyata sama saja. 6. Kemudian saya coba untuk mengesampingkan gradient penalty, ternyata model tetap collapse ke mean. 7. Berarti kemungkinannya hanya model tidak mampu mempelajari pola, atau ada bug. 8. Adapter dan head cuma setumpuk dense layer, jadi saya bisa uji konvergensi untuk regresi biasa. 9. Untuk transformer, kira-kira dataset apa yang cocok untuk mengujinya? Yang jumlahnya kecil (training cepat) dan sudah pasti bagus kalau tidak ada bug. 10. Saya lihat model yang sudah collapse ke mean tidak pernah recover. Jadi sekarang langsung saya prune saja, tidak menunggu early stopping atau epoch habis. 11. Sementara tuning saya lanjutkan dengan LR sangat kecil (1e-7 - 1e-4) disetujui