Сравнение эффективности методов минимизации нулевого и первого порядка в нейронных сетях
https://doi.org/10.26425/1816-4277-2022-11-48-55
Аннотация
Для минимизации целевой функции в нейронных сетях обычно применяют методы первого порядка, предполагающие неоднократное вычисление градиента. Количество переменных в современных нейронных сетях может составлять многие тысячи и даже миллионы. Многочисленные эксперименты показывают, что время аналитического вычисления градиента функции N переменных примерно в N/5 раз больше времени вычисления самой функции. В статье рассматривается возможность использования для минимизации функции методов нулевого порядка. В частности, предлагается новый метод нулевого порядка для минимизации функции: спуск по двумерным пространствам. Проведено сравнение скоростей сходимости трех различных методов: стандартного градиентного спуска с автоматическим выбором шага, координатного спуска с выбором шага по каждой координате и спуска по двумерным подпространствам. Показано, что эффективность правильно организованных методов нулевого порядка в рассмотренных задачах обучения нейронных сетей не ниже градиентных.
Ключевые слова
Об авторах
Е. А. ГубареваРоссия
Губарева Елена Алексеевна – кандидат физико-математических наук, доцент кафедры математики и информатики
Москва
С. И. Хашин
Россия
Хашин Сергей Иванович – кандидат физико-математических наук, доцент кафедры информационных технологий и прикладной математики
Иваново
Е. С. Шемякова
Соединённые Штаты Америки
Шемякова Екатерина Сергеевна – Ph.D., ассоциированный профессор департамента математики и статистики
Толидо
Список литературы
1. Гафаров Ф.М., Галимянов А.Ф. Искусственные нейронные сети и приложения: учеб. пособие. Казань: Изд-во Казан. ун-та; 2018. 121 с.
2. Николенко С., Кадурин А., Архангельская Е. Глубокое обучение: серия «Библиотека программиста». СПб.: Питер; 2018. 480 с.
3. Chollet F. Deep Learning with Python. 2nd Ed. Shelter Island: Manning Publications Co.; 2020. 450 р.
4. Будума Н. Основы глубокого обучения. М.: Манн, Иванов и Фербер; 2020. 306 с.
5. Schroff F., Kalenichenko D., Philbin J. FaceNet: A unified embedding for face recognition and clustering, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015; P. 815–823. https://doi.org/10.1109/CVPR.2015.7298682
6. Yanping Huang et al. GPipe: Efficient training of giant neural networks using pipeline parallelism. arXiv:1811.06965 [cs.CV]. https://doi.org/10.48550/arXiv.1811.06965
7. Банди Б. Методы Оптимизации. Вводный курс. Пер. с англ. М.: Радио и связь; 1988. 127 с.
8. Kochenderfer M.J., Wheeler T.A. Algorithms for Optimization. MIT Press; 2019. 520 p.
9. Avriel M. Nonlinear Programming: Analysis and Methods. Dover Publishing; 2003. 512 p.
10. Rosenbrock H.H. An automatic method for finding the greatest or least value of a function. The Computer Journal. 1960;3:175–184.
11. Городецкий С.Ю., Гришагин В.А. Нелинейное программирование и многоэкстремальная оптимизация. Нижний Новгород: Изд-во Нижегородского гос. ун-та им. Н.И. Лобачевского; 2007. 489 c.
12. Nocedal J., Wright S.J. Numerical Optimization. 2nd ed. NY: Springer New York; 2006. 651 p. https://doi.org/10.1007/978- 0-387-40065-5
13. Акулич И.Л. Математическое программирование в примерах и задачах. М.: Высшая школа; 1986. 352 c.
14. Прокопенко Н.Ю. Методы оптимизации. Н. Новгород: ННГАСУ; 2018. 118 с.
Рецензия
Для цитирования:
Губарева Е.А., Хашин С.И., Шемякова Е.С. Сравнение эффективности методов минимизации нулевого и первого порядка в нейронных сетях. Вестник университета. 2022;1(11):48-55. https://doi.org/10.26425/1816-4277-2022-11-48-55
For citation:
Gubareva E.A., Khashin S.I., Shemyakova E.S. Comparison of the efficiency of zero and first order minimization methods in neural networks. Vestnik Universiteta. 2022;1(11):48-55. (In Russ.) https://doi.org/10.26425/1816-4277-2022-11-48-55