Top.Mail.Ru
Preview

Вестник университета

Расширенный поиск

Сравнение эффективности методов минимизации нулевого и первого порядка в нейронных сетях

https://doi.org/10.26425/1816-4277-2022-11-48-55

Аннотация

Для минимизации целевой функции в нейронных сетях обычно применяют методы первого порядка, предполагающие неоднократное вычисление градиента. Количество переменных в современных нейронных сетях может составлять многие тысячи и даже миллионы. Многочисленные эксперименты показывают, что время аналитического вычисления градиента функции N переменных примерно в N/5 раз больше времени вычисления самой функции. В статье рассматривается возможность использования для минимизации функции методов нулевого порядка. В частности, предлагается новый метод нулевого порядка для минимизации функции: спуск по двумерным пространствам. Проведено сравнение скоростей сходимости трех различных методов: стандартного градиентного спуска с автоматическим выбором шага, координатного спуска с выбором шага по каждой координате и спуска по двумерным подпространствам. Показано, что эффективность правильно организованных методов нулевого порядка в рассмотренных задачах обучения нейронных сетей не ниже градиентных.

Об авторах

Е. А. Губарева
Государственный университет управления
Россия

Губарева Елена Алексеевна – кандидат физико-математических наук, доцент кафедры математики и информатики

Москва



С. И. Хашин
Ивановский государственный университет
Россия

Хашин Сергей Иванович – кандидат физико-математических наук, доцент кафедры информационных технологий и прикладной математики

Иваново



Е. С. Шемякова
Университет Толидо
Соединённые Штаты Америки

Шемякова Екатерина Сергеевна – Ph.D., ассоциированный профессор департамента математики и статистики

Толидо



Список литературы

1. Гафаров Ф.М., Галимянов А.Ф. Искусственные нейронные сети и приложения: учеб. пособие. Казань: Изд-во Казан. ун-та; 2018. 121 с.

2. Николенко С., Кадурин А., Архангельская Е. Глубокое обучение: серия «Библиотека программиста». СПб.: Питер; 2018. 480 с.

3. Chollet F. Deep Learning with Python. 2nd Ed. Shelter Island: Manning Publications Co.; 2020. 450 р.

4. Будума Н. Основы глубокого обучения. М.: Манн, Иванов и Фербер; 2020. 306 с.

5. Schroff F., Kalenichenko D., Philbin J. FaceNet: A unified embedding for face recognition and clustering, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015; P. 815–823. https://doi.org/10.1109/CVPR.2015.7298682

6. Yanping Huang et al. GPipe: Efficient training of giant neural networks using pipeline parallelism. arXiv:1811.06965 [cs.CV]. https://doi.org/10.48550/arXiv.1811.06965

7. Банди Б. Методы Оптимизации. Вводный курс. Пер. с англ. М.: Радио и связь; 1988. 127 с.

8. Kochenderfer M.J., Wheeler T.A. Algorithms for Optimization. MIT Press; 2019. 520 p.

9. Avriel M. Nonlinear Programming: Analysis and Methods. Dover Publishing; 2003. 512 p.

10. Rosenbrock H.H. An automatic method for finding the greatest or least value of a function. The Computer Journal. 1960;3:175–184.

11. Городецкий С.Ю., Гришагин В.А. Нелинейное программирование и многоэкстремальная оптимизация. Нижний Новгород: Изд-во Нижегородского гос. ун-та им. Н.И. Лобачевского; 2007. 489 c.

12. Nocedal J., Wright S.J. Numerical Optimization. 2nd ed. NY: Springer New York; 2006. 651 p. https://doi.org/10.1007/978- 0-387-40065-5

13. Акулич И.Л. Математическое программирование в примерах и задачах. М.: Высшая школа; 1986. 352 c.

14. Прокопенко Н.Ю. Методы оптимизации. Н. Новгород: ННГАСУ; 2018. 118 с.


Рецензия

Для цитирования:


Губарева Е.А., Хашин С.И., Шемякова Е.С. Сравнение эффективности методов минимизации нулевого и первого порядка в нейронных сетях. Вестник университета. 2022;1(11):48-55. https://doi.org/10.26425/1816-4277-2022-11-48-55

For citation:


Gubareva E.A., Khashin S.I., Shemyakova E.S. Comparison of the efficiency of zero and first order minimization methods in neural networks. Vestnik Universiteta. 2022;1(11):48-55. (In Russ.) https://doi.org/10.26425/1816-4277-2022-11-48-55

Просмотров: 342


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1816-4277 (Print)
ISSN 2686-8415 (Online)