| Title: | Расширение контекста больших языковых моделей с использованием линейной интерполяции позиционных эмбеддингов |
| Authors: | Килбас И. А. Парингер Р. А. Грибанов Д. Н. Куприянов А. В. Мухин А. В. |
| Keywords: | большие языковые модели искусственные нейронные сети метод расширения контекста линейная интерполяция обработка языка позиционные эмбеддинги |
| Issue Date: | 2024 |
| Citation: | Расширение контекста больших языковых моделей с использованием линейной интерполяции позиционных эмбеддингов / И. А. Килбас, Р. А. Парингер, Д. Н. Грибанов, А. В. Куприянов, А. В. Мухин // Информационные технологии и нанотехнологии (ИТНТ-2024) : сб. тр. по материалам X Междунар. конф. и молодеж. шк. (г. Самара, 20-24 мая 2024 г.): в 6 т. / М-во науки и высш. образования Рос. Федерации, Самар. нац. исслед. ун-т им. С. П. Королева (Самар. ун-т). - Самара : Изд-во Самар. ун-та, 2024. - Т. 3: Искусственный интеллект : под ред. А. В. Никонорова, 2024. - С. 030342. |
| Abstract: | Исследуется проблема ограниченного контекста в больших языковых моделях (БЯМ) и предлагается новый метод для увеличения размера контекста без необходимости переобучения модели. Предложенный метод основан на линейной интерполяции позиционных эмбеддингов, позволяя значительно увеличить размер контекста БЯМ. Это в свою очередь имеет большое прикладное значение для обработки длинных документов и разработки приложений, требующих продолжительного взаимодействия с БЯМ. В ходе исследования была использована модель ruGPT-3.5 с 13 миллиардами параметров, обученная с контекстом 2048 токенов. С помощью линейной интерполяции позиционных эмбеддингов удалось успешно расширить контекст модели до 8192 токенов. Это значительное увеличение контекста открывает новые возможности для обработки длинных текстовых данных и повышения производительности чат-ботов и других приложений, работающих с БЯМ. |
| URI: | http://repo.ssau.ru/jspui/handle/123456789/12409 |
| Appears in Collections: | Информационные технологии и нанотехнологии |
Files in This Item:
| File | Size | Format | |
|---|---|---|---|
| 978-5-7883-2080-9_2024-030342.pdf | 312.76 kB | Adobe PDF | View/Open |
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.