Доклад будет посвящен оценке качества работы больших языковых моделей (LLM) на длинных контекстах. Докладчик обсудит ограничения популярного теста Needle-in-a-haystack и представит новый бенчмарк BABILong, а также результаты тестирования на нём моделей, таких как GPT-4, LLaMA-3.1, Phi-3.5 и других.
Также будет проанализирована эффективность различных подходов к увеличению длины входа и улучшению обработки длинных текстов, включая рекуррентные модели с памятью.