
LLM становятся менее логичными, хуже рассуждают и чаще выдают токсичные или опасные ответы. Это выяснилось в ходе совместного исследования учёных из Университета Иллинойса, Массачусетского технологического института и Сингапурского университета управления.
Они добавляли короткие и популярные твиты в процесс дообучения четырёх языковых моделей — Llama 3 8B Instruct, Qwen 2.5 7B Instruct, Qwen 2.5 0.5B Instruct, Qwen 3 4B Instruct — и измеряли результаты по четырём направлениям: рассуждение, работа с длинным контекстом, безопасность и поведенческие черты. Во всех случаях наблюдался явный «доза-эффект»: чем больше доля «мусорных» постов, тем сильнее деградация ИИ.
Основная проблема заключается не во входящем контенте, а в практически необратимом изменении мышления нейросети. LLM начали отвечать без плана, обрывать рассуждения и терять логическую цепочку. Вместе с этим возросла токсичность и агрессивность ответов, а также стала чаще проявляться «тёмная триада»: нарциссизм, макиавеллизм и психопатия. К базовому уровню модели не удалось вернуть даже через инструкционное дообучение или рефлексию.
Количество лайков и репостов исследователи назвали лучшим сигналом того, что твит ухудшит ИИ. То есть опасен именно виральный стиль такого формата текста — кратко, громко, без развёрнутой мысли.