ТЕМАТИЧЕСКИЙ АНАЛИЗ ДИСКУССИЙ. СОВРЕМЕННЫЕ МЕТОДЫ, НЕДОСТАТКИ И ВОЗМОЖНОСТИ | Библиотека Института психологии РАН

Библиотека Института психологии РАН

ТЕМАТИЧЕСКИЙ АНАЛИЗ ДИСКУССИЙ. СОВРЕМЕННЫЕ МЕТОДЫ, НЕДОСТАТКИ И ВОЗМОЖНОСТИ

Алмаев Н.А.
Институт психологии Российской академии наук. Социальная и экономическая психология ВАК IF 1,280
ТИП ПУБЛИКАЦИИ статья в журнале - научная статья
ГОД 2024
ЯЗЫК RU
АННОТАЦИЯ
В данной обзорной статье обосновывается необходимость разработки средств анализа дискуссий. Критически проанализирована существующая практика применения моделей Латентного размещения Дирихле (подход «мешок слов»), и различные варианты подходов Seq2Seq (последовательность к последовательности). Особое внимание уделено большим языковым моделям, в частности трансформерам, с которыми в настоящее время связываются надежды на решение задач суммаризации и анализа мнений, как наиболее близких к анализу дискуссий. Приводятся попытки проанализировать причины галлюцинаций лингвистических моделей (LLM), в частности, работы М. Ли о математических основах галлюцинаций и эмпирическое исследование Ст. Лин, в котором было обнаружено, что количество галлюцинаций увеличивается с ростом числа параметров модели. Приводятся примеры из практики суммаризации видео, подтверждающие выводы Лин и др. Наиболее острой проблемой для анализа дискуссий видится постоянное переиначивание фамилий нейросетями. На основе изучения существующей практики намечены пути развития анализа дискуссий. Подход, лежащий в его основе, должен быть Sec2Sec (последовательность к последовательности) с предложением в качестве базовой единицы анализа. При этом на ближайшую перспективу видятся две основные задачи: 1) сопоставления всех постов какого-либо участника дискуссий между собой с целью обнаружения повторяющихся фрагментов, представляющих позицию данного человека, и 2) анализ откликов участников дискуссии на исходный пост в рамках его обсуждения. В обоих случаях предполагается сначала находить, а затем максимизировать «пятна касания» - наиболее совпадающие элементы обсуждений. Эти элементы затем могут обобщаться с помощью LLM cо сбалансированным количеством параметров, обеспечивающим обобщение, но минимизирующим галлюцинации. Также предполагается использовать низкоуровневые довекторные средства сравнения строк как для реконструкции сложных топических отношений, так и для обнаружения намеренных искажений написания слов в целях передачи дополнительной коннотативной информации.
ЦИТАТА
Алмаев, Н.А. ТЕМАТИЧЕСКИЙ АНАЛИЗ ДИСКУССИЙ. СОВРЕМЕННЫЕ МЕТОДЫ, НЕДОСТАТКИ И ВОЗМОЖНОСТИ / Н.А. Алмаев // Институт психологии Российской академии наук. Социальная и экономическая психология. – 2024. – Т. 9. – № 1 (33). – С. 37-56
АВТОРЫ

Алмаев Николай Альбертович

ЛАБОРАТОРИЯ ПСИХОЛОГИИ РЕЧИ И ПСИХОЛИНГВИСТИКИ
Ведущий научный сотрудник

Публикаций в поиске

97
КОНТЕНТ-АНАЛИЗ MOTIVATION CONTENT ANALYSIS
ПОХОЖИЕ ПУБЛИКАЦИИ
2023 год