АННОТАЦИЯ
Проведена оценка возможности приложения Латентного размещения Дирихле (Latent Dirichlet Allocation, LDA) к анализу дискуссий в «Живом Журнале» (ЖЖ) на примере комментариев пользователей в трех блогах по проблемам ковид-диссидентства и антиваксерства за ноябрь 2021 г. с тэгами «коронавирус», «covid-19». Алгоритм LDA был реализован в экосистеме языка Python в составе пакетов scikitlearn . Для автоматизированной обработки данных использовался интернет-ресурс ЖЖ, формат которого способствует откровенности высказываний, что и требуется для изучения мотивации посредством контент-анализа текстов обсуждений. Парсинг содержания осуществлялся в отношении непосредственно HTML страниц ЖЖ, без использования API, что представляется важным для тех интернет площадок, у которых API отсутствует либо малофункционален. Полученные результаты показали чувствительность LDA к содержанию тем и способность отражать их близость. На основе однозначных биграмм могут быть созданы рекомендаторы или автоматические резюме. Однако при поисках глубинной мотивации антиваксерства и ковид-диссидентства в самих темах обнаруживается много информационного шума, случайных биграмм с низкой содержательностью, не интерпретируемых вне контекста предложения. Причина этого в стохастическом подходе выделения слов в документе - «мешок слов». Для дальнейшего смыслового наполнения данной методики представляется целесообразным перейти к выделению суждений: необходимо включить уровень синтаксического разбора предложения в первый этап обработки текста - токенизацию, и передавать на дальнейшую векторизацию коллекции суждений, т.е. биграммы, связанные отношением субъект-предикат.
ЦИТАТА
Алмаев, Н.А. ТЕМАТИЧЕСКИЙ АНАЛИЗ ДИСКУССИЙ С ПРИМЕНЕНИЕМ МЕТОДА ЛАТЕНТНОГО РАЗМЕЩЕНИЯ ДИРИХЛЕ / Н.А. Алмаев, О.В. Мурашева // Институт психологии Российской академии наук. Социальная и экономическая психология. – 2022. – Т. 7. – № 1 (25). – С. 47-69