Дипломная работа
«Исследование методов анализа тональности текста»
- 84 страниц
Введение 4
Постановка задачи 8
Обзор литературы 9
Глава 1. Обзор предметной области 10
1.1. Анализ тональностей 10
1.1.1. Сущность анализа тональностей 10
1.1.2. Виды классификации тональностей 10
1.1.3. Алгоритмы анализа тональностей 11
1.1.4. Оценка качества анализа тональностей 13
1.2. Извлечение мнений 14
1.2.1. Сущность извлечения мнений 14
1.2.2. Общая модель объекта 14
1.2.3. Виды мнений 15
1.3. Уровни, на которых проводится сентимент-анализ 16
1.4. Задачи сентимент-анализа 16
1.5. Применение 17
1.6. Обзор существующих готовых решений 17
Глава 2. Проектирование системы, выполняющей сентимент-анализ 19
2.1. Конкретизация задачи 19
2.2. Входная коллекция 20
2.3. Начальные категории 21
2.3.1. Построение начальных категорий 21
2.3.2. Алгоритмы пополнения начальных категорий 22
2.3.3. Пополнение начальных категорий 24
2.4. Тональные словари 24
2.5. Общий алгоритм решения задач 24
Глава 3. Реализация системы, выполняющей синтемент-анализ 27
3.1. Анализ тональности текста с использованием word2vec и реализацией в Python 27
3.2. Используемые инструменты 34
3.3. Векторизация 35
3.4. Классификация 36
3.5. Обработка и предоставление результатов 38
Заключение 40
Список литературы 42
Приложение 46
Человек априори не может знать все на свете. Часто в жизни происходят ситуации, когда необходимо получить информацию или сделать тот или иной выбор в области знаний, о которой индивид практически ничего не знает. Именно тогда и приходится обращаться к сторонней помощи. Если раньше, еще несколько десятков лет назад, мы обращались за традиционным советом к своим друзьям, близким, знакомым, то теперь все изменилось. С бурным развитием информационно-вычислительных технологий и, в частности, глобальной паутины Интернет, для поиска необходимой информации и помощи в выборе чего-либо появилась достойная альтернатива.
Казалось бы, в век современных технологий что может быть проще, чем послать запрос поисковой машине, а она, в свою очередь, выдаст ответы на все вопросы пользователя. Но действительно ли такие инструменты поиска помогают в полной мере удовлетворить информационную потребность человека? Из-за огромного количества разнообразного контента в мировом вебе, стремительно растущего с каждым днем, очень часто релевантная информация теряется среди мегабайт бесполезных данных. К тому же традиционный информационный поиск и веб-поиск, в частности, не всегда помогает в нахождении сторонних мнений для принятия собственного решения.
Вместе с этим, последнее десятилетие характеризуется ростом популярности различных социальных систем: блогов (пр.: Livejournal , Twitter ), форумов (огромное количество тематических сообществ, пр.: Трипадвизор - форум путешествинников, Киберфорум - форум программистов), социальных сетей (пр.: ВКонтакте , Facebook , Instagram ), интернет-сервисов, аккумулирующих мнения о том или ином объекте (пр.: Яндекс.Маркет , Кинопоиск , Amazon ). Ежедневно пользователи подобных ресурсов размещают множество сообщений, материалов, высказывают мнение о том или ином объекте. На основании подобных комментариев человек может сделать вывод о том, пользоваться или нет интересующей услугой, покупать или нет нужный продукт. На данный момент, несмотря на всю полезность такого подхода к мониторингу мнений, существует ряд серьезных недостатков: сложности в ручной обработке огромных объемов данных, нахождении мнений и их эмоциональной оценки, приведении результата к удобной форме.
Исходя из выше сказанного, появляется необходимость в создании системы автоматического нахождения и анализа мнений. Подобная задача ставится в дисциплине, которая находится на стыке информационного поиска и компьютерной лингивистики - анализ тональности текста и извлечение мнений (англ. sentiment analysis & opinion mining, также употребим термин сентимент-анализ). Сентимент-анализ - система автоматического получения из текстов эмоционально окрашенной лексики и мнений по отношению к объектам, речь о которых идет в тексте. Тональностью называется эмоциональное отношение автора высказывания, к некоторому объекту, выраженное в тексте. Под мнением будем понимать эмоциональную оценку чего-либо (формальное определение вводится в главе 1.2).
Как понятно из полного названия предмета сентимент-анализа, всю дисциплину можно разделить на две большие части. Первая - анализ тональности текста, которая зачастую ставит перед собой задачу классификации корпуса документов на основе найденных в них тональностей. Вторая часть - извлечение мнений, обычно ставит перед собой целью выделить все мнения об интересующих нас объектах из корпуса документов.
Задачи обоих блоков сентимент-анализа возникли сравнительно недавно, поэтому работа над ними продолжается. Несмотря на наличие существующих инструментов и платформ, позволяющих определять не только тональность сообщений в социальных медиа, но и выявлять обсуждаемые темы, проводить анализ мнений о брендах, а также анализировать некоторые другие параметры, единого точного алгоритма решения данной задачи не существует. Следовательно, все еще актуальна задача построения системы извлечения мнений и анализа тональностей.
Актуальность исследования: Разработка программного модуля, содержащего реализации эффективных алгоритмов определения эмоциональной окраски текстов на русском языке является актуальной задачей.
Для: Twitter Facebook Вконтакте и других web-ресурсов
Объектами исследования ВКР являются методы определения тональности текста.
Предмет исследований ВКР заключается в разработке программного модуля, содержащего алгоритмы сентимент-анализа, на языке программирования Python.
Целью ВКР является разработка программного модуля на языке программирования Python, содержащего алгоритмы сентимент-анализа текстов на русском языке для автоматизации поиска.
Задачи:
1. Исследование предметной области и анализ существующих решений для задачи определения тональности текста.
2. Реализация алгоритмов измерения тональности русскоязычных текстов на языке программирования Python.
3. Разработка программного модуля, содержащего реализации методов сентимент-анализа текстов на русском языке.
Новизна работы
* Реализованы алгоритмы на языке программирования Python и подобраны метрики для методов сентимент-анализа текста на русском языке (кодирование алгоритма).
* Разработан программный модуль на языке программирования Python для сентимент-анализа тональности русскоязычных текстов.
ГЛАВА 1. ОБЗОР ПРЕДМЕТНОЙ ОБЛАСТИ
В данной главе будут рассмотрены общие теоретические аспекты анализа тональностей и выделения мнений, задачи, которые могут решаться с помощью данных методик; будет сделан обзор уже существующих технологических решений.
1.1. Анализ тональностей
1.1.1. Сущность анализа тональностей
Как уже было сказано ранее, под задачей анализа тональностей мы будем понимать нахождение в корпусе документов лексических тональностей (лексических сентиментов, слова-сентименты) -
эмоциональных составляющих, выраженных на уровне лексемы, с целью дальнейшей классификации документов этого корпуса при помощи найденных слов-сентиментов. Лексема определяется как экземпляр последовательности символов в определенном документе, объединенных в семантическую единицу для обработки. Данная задача также называется задачей классификации полярности документов, то есть определяется, является ли выраженное в документе мнение позитивным или негативным (в простейшем случае).
1.1.2. Виды классификации тональностей
Выявленные в корпусе тональности могут классифицироваться различными способами в зависимости от выбранной модели. Достаточно часто используют одномерное эмотивное пространство с полярностями “позитив” или “негатив”. Однако иногда довольно успешно применяются и более сложные подходы.
1) Классификация по бинарной шкале [17, 21].
Самый распространенный подход, в котором часто используются два класса оценок: позитивная и негативная. Несмотря на всю кажущуюся простоту данного подхода не всегда удается однозначно определить то, к какому классу можно отнести документ: оценочный текст может содержать признаки как позитивной, так и негативной оценки.
2) Классификация по многополосной шкале [16, 18].
Наиболее очевидный способ усложнить предыдущий подход - увеличить количество классов. Теперь градация полярностей насчитывает более чем два пункта. Первые работы с соответствующим подходом были направлены на классификацию отзывов/рецензий по несколькобалльной шкале.
3) Системы шкалирования [20].
Еще одним подходом к определению тональностей является использование систем шкалирования, посредством чего словам-сентиментам, ставятся в соответствие числа по какой-то дискретной шкале, например, от -5 до +5 (от резко негативного до резко положительного). Далее текст анализируется с помощью алгоритмов обработки естественного языка, а затем выделенные из этого текста объекты исследуются с целью понимания значения этих слов.
4) Субъективность/объективность [19].
Еще одно исследовательское направление - идентификация субъективности/объективности. В рамках данной задачи данный текст относится к одному из двух классов: субъективный или объективный. Данный подход идет в сторону усложнения методики обычной классификации полярности: субъективность слов и фраз может зависеть от контекста, а объективный документ может содержать в себе субъективные предложения.
4.3.3. Алгоритмы анализа тональностей
Анализ тональностей может быть разделен на 2 отдельные категории:
1) ручной (анализ тональности ассесорами);
2) автоматизированный анализ тональности.
Различия между этими двумя заключаются в точности и эффективности анализа. Эксперт, конечно же, гораздо корректнее обрабатывает входные данные, но при этом не может соревноваться с вычислительной машиной в объемах и скорости обрабатываемых массивов данных.
Для автоматизированного анализа тональности часто используются следующие алгоритмы:
1) На основе правил [14].
Подход заключается в генерации правил, на основе которых будет определяться тональность текста. Для этого текст разбивается на слова или последовательности слов. Затем полученные данные используются для выделения часто использующихся шаблонов, которым присваивается позитивная или отрицательная оценка.
2) С использованием словарей слов-сентиментов [4].
Часто вместе с предыдущим подходом используется работа со словарями слов-сентиментов. По найденным в тексте лексическим тональностям он может быть оценен по шкале, содержащей количество позитивной и негативной лексики. Самая простая оценка - среднее арифметическое всех значений полярности слов-сентиментов.
3) Машинное обучение без учителя [21].
Данный подход основан на идее, что наибольший вес в тексте имеют термины, которые чаще встречаются в этом тексте, и в то же время присутствуют в небольшом количестве текстов всей коллекции. Выделив эти термины и определив их тональность, можно сделать вывод о тональности всего текста целиком.
В данной работе была рассмотрена задача автоматизированного анализа тональности текстов. Достигнуты следующие цели: - были исследованы методы сентимент-анализа. Разобраны их достоинства и недостатки, освещены их специфические и общие проблемы с технической точки зрения; - рассмотрены вызовы, с которыми приходится сталкиваться при анализе тональности текста, приведены их возможные преодоления; - произведено ознакомление с типами сентимент-анализа. Объяснена разница между ними, сделана формальная постановка задачи для каждого из них; - осуществлен обзор существующих средств для оценки тональности текста, составлена сводная таблица, наглядно демонстрирующая основные сведения рассмотренных программ и средств для автоматизированного анализа тональности текста; - изучены основные методы машинного обучения; - создан многопоточный модуль, оценивающий качество классификации. На основании проделанной работы можно сделать вывод, что, хотя анализ тональности текста ныне востребован, создано не так много качественных программных решений данной задачи, особенно в открытом доступе, с достаточно подробной документацией. Хотя стоит отметить, что на удивление большое количество ПО поддерживает русский язык, считающийся одним из самых сложных для анализа. Далеко не все программы могу решить такие проблемы сентимент-анализа, как сарказм и двусмысленность, требующие более глубокого метода обучения. И, к сожалению, абсолютно у всех программных решений, с любыми подходами к анализу или их комбинациями, есть привязка к языку, на котором создан текстовый документ. Это ограничение нельзя обойти. Исследование методов машинного обучения на семи наборах данных показало, что в случае уверенности в том, что тексты, которые будут поданы на вход классификатору, очень похожи на те, что присутствовали в обучающей выборке (чистота языка, «смайлики» и т.д.), то лучшим решением будет подбор оптимального алгоритма классификации. Для задачи анализа тональности текста наиболее подходящая метрика delta TF-IDF и разбиение текста на векторы признаков по униграммам или комбинациям униграмм с биграммами. Если же нужна большая предсказательная способность в общем случае, и есть большой обучающий набор данных, лучший выбор - сверточная нейронная сеть.
1) Котельников Е.В., Клековкина М.В. Автоматический анализ тональности текстов на основе методов машинного обучения // РОМИП. 2011. С. 105-120.
2) Крижановский, А.А. Автоматизированное построение списков семантически близких слов на основе рейтинга текстов в корпусе с гиперссылками и категориями // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог 2006». Бекасово, 2006. C. 297-302.
3) Лукашевич, Н.В., Четверкин, И.И. Построение модели для извлечения оценочной лексики в различных предметных областях // Моделирование и анализ информационных систем. 2013. С. 70-79.
4) Пазельская, А. Г., Соловьев, А.Н. Метод определения эмоций в текстах на русском языке // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог-2011». М.: Изд-во РГГУ, 2011. С. 510-522.
5) Худякова М.В., Давыдов С., Васильев В.Г. Классификация отзывов пользователей с использованием фрагментных правил // РОМИП. 2011. С. 36-48.
+ еще 37 источников
Оригинал в pdf
Тема: | «Исследование методов анализа тональности текста» | |
Раздел: | Информатика | |
Тип: | Дипломная работа | |
Страниц: | 84 | |
Цена: | 2600 руб. |
Закажите авторскую работу по вашему заданию.
- Цены ниже рыночных
- Удобный личный кабинет
- Необходимый уровень антиплагиата
- Прямое общение с исполнителем вашей работы
- Бесплатные доработки и консультации
- Минимальные сроки выполнения
Мы уже помогли 24535 студентам
Средний балл наших работ
- 4.89 из 5
написания вашей работы
682 автора
помогают студентам
23 задания
за последние сутки
10 минут
среднее время отклика
Дипломная работа
«Выявление запрещенного контента и девиантного поведения методами машинного обучения»Реферат
«Метод анализа продуктов деятельности»Курсовая работа
«Особенности применения метода анализа продуктов деятельности в педагогических исследованиях»Реферат
«В чём специфика использования метода изучения продуктов деятельности в педагогической психологии?»Контрольная работа
«Методы анализа документов. Психологические проблемы взаимодействия с аудиторией»