Дипломная работа

«Выявление запрещенного контента и девиантного поведения методами машинного обучения»

  • 41 страниц
Содержание

Введение 3

Глава 1. Анализ предметной области 5

1.1 Анализ эмоциональной окраски текстов 5

1.2 Методы автоматического определения тональности текста 10

1.3 Основные методы кластеризации 16

Выводы по первой главе 20

Глава 2. Реализация программного модуля 22

2.1 Системы анализа тональности текста на русском языке 22

2.2 Исходные данные 23

2.3 Программная реализация 26

2.4 Выводы по второй главе 35

Заключение 37

Список литературы 39

Введение

Социальные сети плотно вошли в повседневную жизнь граждан нашей страны. На сегодняшний день ими пользуются 59% россиян старше 18 лет. Самой популярной соцсетью оказалась «ВКонтакте», в декабре 2017 года ее посещали 65% пользователей, на втором месте — «Одноклассники» (63%). Третье и четвертое место заняли Instagram (23%) и Facebook (20%). Далее следуют «Мой мир» (9%), Twitter (7%), «Живой Журнал» (3%) и другие соцсети (1%) [14].

В связи с постоянным ростом количества пользователей социальных сетей, возникает необходимость оценивать эмоциональную окраску сообщений, размещаемых ими в соцсетях.

Количество публикуемых сообщений достигает нескольких тысяч, и очевидно, что их обработка экспертами вручную становится невозможной. В связи с этим широкое распространение получили такие области Computer Science, как Opinion Mining и Sentiment Analysis (от английского sentiment - чувство). Появилась возможность автоматического извлечения мнения, выраженного в тексте. С этой целью применялись методы машинного обучения (Machine Learning), позднее стали появляться методы, основанные на использовании словарей тональных слов (lexicon-based approach).

Так как определение тональности текста способно выявить эмоционально окрашенную лексику и проанализировать мнение автора в отношении объектов, о которых идет речь в сообщении, данный вопрос является актуальным. Он представляет интерес социологов, психологов, а также государственных структур.

Объектом исследования выступают текстовые сообщения, оставленные пользователями социальной сети.

Предметом является анализ эмоциональной окраски сообщений пользователей социальных сетей методами машинного обучения.

Целью данной выпускной квалификационной работы является исследование методов автоматического определения тональности текста, и 3

их применение для разработки программного модуля, который позволяет оценивать эмоциональную окраску русскоязычных сообщений пользователей социальных сетей.

Для достижения цели были поставлены следующие задачи:

• исследовать области применения, основные задачи и проблемы анализа тональности текста, а также связанные с ним основные понятия;

• проанализировать основные подходы, предназначенные для решения задач сентимент-анализа;

• разработать программный модуль, для выявления запрещенного контента и девиантного поведения методами машинного обучения.

Новизна работы заключается в том, что разработанный программный модуль, позволяющий определять эмоциональную окраску сообщений пользователей социальных сетей, предназначен для русскоязычных текстов. В качестве оценки исследования выступают сообщения, содержащие информацию о школе.

Программный модуль реализован на языке программирования Python, это предоставляет возможность протестировать алгоритм на реальных данных и сравнить показатели с классическими алгоритмами классификации, основанными на методах машинного обучения, что определило практическую значимость работы.

Данная работа состоит из двух глав. Первая глава содержит в себе обзор предметной области, рассмотрены различные методы сентимент- анализа. Во второй главе представлен разработанный программный модуль для выявления запрещенного контента и девиантного поведения методами машинного обучения.

Фрагмент работы

ГЛАВА 1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ

1.1 Анализ эмоциональной окраски текстов

1.1.1 Основные понятия анализа тональности текстов

Под анализом эмоциональной окраски текста (сентимент-анализом) понимается задача автоматического анализа эмоционально окрашенной лексики и мнений, выраженных в тексте. При проведении анализа эмоциональной окраски текстов предполагают, что информация в сети Интернет, в том числе и в социальных сетях подразделена на два класса: мнения и факты [2]. Наиболее важным понятием в данном случае является понятие мнения.

Мнение — это одно из важнейших проявлений общественного и индивидуального сознания, совокупность связанных меду собой суждений, заключающих в себе скрытое или явное отношение, оценку каких-либо явлений, процессов, событий и фактов действительности [15].

Мнение является центральным понятием практически в любой деятельности человека, оказывая наибольшее влияние на наше поведение. Практически всегда при принятии какого-либо решения человеку важно знать, что об этом думают окружающие. Людям интересно знать мнение пользователей товара перед тем, как совершить покупку. Многие граждане стараются узнать, что думают избиратели по поводу того или иного кандидата перед тем как отдать свое предпочтение на политических выборах, и так далее.

С развитием социальных сетей в сети интернет люди все более стали обращаться к таким ресурсам для принятия решений с учетом мнения общественности.

Мнения подразделяют на два типа: простое мнение и сравнительное.

Простое мнение, обычно, содержит точку зрения его автора о каком-то конкретном объекте. Может быть высказано прямо или неявно.

Объектом анализа тональности текста может быть любая сущность, относительно которой можно выразить мнение в тексте.

Автор мнения - это человек, выражающий свое мнение.

Тональностью (сентиментом) называется эмоциональная окраска, выраженная в тексте. Обычно при сентимент-анализе выделяют три класса эмоциональной окраски: позитивная, нейтральная и негативная [10]. Если в тексте отсутствует эмоциональная составляющая, он считается нейтрально окрашенным.

Таким образом, мнение определяется через кортеж из четырех элементов, (entity, sentiment value, holder, time). В котором entity - это объект, о котором автор (holder) высказал свое мнение (sentiment value) в определенный момент времени (time) [10].

Второй тип мнений - сравнение - это процесс количественного или качественного сопоставления различных свойств (отличий, сходств, недостатков и преимуществ) двух или более объектов в результате которого целью формирования является определенная оценка или мнение для одного из них [3].

Заключение

Анализ тональности текста — это активно развивающая область компьютерной лингвистики, изучение которой дает большие возможности для лингвистических, психологических, социологических исследований.

Целью данной выпускной квалификационной работы являлось исследование методов автоматического определения тональности текста, и их применение для разработки программного модуля, который позволяет оценивать эмоциональную окраску русскоязычных сообщений пользователей социальных сетей.

Для достижения данной цели были решены следующие задачи:

• исследованы и применены в ходе написания выпускной квалификационной работы задачи и проблемы анализа тональности, а также основные понятия, связанные с ним;

• проанализированы и использованы основные подходы для решения задач сентимент-анализа;

• разработан программный модуль, для выявления запрещенного контента и девиантного поведения методами машинного обучения.

В наше время социальные сети являются популярным средством коммуникации. В них люди высказывают свои мнения о продуктах, услугах, политике и т.д., что делает социальные сети интересными для социологических и маркетинговых исследований. Поэтому тема классификации текстов является актуальной. Методы анализа социальной сети могут также стать шагом к созданию принципиально новых автоматизированных социологических и маркетинговых исследований тональности в конкретной предметной области.

Разработанный программный модуль дает возможность оценивать эмоциональную окраску русскоязычных сообщений в социальных сетях. Так как для обучения использовалась выборка, содержащая в себе 226 834 сообщения различной тематики, это дает возможность оценивать эмоциональную окраску сообщений в различных предметных областях.

Анализ эмоциональной окраски текста дает возможность выявлять запрещенный контент, а также девиантное поведение пользователей социальных сетей, особенно тех, которые публикуют сообщения с негативной эмоциональной окраской.

Список литературы

1. Клековкина, М.В., Котельников, Е.В. Метод автоматической классификации текстов по тональности, основанный на словаре эмоциональной лексики [Текст] // М.В. Клековкина, Е.В. Котельников Электронные библиотеки: перспективные методы и технологии, электронные коллекции (RCDL-2012): тр. XIV Всерос. науч. конф. Переславль-Залесский: Изд-во «Университет города Переславль», 2012. С. 118-123.

2. Васильева, А.С. Проблема разработки системы оценки тональности сообщений на украинском языке [Электронный ресурс]. - Режим доступа: URL: https://ds**ce.spbu.rU/bitstream/11701/8117/1/Diplomnaya rabota V asileva 2017.pdf / Васильева Анна Станиславовна; СПбГУ. - Санкт- Петербург, 2017. - 73 с. (дата обращения 12.05.2018г.)

3. Воронина, И.Е., Гончаров, В.А. Анализ эмоциональной окраски сообщений в социальных сетях (на примере сети «вконтакте») // ВЕСТНИК ВГУ. - 2015 [Электронный ресурс]. - Режим доступа: URL:

http://www.ves**ik.vsu.ru/pdf/analiz/2015/04/2015-04-21 .pdf / И.Е. Воронина, В.А. Гончаров (дата обращения: 01.06.2018).

4. Воронцов, К.В. Лекции по алгоритмам кластеризации и многомерного шкалирования [Электронный ресурс]. - Режим доступа: URL: http://www.c**as.ru/voron/download/Clustering.pdf / К.В. Воронцов (дата обращения 28.10.2018г.)

5. Воронцов, К.В. Математические методы обучения по прецедентам (теория обучения машин) [Электронный ресурс]. - Режим доступа: URL: http: //www.machin**earning.ru/wiki/images/6/6d/V oron-ML-

1.pdf / К.В. Воронцов (дата обращения: 17.12.2018)

6. Карпова, А.Е., Основные методы автоматического определения тональности текста // Вестник магистратуры. — 2018. — №6-4 (81). — С. 36-39. — [Электронный ресурс]. - Режим доступа: URL:

http://www.magi**erjournal.ru/docs/VM81_4.pdf / А.Е. Карпова (дата обращения 10.12.2018)

7. Карпова, А.Е., Основные методы кластеризации // Вестник магистратуры.— 2018. — №11-3 (86). — С. 27-30. — [Электронный

ресурс]. - Режим доступа: URL: http://www.magi**erjournal.ru/docs/VM86_3.pdf / А.Е. Карпова (дата обращения 10.12.2018)

8. Меньшиков, И.Л., Кудрявцев, А.Г. Обзор систем анализа тональности текста на русском языке // Молодой ученый. — 2012. — №12. — С. 140-143. — [Электронный ресурс]. - Режим доступа: URL:

https://mo**ch.ru/archive/47/5951/ / И.Л. Меньшиков, А.Г. Кудрявцев (дата обращения: 19.12.2018).

9. Рубцова, Ю.В., Построение корпуса текстов для настройки тонового классификатора // Программные продукты и системы, 2015, №1(109), - С.72-78. — [Электронный ресурс]. - Режим доступа: URL: http://study.mo**ron.com / Ю.В. Рубцова (дата обращения: 10.06.2018).

10. Харламов, А.А., Ермоленко, Т.В., Жонин, А.А. Моделирование динамики процессов на основе анализа последовательности текстовых выборок [Электронный ресурс]. - Режим доступа: URL:

http: //iv**on.ru/uploads/article/pdf/IVD 66A Kharlamov.pdf 2047.pdf /

А.А. Харламов, Т.В. Ермоленко, А.А. Жонин (дата обращения: 15.11.2018г.)

11. Чубукова, И. Data Mning [Электронный ресурс]. - Режим доступа: URL: https://www.i**uit.ru/studies/courses/6/6/lecture/182?page=2 /

И. Чубукова (дата обращения 29.10.2018г.)

12. Чусовлянов, Д.С. Машинное обучение для определения тональности и классификации текстов на несколько классов [Электронный ресурс]. - Режим доступа: URL: http://doc**ayer.ru/50497921-Nacionalnyy- issledovatelskiy-universitet-vysshaya-shkola-ekonomiki.html / Чусовлянов Дмитрий Сергеевич; НИУ ВШЭ. - Москва, 2014. - 71 с. (дата обращения 13.05.2018г.)

13. Лаборатория статистических исследований Кубанского государственного университета. Кластерный анализ [Электронный ресурс]. -

Режим доступа: URL: http://www.sta**ab.kubsu.ru/sites/project_bank/claster.pdf (дата обращения 28.10.2018г.)

14. Левада-Центр [Электронный ресурс]. - Режим доступа: URL: https://www.lev**a.ru/2018/01/18/polzovatelej-sotssetej-v-rossii-stalo-bolshe/ - Пользователей соцсетей в России стало больше (дата обращения: 10.05.2018г.)

15. Философия: Энциклопедический словарь. — М.: Гардарики. Под редакцией А.А. Ивина. 2004. [Электронный ресурс]. - Режим доступа: URL: https://dic.aca**mic.ru/dic.nsf/enc philosophy/737/%D0%9C%D0%9D%D0%95 %D0%9D%D0%98%D0%95 (дата обращения 01.12.2018г.)

16. Andrew McCallum, Kamal Nigam. A Comparison of Event Models for Naive Bayes Text Classification// In Proc. of the AAAI-98 workshop on learning for text categorization, 1998.

17. Choi, Y., & Cardie, C. (2008). Learning with compositional semantics as structural inference for subsentential sentiment analysis. Proceedings of the Conference on Empirical Methods in Natural Language Processing, pp. 793-801.

18. Milos Radovanovic, Mirjana Ivanovic. Text mining: approaches and applications// Novi Sad Journal of Mathematics 38(3), 2008, P. 229-233.

Примечания

Оригинал в pdf

Покупка готовой работы
Тема: «Выявление запрещенного контента и девиантного поведения методами машинного обучения»
Раздел: Информатика
Тип: Дипломная работа
Страниц: 41
Цена: 2100 руб.
Нужна похожая работа?
Закажите авторскую работу по вашему заданию.
  • Цены ниже рыночных
  • Удобный личный кабинет
  • Необходимый уровень антиплагиата
  • Прямое общение с исполнителем вашей работы
  • Бесплатные доработки и консультации
  • Минимальные сроки выполнения

Мы уже помогли 24535 студентам

Средний балл наших работ

  • 4.89 из 5
Узнайте стоимость
написания вашей работы
Популярные услуги
Дипломная на заказ

Дипломная работа

от 8000 руб.

срок: от 6 дней

Курсовая на заказ

Курсовая работа

от 1500 руб.

срок: от 3 дней

Отчет по практике на заказ

Отчет по практике

от 1500 руб.

срок: от 2 дней

Контрольная работа на заказ

Контрольная работа

от 100 руб.

срок: от 1 дня

Реферат на заказ

Реферат

от 700 руб.

срок: от 1 дня

682 автора

помогают студентам

23 задания

за последние сутки

10 минут

среднее время отклика