
Описание проекта
Проект посвящен сравнительному анализу текстов твитов Канье Уэста и текстов его песен с целью выявления сходств и различий в использовании лексики. В рамках исследования были собраны данные о твитах артиста и лирике его композиций, проведена их обработка и количественный анализ. Основная задача проекта — выяснить, совпадают ли основные тематические и лексические элементы, используемые Канье Уэстом в социальных сетях, с теми, что встречаются в его музыкальных текстах.
Вводная часть
Я выбрал два набора данных, относящихся к творчеству и публичным высказываниям Канье Уэста: — Тексты песен Канье Уэста (данные взяты с kaggle). — Твиты Канье Уэста (данные также взяты с kaggle).
Эти данные содержат текстовую информацию, которая позволяет исследовать, насколько слова, используемые в песнях и твитах, уникальны для каждого из этих источников.
Данные были загружены из двух CSV-файлов. Далее я применил следующие шаги:
Удаление знаков препинания, приведение текста к нижнему регистру и удаление общеупотребительных слов (из списков слов были введены исключения, состоящие из хэштегов и музыкальных обозначений (куплет, припев, оутро и др.), союзов и артиклей). Это позволило сосредоточиться на значимых словах.
Из каждого источника данных (песни и твиты) были выделены уникальные слова.
Были найдены слова, которые присутствуют только в текстах песен и только в твитах. На их основе вычислены проценты уникальных слов.
Стилизация графиков

Графики были стилизованы внутри среды разработки при помощи подбора цветовой градации, которая наиболее бы соответствовала цветовой палитре одной из обложек альбома «My beautiful dark twisted fantasy».
Обоснование выбора темы
Канье Уэст — одна из самых обсуждаемых фигур в музыкальной индустрии и в социальных сетях. Его песни и твиты активно изучаются фанатами и критиками, так как они отражают его творческое и личное мировоззрение. Мне было интересно узнать: насколько его язык в музыке отличается от языка в социальных медиа? Использует ли он уникальные слова для выражения идей в песнях, которые не встречаются в твитах, и наоборот?
Анализ твитов
анализ 100 самых популярных слов.
анализ 25 самых популярных слов
Облако частотности слов в твитах
Анализ текстов песен
анализ 100 самых популярных слов в песнях
анализ 25 самых популярных слов в песнях
Облако частотности слов в твитах
Пересечение слов в твитах и текстах песен
топ 25 самых пересекаемых слов в твитах и текстах
топ 25 самых непересекающихся слов в твитах и песнях
процент уникальности слов в твитах и текстах песен
Ссылка на диск с кодом и базами данных