Original size 2480x3500

Анализ статистики по Sci-Fi книгам

PROTECT STATUS: not protected
The project is taking part in the competition

Предисловие

В качестве датасета для анализа выбран «Science Fiction Books (10,000+)» с сайта www.kaggle.com; в этом семестре я посещала курс «Истории Фантастики и Футурологии», где нас познакомили с футурологическими и фантастическими концепциями из многих романов в жанре Science Fiction, и мне показалось будет интересно провести анализ жанра на уровне статистики.

Работа выполнена в Google Colab, с использованием Pandas для анализа и визуализации данных, искусственный интеллект при выполнении работы не использовался.

Подготовка к работе

Датасет состоит из 12ти файлов; они одинаково структурированы, разбивка датасета идёт по субжанрам Sci-Fi. Перед началом работы с датасетом нужно объединить их. Читаю каждый файл, а после использую функцию concat () для объединения.

В итоге получаю таблицу в 14974 строк и 11 колонок. Такой объём оправдывает использование программирования для анализа данных.

big
Original size 586x321

Визуализация

В этом проекте я работаю с двумя видами диаграмм: гистограммы и точечные. Я считаю что они лучше всего подходят для наглядной демонстрации корреляций и статистики, особенно той что связана со временем.

Как оценивают Sci-Fi книги

Первым делом хочу визуализировать количество книг с определенным рейтингом (в датасете собрана информация с Goodreads). Использую простую строчку кода. Специально оставляю весь диапазон оценок видимым на диаграмме, во избежание искажений в понимании зрителя.

Original size 541x48
Original size 1227x351

На получившейся гистограмме можно увидеть, что оценки пользователей в среднем варьируются от 3 до 5 звёзд и больше всего книг оценено в районе 4х.

Годы издания

Интересная тема которую поднимали на Истории Футурологии это своеобразные эпохи в Sci-Fi, периоды через которые прошел жанр. Мне стало интересно посмотреть с высоты и узнать как жанр в целом набирал популярность, в данном случае среди авторов.

Original size 735x55

Эта гистограмма будет логарифмической, так как если брать чистые данные значения поменьше просто невозможно быстро разглядеть.

Original size 1237x351

На итоговой диаграмме видно, что количество изданных романов в жанре Sci-Fi в основном лишь росло всё это время.

Корреляция между годом публикации и читательской оценкой

Гипотеза была высказана на парах по Истории Футурологии: «качество романов в жанре Sci-Fi росло с годами выросло, потому что авторы учились друг у друга и с переходом жанра в mainstream они стали больше внимания уделять тому чтобы романы приятно и легко читались».

Проверим эту гипотезу с помощью построения диаграммы для отслеживания корреляции между годом выхода и оценкой читателей на Goodreads.

Original size 744x325

Для работы беру романы начиная с 1800 года выпуска так как до этого их совсем мало, что плохо повлияет и на отслеживание корреляции, и затруднит восприятие зрителем более визуально загруженной части диаграммы.

Также не беру те романы которые оценены на 0: они так оценены в связи с тем, что оценок нет и это было бы не корректно позволять им влиять на статистику в этом случае.

Original size 547x413

На получившейся диаграмме видим что тренд на повышение читательской оценки присутствует, но изменение не столь значительно: меньше чем половина балла. Нельзя сказать что в среднем восприятие читателями Sci-Fi романов значительно улучшилось с годами.

Корреляция между средней оценкой и количеством оценивших читателей

Также у меня возникла своя гипотеза. Что если высота оценки книги связана не столько с годом выпуска сколько с количеством проголосовавших? Узнаем как меняется оценка книги с возрастанием количества оценивших.

Сначала визуализирую весь датасет на точечной диаграмме, где по X количество проголосовавших, а по Y оценка на Goodreads.

Original size 611x160
Original size 554x432

Узнаю что книг с более чем 3мя миллионами оценок почти нет в датасете и для упрощения анализа и зрительского восприятия убираю их, прежде чем строить линию тренда.

Original size 738x245
Original size 567x432

На итоговой диаграмме видно, что не смотря на то что книги с большим количеством оценок не оценены на 5 баллов, в среднем книги с большим количеством оценок действительно оцениваются выше.

Заключение

В процессе работы я проанализировала датасет «Science Fiction Books (10,000+)»: визуализировала информацию о годах выпуска и читательской оценки романов и проверила гипотезы о корреляции читательской оценки романа с другими факторами.