
Предисловие
В качестве датасета для анализа выбран «Science Fiction Books (10,000+)» с сайта www.kaggle.com; в этом семестре я посещала курс «Истории Фантастики и Футурологии», где нас познакомили с футурологическими и фантастическими концепциями из многих романов в жанре Science Fiction, и мне показалось будет интересно провести анализ жанра на уровне статистики.
Работа выполнена в Google Colab, с использованием Pandas для анализа и визуализации данных, искусственный интеллект при выполнении работы не использовался.
Подготовка к работе
Датасет состоит из 12ти файлов; они одинаково структурированы, разбивка датасета идёт по субжанрам Sci-Fi. Перед началом работы с датасетом нужно объединить их. Читаю каждый файл, а после использую функцию concat () для объединения.
В итоге получаю таблицу в 14974 строк и 11 колонок. Такой объём оправдывает использование программирования для анализа данных.

Визуализация
В этом проекте я работаю с двумя видами диаграмм: гистограммы и точечные. Я считаю что они лучше всего подходят для наглядной демонстрации корреляций и статистики, особенно той что связана со временем.
Как оценивают Sci-Fi книги
Первым делом хочу визуализировать количество книг с определенным рейтингом (в датасете собрана информация с Goodreads). Использую простую строчку кода. Специально оставляю весь диапазон оценок видимым на диаграмме, во избежание искажений в понимании зрителя.
На получившейся гистограмме можно увидеть, что оценки пользователей в среднем варьируются от 3 до 5 звёзд и больше всего книг оценено в районе 4х.
Годы издания
Интересная тема которую поднимали на Истории Футурологии это своеобразные эпохи в Sci-Fi, периоды через которые прошел жанр. Мне стало интересно посмотреть с высоты и узнать как жанр в целом набирал популярность, в данном случае среди авторов.
Эта гистограмма будет логарифмической, так как если брать чистые данные значения поменьше просто невозможно быстро разглядеть.
На итоговой диаграмме видно, что количество изданных романов в жанре Sci-Fi в основном лишь росло всё это время.
Корреляция между годом публикации и читательской оценкой
Гипотеза была высказана на парах по Истории Футурологии: «качество романов в жанре Sci-Fi росло с годами выросло, потому что авторы учились друг у друга и с переходом жанра в mainstream они стали больше внимания уделять тому чтобы романы приятно и легко читались».
Проверим эту гипотезу с помощью построения диаграммы для отслеживания корреляции между годом выхода и оценкой читателей на Goodreads.
Для работы беру романы начиная с 1800 года выпуска так как до этого их совсем мало, что плохо повлияет и на отслеживание корреляции, и затруднит восприятие зрителем более визуально загруженной части диаграммы.
Также не беру те романы которые оценены на 0: они так оценены в связи с тем, что оценок нет и это было бы не корректно позволять им влиять на статистику в этом случае.
На получившейся диаграмме видим что тренд на повышение читательской оценки присутствует, но изменение не столь значительно: меньше чем половина балла. Нельзя сказать что в среднем восприятие читателями Sci-Fi романов значительно улучшилось с годами.
Корреляция между средней оценкой и количеством оценивших читателей
Также у меня возникла своя гипотеза. Что если высота оценки книги связана не столько с годом выпуска сколько с количеством проголосовавших? Узнаем как меняется оценка книги с возрастанием количества оценивших.
Сначала визуализирую весь датасет на точечной диаграмме, где по X количество проголосовавших, а по Y оценка на Goodreads.
Узнаю что книг с более чем 3мя миллионами оценок почти нет в датасете и для упрощения анализа и зрительского восприятия убираю их, прежде чем строить линию тренда.
На итоговой диаграмме видно, что не смотря на то что книги с большим количеством оценок не оценены на 5 баллов, в среднем книги с большим количеством оценок действительно оцениваются выше.
Заключение
В процессе работы я проанализировала датасет «Science Fiction Books (10,000+)»: визуализировала информацию о годах выпуска и читательской оценки романов и проверила гипотезы о корреляции читательской оценки романа с другими факторами.