
Содержание
01 Обзор проекта Датасет и методология
02 Предобработка данных Пайплайн и преобразование
03 Визуальный анализ Отделы и временная шкала
04 Заключение и выводы
Глава 1.
Обзор проекта. Понимание масштаба и значимости анализа одной из крупнейших музейных коллекций в мире
Источник датасета и обоснование выбора
Открытый набор данных Метрополитенского музея, доступный на Kaggle, содержит исчерпывающую информацию о 408 636 объектах из коллекции музея. Этот набор данных был выбран потому, что коллекция МЕТ представляет собой одно из самых обширных и разнообразных культурных хранилищ в мире, что делает его идеальным для анализа исторических и культурных тенденций в разные периоды, по национальностям и художественным стилям.
Аналитический потенциал
В данном анализе изучаются временные тенденции для выявления закономерностей в коллекционировании произведений искусства, географическое распределение для понимания культурного представительства, состав отделов для определения кураторских приоритетов, а также типология объектов для изучения закономерностей сохранения и приобретения с течением времени.
Вопросы иследования
1 Как состав коллекции отражает институциональные приоритеты музея? 2 Какие временные закономерности наблюдаются в деятельности по приобретению и коллекционированию? 3 Какие культурные географические регионы представлены, и как это развивалось со временем? 4 Как различается временное распределение различных типов объектов?
Источник: https://www.kaggle.com/datasets/metmuseum/the-metropolitan-museum-of-art-open-access
Аналитическая модель и стратегия визуализации
Гистограммы
Цель:
Сравнить распределение по категориям в различных департаментах и определить приоритеты учреждения.
Инсайт:
Раскрывает состав коллекций и относительное преобладание различных кураторских направлений.
Линейные графики
Цель:
Отслеживать временные тенденции при помощи скользящих средних, чтобы сгладить колебания и выявить скрытые паттерны.
Инсайт:
Определяет пиковые периоды пополнения коллекции и исторические закономерности приобретения ресурсов.
Тепловые карты
Цель:
Визуализировать взаимосвязи между категориями — например, выявлять закономерности распределения между национальностями и веками.
Инсайт:
Раскрывает культурную географию и временную концентрацию художников в коллекции.
Boxplots
Цель:
Анализировать распределения характеристик и выявлять выбросы среди объектов разных типов.
Инсайт:
Позволяет увидеть временные диапазоны и выявить особенности сохранения информации на различных носителях.
Визуальный стиль
Винтажная эстетика, вдохновленная институциональным наследием Метрополитенского музея и классическими музейными каталогами. Теплая, приглушенная цветовая палитра с шрифтами Playfair Display, EB Garamond и Libre Baskerville создает атмосферу научной элегантности.
Статистическая строгость
- Частотный анализ: подсчет значений для категориальных распределений
- Временная группировка: агрегирование по десятилетиям и столетиям.
- Сглаживание сигнала: скользящее среднее за 5 периодов для большей ясности тренда.
Глава 2.
Предварительная обработка данных. Критически важный этап: преобразование исходных данных коллекции в формат, готовый для аналитического анализа
Конвейер очистки и преобразования данных
Оценка качества данных
Первоначальная оценка качества данных выявила значительные проблемы, требующие всесторонней очистки и нормализации для обеспечения аналитической надежности.
Отсутствующие данные: ~30% Несовместимость: Категории
Технический стек
- Python: Основной язык программирования - pandas: Манипулирование и анализ данных - seaborn: Визуализация - matplotlib: Создание пользовательского графика
Операции по очистке данных
Нормализация полей данных
Проведен анализ строковых представлений дат, учтены соглашения до нашей эры и нашей эры, преобразованы в согласованный числовой формат. Удалены недопустимые даты и пропущенные значения обработаны путем стратегического исключения. Категориальная стандартизация
Внесены стандартные обозначения в названия отделов и полей, содержащие информацию о гражданстве, что позволило устранить несовместимости в системах наименования и географической классификации.
Создание производного столбца
Стратегия фильтрации Top-k
Обоснование:
Применение частотной фильтрации позволило сфокусироваться на наиболее часто встречающихся значениях, улучшив наглядность визуализации и сохранив при этом аналитическую ценность.
Топ: 10 Покрытие: ~75%
Data Standardization
Временная и категориальная нормализация
Ключевые решения
- Исключить объекты с отсутствующими датами - Нормализовать конвенции до нашей эры/до н. э. - Стандартизировать категориальные метки - Применить фильтрацию по топ-k
Стандартизация временных данных
Данный набор данных охватывает более 2500 лет, что требует тщательной нормализации правил датирования для обеспечения осмысленного временного анализа.
- Диапазон дат: 500 г. до н.э - До: 2016 г. н.э - Промежуток: 2,516 лет - Работа с конвенциями до н. э./н.э.
Даты до нашей эры были преобразованы в отрицательные целые числа, а даты нашей эры — в положительные целые числа, что позволило создать непрерывную временную шкалу для математических операций.
Категориальная нормализация
Устранены несоответствия в категориальных полях для обеспечения точной группировки и анализа.
- Поле национальности: Стандартизированные названия стран, устранение расхождений и объединение географических регионов для более наглядного анализа.
- Классификация отделов: Стандартизированы названия отделов для обеспечения единообразной классификации во всей коллекции.
Многозарешающий временной анализ
- Годовой уровень: Точность по каждому году для детального анализа
- Сводные данные по десятилетиям: 10-летние периоды для выявления трендов
- Вековые виды: 100-летние периоды для долгосрочных закономерностей
Влияние на анализ
Эти решения обеспечили качество данных, сохранив при этом более 70% исходного набора данных.
Глава 3.
Визуальный анализ. Выявление закономерностей и историй, скрытых в данных музейной коллекции
Топ-10 отделов по размеру коллекции
Раздел «Рисунки и гравюры» составляет 37,8% всей коллекции (154 513 объектов), что отражает как кураторскую направленность музея, так и историческую распространённость графических видов искусства.
Разделы Азиатское искусство (47 406 объектов) и Американское декоративное искусство (17 783 объекта) демонстрируют приверженность музея культурному разнообразию.
Выставка «Европейские картины» (20 644 экземпляра) представляет собой собрание ценных, канонических произведений, подчеркивающее роль музея в сохранении западных художественных традиций.
Такое распределение отражает эволюцию Метрополитен-музея: от учреждения XIX века, сосредоточенного на западном искусстве, до глобального энциклопедического музея.
Рост коллекции с течением времени
- Пик 1900-х годов
Наибольший рост коллекции наблюдается в 1900-х годах, что совпадает с золотым веком пополнения фонда музея, обусловленным благотворительностью и археологическими экспедициями.
- Анализ скользящего среднего
Пятипериодное скользящее среднее сглаживает волатильность от года к году, выявляя основные тенденции в моделях приобретения активов.
- Институциональный контекст
Музей был основан в 1870 году, и последующий рост отражает его стремительное превращение в учреждение мирового класса
- Статистический метод
Скользящее среднее за 5 периодов. Сглаживает краткосрочные колебания, позволяя выявить долгосрочные тенденции в моделях приобретения активов.
Национальности художников на протяжении веков
- Доминирование американских художников в современную эпоху
Американские художники доминируют в период с XVIII по XX века, что отражает первоначальную миссию музея по сохранению культурного наследия США.
- Историческая глубина европейского искусства
Французские, итальянские, британские и немецкие художники имеют значительное представительство на протяжении нескольких столетий, что подчёркивает историческую роль Европы как центра художественного производства.
- Межкультурный обмен
Разнообразие национальностей художников в коллекции демонстрирует активный межкультурный обмен и глобальный характер формирования собрания музея.
Распределение дат создания по типам объектов
- Гравюры: самый широкий временной диапазон
Гравюры демонстрируют наиболее широкий временной диапазон, что отражает долговечность и историческую преемственность техник печатной графики.
- Рисунки: историческая концентрация
Рисунки преимущественно сосредоточены в более поздних столетиях, что указывает как на смещение, связанное с сохранностью, так и на возрастание роли рисунка как самостоятельного вида искусства.
- Статистические выводы на основе boxplot
Диаграммы размаха (boxplot) позволяют определить медианные годы создания, квартильные значения и выбросы, обеспечивая комплексное представление о временных закономерностях.
- Статистический метод Метод: анализ с использованием диаграмм размаха (boxplot) Назначение: выявление характеристик распределения, выбросов и сравнительных паттернов между различными типами объектов
Глава 4.
Выводы и Заключение
Стратегические выводы и профиль сбора данных
- В основном представлены работы на бумаге.
Рисунки и гравюры составляют 37,8% коллекции, что отражает историческую направленность музея на графическое искусство, а также относительное обилие и преимущества сохранности работ на бумаге.
- Пик коллекционирования в 1900-х годах.
Десятилетие 1900-х годов представляет собой пик роста коллекций, совпадающий с институциональным зрелостью музея и золотым веком развития американских музеев.
- Американская идентичность в современную эпоху.
Американская национальность доминирует в экспозициях XVIII–XX веков, отражая культурную миссию музея и подъём американского искусства на мировой арене.
-Европейская историческая глубина.
Европейские художники демонстрируют поразительную временную глубину: французские, итальянские и британские мастера представлены в разных столетиях.
Институциональные последствия
- Стратегия сбора
Стратегический акцент на работах, представленных на бумаге, позволил расширить масштабы приобретения.
- Культурное представительство
Баланс между американской идентичностью и мировым культурным наследием.
- Историческое наследие
Пик коллекционирования в 1900-х годах определил траекторию развития этого учреждения.
Статистическая проверка и строгость
- Частотный анализ
Функция value_counts () была применена для количественной оценки распределения категори значений, что обеспечило точное ранжирование отделов, национальностей и типов объектов.
- Временная группировка
Внедрены агрегированные данные по десятилетиям и столетиям для обеспечения многоуровневого временного анализа, позволяющего выявлять как краткосрочные колебания, так и долгосрочные тенденции.
- Сглаживание сигнала
Применили пятипериодное скользящее среднее к временным данным, что позволило снизить уровень шума и выявить основные тенденции в закономерностях роста коллекции.
- Анализ распределения
Для анализа характеристик распределения, выявления выбросов и сравнения временных диапазонов для различных типов объектов использовалась визуализация в виде диаграмм размаха.
Обеспечение аналитической надежности
Каждый статистический метод был выбран для решения конкретных аналитических задач и обеспечения надежности и интерпретируемости результатов.
- Обеспечение качества данных: Благодаря комплексной очистке удалось сохранить более 70% набора данных.
- Временная нормализация: Стандартизированные правила датирования на протяжении 2500 лет.
- Категориальная стандартизация: Устранены несоответствия в наименованиях национальностей.
- Стратегия фильтрации: Подход Top-k обеспечил баланс между ясностью и полнотой.
Данный анализ коллекции Музея Метрополитен раскрывает исключительный масштаб и стратегическую направленность этого учреждения. На основе 408 636 объектов, охватывающих более 2 500 лет истории, были выявлены закономерности, которые проливают свет как на кураторские приоритеты музея, так и на более широкие культурные тенденции. Преобладание произведений на бумаге, пик пополнения коллекции в 1900-е годы, а также географическое разнообразие художников формируют целостное повествование о культурном наследии и институциональном развитии. Винтажный визуальный стиль, использованный в данном анализе, отдает дань историческому наследию музея и одновременно применяет современные аналитические методы, позволяя раскрыть вечные истории, скрытые в одной из величайших культурных сокровищниц человечества.
Источники
Ссылка на код
https://disk.360.yandex.ru/d/IvO9N78WTBh2yg
Ссылка на датасет
https://www.kaggle.com/datasets/metmuseum/the-metropolitan-museum-of-art-open-access