Original size 1140x1600

КАЗИНО

The project is taking part in the competition

ДИСКЛЕЙМЕР

В данном проекте онлайн-казино рассматривается как мошенническая (scam) система, использующая азартные механики для манипуляции игроками. Работа носит учебно-исследовательский характер.

ОПИСАНИЕ ПРОЕКТА

Во время поиска датасетов для проекта я наткнулась на Kaggle на файл с результатами спинов онлайн-рулетки с мошеннического казино за 2023–2024 годы (https://www.kaggle.com/datasets/danielprezhernndez/fraudulent-european-roulette-dataset). Мне показалось интересным посмотреть, можно ли с помощью данных найти какие-то закономерности там, где игроки обычно их ожидают, и проверить, отличаются ли реальные цифры от ощущения «паттернов», которое часто возникает у людей при игре.

В данных зафиксированы выпавшие числа и цвета, что позволяет сравнивать реальные результаты игры с теоретической моделью классической рулетки.

Для проекта были использованы следующие типы визуализаций:

1. Кольцевая диаграмма

2. Гистограмма распределения

3. Линейный график накопленных отклонений

4. Линейчатая диаграмма с накоплением

Иллюстрации к теме проекта, отражающие зависимость от игры.

ЦВЕТОВАЯ ПАЛИТРА

При разработке цветовой схемы я стремилась подчеркнуть напряжённую атмосферу азартной игры и одновременно сохранить аналитическую строгость визуализаций. Основу палитры составляют контрастные тёмные оттенки, ассоциирующиеся с интерфейсами онлайн-казино, в сочетании с яркими акцентами, которые помогают выделять ключевые отклонения от нормы.

Для того, чтобы упорядочить цвета я использовала сервис Adobe Color (https://color.adobe.com/ru/).

В проекте применяются такие цвета: #1D1D1E #F9F7F5 #5E524B #78142C #C6953F #050505 #E9E3D6 #0B403A

Во всех элементах визуализации данных используется шрифт Manrope.

Original size 1600x2400

ГРАФИК 1

Первый этап анализа был посвящён сравнению частоты выпадения красного и чёрного цветов. Теоретически в европейской рулетке их вероятность практически одинакова, поэтому любое заметное смещение может вызывать подозрения у игроков.

С помощью диаграммы я сопоставила фактическое количество выпадений каждого цвета с ожидаемыми значениями, что позволяет сразу увидеть, есть ли перекос в распределении или различия укладываются в рамки статистической погрешности.

ГРАФИК 2

Далее я обратилась к анализу зеро — самого редкого, но психологически значимого элемента рулетки. Этот график показывает, как часто зеро появлялось по сравнению с теоретической вероятностью.

Отдельное внимание уделяется тому, что даже редкие события при большом количестве спинов начинают казаться «подозрительно частыми», хотя на самом деле могут оставаться в пределах нормы.

ГРАФИК 3

На этом графике показано, как реальные результаты рулетки отличаются от того, что мы ожидаем увидеть в теории. По горизонтали — время, то есть номер спина. По вертикали — накопленное отклонение от ожиданий. Если линия идёт вверх, значит этот цвет выпадал чаще, чем должен был. Если вниз — реже, чем ожидалось. Я хотела понять: «Если сравнить реальное количество выпадений красного и чёрного с тем, сколько их должно быть по теории, будут ли эти различия со временем исчезать или накапливаться?» Я знаю, что в рулетке:

вероятность красного ≈ 18/37

вероятность чёрного ≈ 18/37

То есть в среднем они должны выпадать одинаково часто. Я попросила ChatGPT помочь мне сформулировать расчёт.

Мой запрос был примерно такой:

«Помоги посчитать накопленное отклонение между фактическим количеством выпадений красного и ожидаемым количеством при заданной вероятности»

ГРАФИК 4

На графике «Стабильность случайности в рулетке» я показываю, насколько случайно ведёт себя рулетка со временем. Красная линия — это идеальный вариант, когда все числа выпадают максимально равномерно. Жёлтая линия — то, что происходит на самом деле. Она немного колеблется, и это нормально. Иногда кажется, что одни числа выпадают чаще, а другие реже, но это просто случайные колебания. Этот график показывает, что ощущение закономерностей возникает из-за того, как мы воспринимаем случайность, а не потому что система действительно меняется.

ЗАКЛЮЧЕНИЕ

Проведённый анализ показал, что данные мошеннической онлайн-рулетки в целом укладываются в рамки статистической случайности, несмотря на субъективное ощущение «нечестной игры». Распределение цветов и частота зеро не демонстрируют устойчивых отклонений, а выявленные колебания объясняются накопительным эффектом случайных событий. Графики ясно показывают, как человеческое восприятие стремится находить смысл и паттерны в шуме данных, особенно в условиях риска и эмоционального вовлечения. Визуальный анализ позволяет критически взглянуть на такие ощущения и заменить интуитивные выводы проверяемыми числовыми аргументами.

В итоге мой проект наглядно демонстрирует, что визуализация данных может служить эффективным инструментом для разоблачения мифов о «подстроенной» случайности и помогает лучше понять природу вероятностных процессов в цифровых системах.

Использованные статистические методы

В ходе анализа данных рулетки были применены методы описательной, вероятностной и разведочной статистики:

Частотный анализ категориальных данных — использовался для оценки распределения выпадений цветов рулетки (красное, чёрное, зеро). Подсчёт относительных частот позволил сравнить эмпирические доли цветов с теоретически ожидаемыми значениями для европейской рулетки.

Структурный анализ долей — реализован с помощью кольцевой диаграммы, что позволило наглядно отразить вклад каждого цвета в общее количество спинов и оценить симметрию распределения.

Анализ последовательностей и серий наблюдений — применялся для исследования длин серий спинов без выпадения зеро. Выделение непрерывных последовательностей между событиями позволило изучить поведение редких исходов.

Анализ распределения длин серий — выполнен через столбчатую диаграмму, что дало возможность оценить частоту коротких и длинных серий, а также выявить типичную длину серии между редкими событиями.

Оценка центральной тенденции для дискретного распределения — использовалась для расчёта среднего значения длины серии без зеро, которое было дополнительно визуально выделено на графике для интерпретации распределения.

Вероятностный анализ с использованием математического ожидания — применялся при сравнении фактического числа выпадений красного и чёрного цветов с их теоретически ожидаемыми значениями, рассчитанными на основе вероятностей европейской рулетки.

Анализ накопленных отклонений (cumulative deviation analysis) — реализован через вычисление разницы между наблюдаемыми и ожидаемыми значениями во времени. Такой подход позволил исследовать краткосрочные флуктуации и проверить отсутствие систематического смещения.

Анализ временных рядов — использовался для изучения динамики накопленных отклонений, что позволило визуально оценить характер колебаний вокруг нулевого уровня и подтвердить случайную природу процесса.

Энтропийный анализ — применялся для количественной оценки степени случайности последовательности выпавших чисел. Энтропия Шеннона рассчитывалась в скользящем временном окне, что позволило отслеживать изменения уровня неопределённости во времени.

Сравнение с теоретическим максимумом энтропии — использовалось для интерпретации результатов энтропийного анализа. Сопоставление эмпирической энтропии с максимальной возможной энтропией для равномерного распределения (log₂ 37) позволило оценить близость наблюдаемого процесса к идеальной случайности.

Описание применения генеративной модели и вспомогательных инструментов

1. Google Colab — Весь процесс работы: обработка данных и визуализация.

2. Kaggle — Платформа была использована для поиска и загрузки датасета.

3. Библиотеки Python kagglehub — для автоматического скачивания датасета matplotlib.font_manager — для подключения кастомного шрифта pandas — использовалась для загрузки датасета, очистки, преобразования и анализа табличных данных. matplotlib — основной инструмент для построения визуализаций в проекте. numpy — применялась для работы с числовыми данными и расчёта вспомогательных величин при построении графиков.

4. Цветовая палитра (Adobe Color)

5. ChatGPT — Нейросеть применялась для генерации и оптимизации кода, настройки визуального стиля графиков и корректировки функций анализа.

6. recraft.ai — Использовала для генерации обложки и иллюстраций.

Vera Dmitrieva

data visualization