
Описание
Моя любовь к анимации началась еще в раннем детстве и с возрастом не только не стала слабее, но и продиктовала выбор моей будущей профессии. Однако мне никогда не приходилось работать со статистикой по большим объемам информации об анимации, и данный проект оказался отличной возможностью это сделать.
Для создания графиков использовался датасет с разнообразной информацией о почти 52 000 мультфильмов, что поможет сделать статистику как можно точнее. Для визуализации использовались круговая, точечная и линейчатая диаграммы, а также гистограмма и облако слов. При написании кода использовалась нейросеть DeepSeek — она помогала с самой основой кода, который я изменяла и дорабатывала в соответствии с моими задачами.
Я решила использовать яркую палитру цветов на темном фоне. За основу взяла палитру ниже и при необходимости делала цвета ярче или темнее.

палитра цветов
#1. Топ-10 стран по количеству произведенной анимации

Топ-10 стран по количеству произведенной анимации
В первую очередь мне захотелось узнать, как много мультфильмов производят в разных странах. Самой подходящей для визуализации данной информации оказалась круговая диаграмма — на ней наглядно видно, какую часть от общего объема занимает анимация той или иной страны. Результат оказался для меня сюрпризом — я предполагала, что США и Япония производят примерно одинаковое количество анимации и что Франция производит гораздо больше, чем показано здесь, но на графике видно, что это не так.
#2. Корреляция бюджета и сборов
Корреляция бюджета и сборов
Далее интересно было узнать, как соотносятся бюджет и сборы фильма — обязательно ли фильму обладать большим бюджетом, чтобы быть успешным, и наоборот, может ли фильм провалиться несмотря на большое количество вложенных ресурсов? В датасете, который я использовала, не у всех фильмов были данные о бюджете и сборах, поэтому первым шагом было отфильтровать фильмы без нужной мне информации. По оставшимся фильмам видно, что существует значительная положительная корреляция между бюджетом и сборами, однако есть и исключения, оказавшиеся ближе к левому верхнему и правому нижнему углам графика.
#3. Распределение мультфильмов по длительности
Распределение мультфильмов по длительности
Теперь можно взглянуть на распределение мультфильмов по их длительности. Датасет включал в себя «Giant 600 Cartoon Collection», которая длиной целых 3720 минут, или 62 часа, в то время как большинство мультфильмов крайне редко превышают 2 часа. Из-за этого график получался довольно кривым, и чтобы исправить эту проблему, я решила избавиться от такого выброса, отфильтровав мультфильмы с помощью диапазона более реалистичного хронометража. Теперь график выглядит намного приятнее, и по нему видно, что подавляющее большинство мультфильмов — короткометражки. Это неудивительно, учитывая, как много времени и ресурсов уходит на создание полнометражных мультфильмов.
#4. Топ-15 самых популярных жанров
Топ-15 самых популярных жанров
Интересно также посмотреть, какие жанры анимации самые популярные. С этим графиком возникла новая сложность — среди жанров каждого мультфильма обязательно была указана «анимация», в чем, разумеется, не было необходимости в данном случае. Поэтому пришлось исключить ее из списка жанров, и теперь получившийся график показывает только те жанры, которые нам и были нужны. В последнее время многие студии и режиссеры стремятся доказать, что анимация может быть не только развлекательными мультиками для детей, однако учитывая, насколько популярны жанры комедии и семейного мультфильма, может потребоваться очень много времени, чтобы избавиться от этого стереотипа.
#5. Самые популярные слова в тэглайнах мультфильмов
Самые популярные слова в тэглайнах мультфильмов
Наконец, мне стало любопытно, какие слова чаще всего встречаются в тэглайнах мультфильмов. И хотя облако слов не дает точную информацию в процентах или количестве слов, с точки зрения визуализации это один из самых интересных инструментов, отлично справляющийся со своей задачей — его можно очень долго разглядывать, пытаясь угадать, в каком именно контексте и для описания каких мультфильмов использовались те или иные слова.
Заключение
Предположения, основанные даже на огромном личном опыте, никогда не будут так же точны и надежны, как статистика, принимающая в расчет десятки тысяч единиц информации — объем, который человек едва ли может быть в силах воспринять. Так, у меня были свои догадки о том, каким будет ответ на каждый из поставленных вопросов, некоторые из них оказались верными, другие не очень; но, к счастью, благодаря анализу данных удалось узнать точную статистику.