Original size 900x1200

Анализ данных с Кинопоиска

PROTECT STATUS: not protected

Этот проект посвящен анализу оценок фильмов, собранных с платформы «Кинопоиск». В рамках работы был проведен разбор данных, очистка, а также визуализация ключевых характеристик, таких как распределение оценок, связь количества рецензий со средней оценкой и выявление лучших и худших фильмов.

big
Original size 1699x906

Используемые технологии: Python Pandas Matplotlib Seaborn Hugging Face Datasets

Основные задачи проекта Загрузка и предобработка данных (удаление дубликатов, преобразование типов данных). Построение графиков для визуализации оценок фильмов. Анализ взаимосвязи количества рецензий и средней оценки. Определение топ-10 лучших и худших фильмов по средней оценке.

big
Original size 876x548
Original size 1014x723
Original size 1019x788

Результаты анализа: Определены топ-10 лучших и худших фильмов. Найдена зависимость между количеством рецензий и средней оценкой.

Данные были выбраны с сайта Kinopoisk, а именно информацию о фильмах, включая названия фильмов, оценки пользователей, количество рецензий и их содержание. Эти данные были получены через библиотеку datasets из репозитория Hugging Face, с использованием датасета blinoff/kinopoisk.

post

Этапы работы Подготовка данных Сначала я загрузила датасет с помощью библиотеки datasets и преобразовала его в формат pandas DataFrame, что позволило удобно работать с данными. После этого я удалила дубликаты, чтобы избежать некорректных данных, а также преобразовала столбец с оценками (grade10) в числовой формат, чтобы работать с ними в дальнейшем. Агрегация данных Для дальнейшего анализа я сосредоточилась на топ-10 фильмах с наибольшим количеством рецензий и их средними оценками. Для этого я использовала агрегирующие функции value_counts () и groupby (). Визуализация данных Для визуализации я использовала библиотеку seaborn для построения графиков. Я создала графики для анализа.

Код и датасет:

Анализ данных с Кинопоиска
Project created at 10.04.2025
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more