
Для данного проекта я использовала базу данных с сайта Kaggle.com, с данными из приюта для животных.
Как шла работа:
1. Импорт библиотек, настройка стиля графиков (изначально выбрала один из имеющихся стилей в плот.либе) 2. Загрузка таблицы с данными 3. Предварительная обработка данных, если требовалась 4. Создание новых признаков 5. Построение графиков
Фильтрация и сортировка
Фильтрация с одним условием и сортировка отфильтрованных данных
Фильтрация одновременно по нескольким условиям и сортировка отфильтрованных данных
Новые признаки
Создание нового признака в данных с помощью анонимной функции
Создала новую категорию, определяющую возраст животного — взрослое (большое) ли оно.
Создание нового признака в данных с помощью именной функции
Создала новый признак, переведя годы в возрасте в месяцы.
Сводные таблицы
Сводная таблица: одни столбец группировки, один столбец агрегирования, один метод агрегирования
Сводная таблица: несколько столбцов группировки, один столбец агрегирования, один метод агрегирования
Сводная таблица: одни столбец группировки, несколько столбцов агрегирования, один метод агрегирования
Сводная таблица: одни столбец группировки, один столбец агрегирования, несколько методов агрегирования
Сводная таблица: одни столбец группировки, несколько столбцов агрегирования, несколько методов агрегирования
Замена пропусков и удаление выбросов
Проверка наличия пропусков в данных
Использование метода N стандартных отклонений для целевой переменной
Использование метода 1.5IQR для предиктора или другого количественного признака (не целевого):
Меры центральной тенденции целевого признака
Квартили целевого признака
Меры разброса целевого признака
Описание категориального признака
Корреляция Пирсона
Интерпретация самой сильной корреляции между признаками, по тепловой карте
Визуализация корреляционной матрицы с помощью тепловой карты
Построение диаграммы рассеяния между признаками, у которых самая сильная корреляция
Линейная регрессия
Модель парной (простой) линейной регрессии предполагает, что значение целевого признака adopter_age можно предсказать как линейную функцию признака age_years, то есть, что изменение age_years на единицу приводит к изменению adopter_age на определённое постоянное значение, с учетом случайных ошибок.
Y = b₀ + b₁X, где Y — зависимая переменная, X — независимая переменная, b₀ — свободный член (тоже, что и точка пересечения с осью Y), а b₁ — коэффициент регрессии, показывающий изменение Y при изменении X на единиц
2. Уравнение парной линейной регрессии Общий вид уравнения:
adopter_age^ = b₀+b₁×age_years где: b₀ — свободный член (пересечение с осью Y), b₁ — коэффициент наклона (показывает, насколько в среднем изменяется adopter_age при увеличении age_years на 1)
Диаграмма рассеяния между целевой и предиктором c нанесенным на нее найденным уравнением линейной регрессии
Коэффициент детерминации R²: 0.010 Среднеквадратичная ошибка (MSE): 70.416 Средняя абсолютная ошибка (MAE): 7.152