
Содержание:
1. Вводная часть 2. Этапы работы 3. Итоговые визуализации 4. Выводы и рекомендации
Вводная часть
Для своего проекта я выбрала анализ рынка профессий в сфере искусственного интеллекта в 2025 году на основе датасета «Global AI Job Market & Salary Trends 2025» с платформы Kaggle. Этот набор данных содержит 15,247 записей о вакансиях в сфере ИИ с 20 параметрами, собранными с международных платформ по трудоустройству в период с января 2024 по май 2025 года.
Ссылка на источник датасета: https://www.kaggle.com/datasets/bismasajjad/global-ai-job-market-and-salary-trends-2025
Ссылка на гугл-коллаб: https://colab.research.google.com/drive/1QtsZhPWnTRvu31p6cY6Xe_0hEMlm0Zrb?usp=sharing
Почему эти данные представляют особую ценность? Выбор данных о рынке ИИ-профессий обусловлен несколькими ключевыми факторами, важными как для общего понимания рынка труда, так и для моих личных карьерных перспектив.
Некоторые примечательные факты, объясняющие выбор темы:
— Компании, активно внедряющие ИИ, демонстрируют в 3 раза более высокий рост доходов на одного сотрудника. — Производительность в ИИ-секторах увеличилась почти в 4 раза с 2022 года. — К 2025 году ИИ-решения добавят $3.5 трлн к глобальному ВВП. — Количество открытых ИИ-позиций выросло на 25,2% за последний год.
А также как студентка ВУЗа, я хотела получить актуальные данные для планирования собственной карьеры. Поэтому мне было важно понять, какие ИИ-специальности наиболее востребованы и высокооплачиваемы. Я стремилась определить, какие индустрии предлагают лучший баланс зарплаты и удаленной работы.
Выбранные типы визуализаций
Для наиболее полного анализа данных я выбрала четыре различных типа графиков, каждый из которых предназначен для раскрытия определенного аспекта рынка ИИ-профессий.
1. Violin Plot (Скрипичная диаграмма):
Цель: Анализ распределения зарплат по уровню опыта. Преимущество: Позволяет увидеть не только средние и медианные значения, но и форму распределения данных.
2. Heatmap (Тепловая карта):
Цель: Визуализация средних зарплат по странам и уровням опыта. Преимущество: Эффективна для выявления географических паттернов в данных.
3. Bubble Chart (Пузырьковая диаграмма):
Цель: Многомерный анализ связи опыта, зарплаты и удаленной работы. Преимущество: Интерактивность Plotly позволяет исследовать данные глубже.
4. Radar Chart (Радарная диаграмма):
Цель: Сравнение индустрий по нескольким ключевым метрикам. Преимущество: Создает наглядные профили индустрий по нескольким параметрам.
Этапы работы
Подготовка среды и данных
Подготовка среды и данных:
Работа над проектом началась с настройки среды и установки необходимых библиотек для анализа и визуализации данных. Этот этап включал установку matplotlib 3.8.0, seaborn 0.12.2 и plotly 5.15.0 — современных инструментов для создания профессиональных визуализаций.
После подготовки среды я приступила к загрузке датасета и его первичному анализу. Важно было изучить структуру данных, типы колонок и проверить наличие пропущенных значений, чтобы определить дальнейшую стратегию обработки.
Очистка и подготовка данных
Этап очистки данных был критически важен для обеспечения достоверности результатов анализа. Я проверила наличие пропущенных значений и выбросов, особенно в ключевых колонках, таких как 'salary_usd' и 'experience_level'.
Для обработки категориальных данных были созданы словари с человекочитаемыми метками, что значительно улучшило восприятие визуализаций. Например, для уровней опыта я использовала маппинг 'EN': 'Entry', 'MI': 'Mid', 'SE': 'Senior', 'EX': 'Executive'.
При анализе выбросов в зарплатах был применен метод межквартильного размаха (IQR), что позволило выявить экстремальные значения и решить, как с ними поступить. Для некоторых визуализаций использовался отфильтрованный набор данных без экстремальных выбросов, что повысило читаемость графиков.
Стилизация
Особое внимание я уделила разработке собственной цветовой схемы и стиля визуализаций. Вдохновение пришло из нескольких источников, включая работы Edward Tufte с его принципом «максимум данных при минимуме чернил» и минималистичный дизайн Google.
Использование нейросетей в процессе работы
В ходе проекта я частично использовала нейросетевые инструменты для оптимизации процесса разработки. ChatGPT-4 помог с оптимизацией кода и подбором цветовой палитры, а с помощью Midjourney была создана профессиональная обложка для презентации.
Для анализа данных и формулировки выводов использовался Claude 3, который помог выявить неочевидные взаимосвязи между параметрами и сформулировать практические рекомендации на основе анализа. Такой подход существенно ускорил работу и повысил качество финального результата.
Итоговые визуализации
Скрипичная диаграмма (Violin Plot)
Первая визуализация — скрипичная диаграмма (Violin Plot), которая показывает распределение зарплат по уровням опыта в сфере ИИ. Этот тип графика был выбран, потому что он не только отображает медианные значения (как box plot), но и показывает полную форму распределения данных.
Распределение зарплат по уровню опыта
Анализ визуализации выявил экспоненциальный рост зарплат с повышением уровня опыта, при этом Executive-специалисты зарабатывают в среднем в 2.5 раза больше, чем специалисты Entry-уровня. Также заметен наибольший разброс зарплат на Senior и Executive уровнях, что говорит о высокой вариативности компенсаций для опытных специалистов.
Тепловая карта (Heatmap)
Средние зарплаты по странам
Тепловая карта показала, насколько сильно география влияет на уровень зарплат во всех категориях опыта.
Выявлен четкий паттерн: развитые страны последовательно предлагают более высокие зарплаты на всех уровнях. Это подтвердило мои предположения о том, что экономическое развитие региона напрямую коррелирует с уровнем компенсаций в сфере ИИ.
Особенно поразило меня то, что различия между странами становятся еще более выраженными на Senior и Executive уровнях. Это говорит о том, что международная мобильность может стать ключевым фактором для максимизации карьерных доходов.
Пузырьковая диаграмма (bubble chart)
Взаимосвязь опыта и удаленной работы по индустрии
Пузырьковая диаграмма демонстрирует взаимосвязи между тремя ключевыми переменными. Размер пузырьков, отражающий долю удаленной работы, показывает различные подходы индустрий к организации рабочих процессов.
График подтверждает положительную корреляцию между уровнем опыта и размером компенсаций во всех индустриях. Это свидетельствует об универсальности принципа соответствия опыта и оплаты труда в сфере ИИ.
Каждая индустрия демонстрирует специфический баланс между уровнем зарплаты и возможностями удаленной работы. Данная информация может быть полезна при выборе сектора на основе личных приоритетов относительно компенсации и условий работы.
Радарная диаграмма (radar chart)
Радарная диаграмма (radar chart)
Моя радарная диаграмма стала настоящим открытием в понимании различий между индустриями. Я создала уникальные «отпечатки пальцев» для каждого сектора, которые наглядно показывают их специфику.
Я обнаружила, что некоторые индустрии демонстрируют сбалансированные профили по всем метрикам, в то время как другие показывают четкую специализацию. Это помогло мне понять, что не существует универсально «лучшей» индустрии — каждая имеет свои преимущества.
Особенно ценным стало понимание того, что радарные профили можно использовать как инструмент для принятия карьерных решений. Я могу сопоставить свои личные приоритеты с профилями индустрий и выбрать наиболее подходящий сектор.
Выводы и инсайты
Точечные выводы, исходя из графиков:
🎯 Executive-уровень зарабатывает в среднем в 2+ раза больше Entry 🌍 Швейцария лидирует по средним зарплатам ($170,639) 🏠 Полностью удаленная работа (100) предлагает немного более высокие зарплаты 🤖 Machine Learning Engineer остается одной из самых высокооплачиваемых позиций 📈 Требования к опыту сильно коррелируют с уровнем заработной платы
Проведя этот анализ, я получила четкое понимание структуры рынка ИИ-профессий. Мои графики показали, что этот рынок характеризуется значительными различиями как по опыту, так и по географии и индустриям.
Для моего карьерного планирования особенно ценным стало понимание важности географического фактора. Я увидела, что международные возможности могут кардинально изменить уровень компенсаций.
Мой анализ также подтвердил важность специализации и накопления опыта. Четкая прогрессия зарплат с ростом экспертизы мотивирует меня к постоянному профессиональному развитию.
В итоге, этот проект дал мне не только навыки анализа данных и визуализации, но и практические инсайты для планирования собственной карьеры в сфере ИИ. Я теперь имею data-driven основу для принятия обоснованных решений о своем профессиональном будущем.