
ВВОДНАЯ ЧАСТЬ
Выбор источника данных
В данном проекте проводится исследовательский анализ данных (EDA) на основе датасета Nonimmigrant Visa Issuances by Visa Class and by Nationality. Датасет содержит информацию о заявках и решениях по неиммиграционным визам, включая такие параметры, как тип визы, страна заявителя, а также итоговый статус визового запроса. Данные были получены из открытых официальных источников, публикуемых государственными структурами США, что обеспечивает их достоверность и полноту.
Первоисточник — U.S. Department of Labor (DOL) Office of Foreign Labor Certification (OFLC)
Актуальность анализа
Получить визу в США всегда было непростой задачей и мне стало интересно проанализировать эти данные. Но также выбор именно этого набора данных обусловлен его высокой практической и аналитической ценностью. Визовая статистика отражает глобальные процессы международной мобильности, миграции, туризма, образования и трудовых перемещений. Анализ распределения виз по типам и странам позволяет выявить устойчивые тенденции, различия между регионами мира, а также изменения интереса к различным категориям виз с течением времени. Кроме того, тема международных виз затрагивает важные социально-экономические и политические аспекты, что делает исследование данных не только технически интересным, но и содержательно значимым.
Виды графиков
Для визуализации и анализа данных в проекте были использованы различные виды графиков.
Линейные графики — использовались для анализа изменений показателей и выявления общих тенденций, смещены ли данные влево, вправо или имеют нормальное распределение. Столбчатые диаграммы — использовались для сравнения количества выданных виз между различными странами и визовыми категориями. Гистограммы — позволили проанализировать распределение значений и выявить наиболее распространенные диапазоны показателей. Круговые диаграммы — применялись для отображения долей различных категорий в общем объеме данных. Box Plot (ящики с усами) — применялись для анализа распределения числовых переменных и выявления медианы, межквартильного размаха и выбросов. Этот тип графиков особенно полезен для сравнения распределений между несколькими группами. Тепловые карты (Heatmap) — использовались для визуализации корреляций между числовыми признаками. Они позволяют быстро определить силу и направление взаимосвязей между переменными и выявить наиболее значимые зависимости в данных.
Выбор этих типов визуализаций обусловлен их наглядностью и эффективностью при сравнении категориальных данных и временных рядов, что особенно важно при работе с крупными статистическими наборами.
Таким образом, сочетание информативного датасета и подходящих методов визуализации позволило провести осмысленный исследовательский анализ и получить наглядные выводы о структуре и динамике выдачи неиммиграционных виз.
ЭТАПЫ РАБОТЫ
Начало работы
В начале импортируем все нужные библиотеки для работы с данными и визуализацией; отключаем предупреждения и включаем показ графиков в ноутбуке. Я также решила сделать быструю проверку данных. Загружаем CSV-файл в DataFrame и показываем первые 10 строк. После я определила типы данных и сделала краткую выжимку по определению данных (кол-во строк, колонок, типы данных и количество непустых значений).
df.info ()
Я также разделила колонки на числовые и категориальные, вывела количество и список числовых и категориальных признаков и после для каждой категориальной колонки показала процентное распределение уникальных значений. Из этого анализа я поняла, что: 1. Столбец user-id нужно удалить, так как он не несет никакой значимой информации. 2. В колонке continent видно, что Азия занимает 66%, значит данные смещены. Нужно объединить все остальные континенты в одну категорию. 3. Столбец unit_of_wage кажется важным, так как большинство значений — годовые контракты.
Графики
Строим линейные графики для каждого числового признака, чтобы посмотреть распределение данных. Сначала создаем сетку 2×2 для графиков, выбираем признаки по которым будут графики (no_of_employees, yr_of_estab, prevailing_wage) и в конце подгоняем, чтобы графики не налезали друг на друга.
На основе предоставленных графиков одномерного анализа числовых признаков можно выделить несколько ключевых инсайтов о распределении данных по трем параметрам: 1. Количество сотрудников (no_of_employees) Распределение: Плотность резко падает после нуля, что указывает на сильный перекос вправо (правосторонняя асимметрия). Инсайт: Подавляющее большинство компаний в наборе данных имеют очень небольшое количество сотрудников (близкое к нулю). Случаи с большим штатом (100 000+ и далее до 600 000) встречаются крайне редко и представляют собой выбросы или длинный хвост распределения. 2.Год основания (yr_of_estab) Распределение: Распределение имеет один сильный пик и также скошено вправо (в сторону недавних лет). Инсайт: Большинство компаний были основаны недавно, с огромной концентрацией в период с 1990 по 2000 год. Компании, основанные до 1950 года, встречаются значительно реже. 3. Преобладающая заработная плата (prevailing_wage) Распределение: Плотность имеет бимодальную форму, то есть два основных пика. Инсайт: Существует две основные группы заработных плат: одна сосредоточена в диапазоне $40 000–$50 000, а вторая, более высокая, — около $80 000–$90 000. Зарплаты, превышающие $200 000, встречаются редко.
Для следующих данных я сделала гистограмму с сеткой 3×3 с различными группами данных.
На основе представленных графиков одномерного анализа категориальных признаков можно выделить несколько ключевых инсайтов о распределении данных: 1. Континент (continent): Подавляющее большинство заявок поступает из Азии (более 14 000 случаев). Остальные континенты имеют значительно меньшее количество заявок: Северная Америка и Европа — около 3000, Южная Америка и Океания — менее 1000. 2. Образование сотрудника (education_of_employee): Наиболее распространенный уровень образования среди сотрудников — это степень бакалавра (Bachelor’s) и магистра (Master’s), каждый из которых насчитывает около 9 000 — 10 000 случаев. Высокая школа (High School) имеет около 4000 случаев, а докторантура (Doctorate) — около 2000. 3. Опыт работы (has_job_experience): Большинство заявителей (более 14 000) имеют опыт работы (Yes). Случаев без опыта работы (No) значительно меньше (около 10 000). 4. Требуется обучение (requires_job_training): Подавляющее большинство случаев не требует дополнительного обучения (No), что составляет около 20 000 записей. Требуется обучение менее чем в 5000 случаев. 5. Регион занятости (region_of_employment): Северо-восток (Northeast) и Юг (South) являются лидирующими регионами занятости (около 7 000 случаев в каждом). Запад (West) и Средний Запад (Midwest) следуют за ними, а регион Остров (Island) имеет наименьшее количество случаев. 6. Единица измерения зарплаты (unit_of_wage): Почти все зарплаты измеряются на годовой (Year) основе (более 20 000 случаев). Измерение по часам (Hour), неделям (Week) или месяцам (Month) встречается крайне редко. 7. Статус полной занятости (full_time_position): Абсолютное большинство позиций являются полной занятостью (Full time position) — более 20 000 случаев. Частичная занятость (или неполная) встречается редко. 8. Статус кейса (case_status): Количество сертифицированных (Certified) кейсов несколько превышает количество отклоненных (Denied) кейсов.
Для начала я покажу как я создавала этот тепловой график. Я разделила числовые признаки на дискретные и непрерывные, вывела количество и список дискретных и непрерывных признаков. После показала корреляции между числовыми признаками. В целом, эти данные показывают, что размер компании (по количеству сотрудников), ее возраст и уровень заработной платы являются практически независимыми друг от друга параметрами в контексте всего набора данных.
sn.heatmap (df.corr (numeric_only=True), annot=True, cmap='Blues')
На основе предоставленной тепловой карты корреляции, которая измеряет силу и направление линейной взаимосвязи между тремя переменными, можно сделать следующие инсайты: 1. Отсутствие значимых линейных связей: Наиболее важный инсайт заключается в том, что ни одна из пар переменных (no_of_employees, yr_of_estab, prevailing_wage) не имеет сильной или даже умеренной линейной корреляции. Все коэффициенты корреляции, кроме диагональных единиц (которые показывают идеальную корреляцию переменной с самой собой), очень близки к нулю. 2. Чрезвычайно слабая связь между количеством сотрудников и годом основания: Коэффициент корреляции между no_of_employees и yr_of_estab составляет -0.018. Это указывает на практически полное отсутствие линейной зависимости между возрастом компании и количеством ее сотрудников. Немного отрицательное значение означает, что едва заметная тенденция к меньшему количеству сотрудников может наблюдаться в более старых компаниях, но эта связь настолько слаба, что ею можно пренебречь. 3. Отсутствие связи между зарплатой и другими параметрами: Коэффициенты, связывающие prevailing_wage (преобладающая заработная плата) с другими переменными, также минимальны:
В целом, эти данные показывают, что размер компании (по количеству сотрудников), ее возраст и уровень заработной платы являются практически независимыми друг от друга параметрами в контексте всего набора данных.
Строим boxplot и гистограмму для каждого непрерывного признака, разделяя по 'case_status', чтобы увидеть выбросы и распределение.
На основе представленных графиков можно выделить несколько ключевых инсайтов, касающихся различий между отклоненными (Denied) и сертифицированными (Certified) статусами кейсов по параметрам количества сотрудников, года основания и преобладающей заработной платы. 1. Количество сотрудников (no_of_employees) Медианы: Медианное количество сотрудников для обоих статусов (Denied и Certified) относительно невелико и схоже. Распределение: Наблюдается сильный перекос вправо (правосторонняя асимметрия) для обеих групп. Выбросы: Хотя большинство компаний имеют мало сотрудников, сертифицированные кейсы включают значительно большее количество компаний с очень большим штатом (до 600 000+), что видно по многочисленным выбросам на ящичковой диаграмме и длинному «хвосту» на гистограмме для статуса Certified. 2. Год основания (yr_of_estab) Медианы: Медианный год основания для сертифицированных кейсов значительно «моложе» (ближе к 2000 году), чем для отклоненных (ближе к 1975 году). Распределение: Диапазон лет основания для отклоненных кейсов шире, включая компании, основанные еще в 1800-х годах. Сертифицированные кейсы, как правило, концентрируются вокруг более недавних дат. Общий тренд: Большая часть общего объема данных (гистограмма справа) сосредоточена в 1990-х и 2000-х годах. 3. Преобладающая заработная плата (prevailing_wage) Медианы: Медианная преобладающая заработная плата для сертифицированных кейсов (около $90 000) выше, чем для отклоненных (около $70 000). Распределение: Диапазон зарплат для сертифицированных кейсов также шире, с большим количеством высоких зарплат.
Гистограммы показывают схожее распределение с пиками около $70 000-$90 000, но красная область (Certified) доминирует при более высоких значениях заработной платы.
С помощью кругового графика можно легко и понятно увидеть в общем объеме долю одобрнных и отклоненных виз. Как мы можем заметить, визу достаточно реально получить.
Теперь посчитаем процентное распределение статусов визы по каждому континенту. Сначала составила небольшую таблицу с данными, а после графики, где сначала все вместе скомбинированно, а потом отдельно расмотренны отказанные и одобренные статусы.
На основе предоставленной таблицы пропорций, детализирующей статус кейса (case_status) в разбивке по континентам (continent), можно выделить следующие ключевые инсайты: 1. Значительные различия в уровне одобрения: Хотя на всех континентах количество сертифицированных кейсов превышает количество отклоненных, существуют заметные различия в пропорциях между регионами. 2. Самый высокий уровень одобрения: Европа имеет самый высокий процент одобрения — 79,23% кейсов сертифицированы. Это значительно выше, чем в среднем по всем континентам. 3. Самый низкий уровень одобрения: Южная Америка имеет самый низкий уровень одобрения — 57,86% сертифицированных кейсов и самый высокий процент отказов (42.14%). 4. Африка — второй по уровню одобрения: Африка занимает второе место с высоким показателем одобрения в 72,05%. 5. Азия, Северная Америка и Океания имеют схожие пропорции: Эти континенты демонстрируют средние показатели одобрения, близкие к общему среднему значению по всему набору данных (около 62% — 66%). 6. Северная Америка и Южная Америка имеют самые высокие показатели отказов: В этих регионах процент отклоненных кейсов самый высокий (38.12% и 42,14% соответственно).
Таким образом, континент подачи заявки является важным фактором, влияющим на вероятность одобрения кейса: заявители из Европы и Африки имеют значительно более высокие шансы на сертификацию, чем заявители из Южной и Северной Америки.
Сначала считаю процентное распределение статусов визы по уровню образования, после строю countplot для сравнения статуса визы в зависимости от уровня образования.
На основе предоставленного графика «Education of employees vs Visa Status» (Образование сотрудников против Визового Статуса) можно выделить следующие ключевые инсайты: 1. Преобладание одобрений на высоких уровнях образования: Для уровней образования Master’s (Магистр), Bachelor’s (Бакалавр) и Doctorate (Докторантура) количество сертифицированных (Certified) виз значительно превышает количество отклоненных (Denied). 2. Высокий уровень отказов для «High School»: Единственный уровень образования, где количество отклоненных виз (более 2000) превышает количество сертифицированных (около 1200), — это High School (Средняя школа). 3. Наибольшее количество кейсов: Категория Master’s имеет наибольшее общее количество кейсов (сумма одобренных и отклоненных), с пиком одобрений, достигающим почти 7500. 4. Наименьшее количество кейсов: Категория Doctorate имеет наименьшее общее количество кейсов, хотя процент одобрения в этой группе очень высок.
Существует сильная положительная связь между уровнем образования и вероятностью получения сертифицированного визового статуса. Чем выше уровень образования, тем выше вероятность одобрения визы и ниже вероятность отказа.
И для последнего графика я решила совместить гистограмму и линейный график для сравнения распределения зарплат в зависимости от статуса визы.
На основе предоставленного графика «Prevailing wage vs Visa Status» (Преобладающая заработная плата против Визового Статуса), который отображает распределение заработной платы для одобренных и отклоненных визовых кейсов, можно выделить следующие ключевые инсайты: 1. Преобладание сертифицированных кейсов: Количество сертифицированных (Certified, оранжевый цвет) кейсов превышает количество отклоненных (Denied, синий цвет) практически во всех диапазонах заработной платы, особенно в среднем диапазоне ($50 000 — $150 000). 2. Высокий пик отказов при нулевой зарплате: Существует очень высокий пик отклоненных кейсов (около 1200 случаев) в самой первой категории (нулевая или очень низкая заработная плата), что значительно превышает количество одобренных кейсов в этом же диапазоне. 3. Схожесть общего распределения: Общая форма распределения заработной платы схожа для обеих групп: плотность постепенно снижается с увеличением заработной платы. 4. Доминирование сертифицированных кейсов в среднем диапазоне: Основной объем данных сосредоточен в диапазоне от $40 000 до $100 000, где количество одобренных кейсов стабильно выше, чем количество отказов.
Хотя количество кейсов значительно меньше, сертифицированные кейсы встречаются в более высоких диапазонах заработной платы чаще, чем отклоненные.
ИТОГИ
В ходе исследовательского анализа данных были выявлены ключевые закономерности, влияющие на статус визовых кейсов. Визуализации показали, что сертифицированные кейсы чаще связаны с более высоким уровнем заработной платы, более высоким уровнем образования и определенными регионами подачи заявки.
Анализ распределений продемонстрировал, что большинство компаний имеют небольшое количество сотрудников и были основаны сравнительно недавно, при этом эти параметры не показывают значимых линейных взаимосвязей с уровнем заработной платы. Сравнение одобренных и отклоненных кейсов показало, что сертифицированные визы чаще встречаются при более высоких зарплатах и уровнях образования, тогда как низкая или нулевая заработная плата связана с повышенной долей отказов.
В целом, результаты анализа подтверждают, что уровень образования, заработная плата и регион подачи заявки являются наиболее значимыми факторами, ассоциированными с вероятностью сертификации визового кейса.
Используемые нейросети
Для этого задания я использовала ChatGPT. Он помогал мне устранять ошибки в коде и структурировал полученную информацию в текст.
Также для обложки я использовала LeonardoAI. Промпт: A professional, realistic illustration of a man in a dark business suit standing behind a desk and smiling warmly while handing over an approved U.S. visa document. The visa clearly shows an approval stamp but no readable personal data. The man looks friendly and trustworthy. The background is a modern, clean office with subtle American elements (a blurred U.S. flag or neutral blue tones), soft natural lighting, high detail, realistic style, corporate and professional atmosphere, vertical composition, sharp focus, photorealistic, no text, no logos.