
Введение
На платформе data.world я наткнулась на датасет «Adult Cigarette and Tobacco Use Prevalence», который показался мне интересным и важным выбором для анализа. Для данного анализа я использовала язык программирования Python, а также Google Colab.
Этот набор данных содержит систему наблюдения за поведенческими факторами риска в Калифорнии (BRFSS) — это непрерывный телефонный опрос случайно выбранных взрослых, который собирает информацию о широком спектре поведения, связанного со здоровьем, включая текущее употребление сигарет и табака. Данные собираются ежемесячно из случайной выборки населения Калифорнии в возрасте от 18 лет и старше. BRFSS проводится с 1984 года Департаментом общественного здравоохранения Калифорнии в сотрудничестве с Центрами по контролю и профилактике заболеваний (CDC).
Черно-белая гамма ассоциируется с серьезностью и драматизмом. Она используется, чтобы подчеркнуть важность и тяжесть темы, связанной с влиянием никотина на здоровье и общество.
Обработка данных
На первом этапе работы я загрузила данный датасет в Google Colab. Для проверки корректности открытия файла я решила просмотреть его первые строки.

Цветовая палитра

Для построения графиков и их стилизации я использовала Google Collab, также для корректировки использовала AdobeIllustrator.
В шаблон заносила данные и цветовую палитру. Для подписей к графикам воспользовалась программой Adobe illustrator
1. Гендерное распределение участников
Таблица показывает распределение участников опроса по полу, включая количество мужчин, женщин. Она позволяет узнать, что в опросе участвовало равное количество мужчин и женщин.
2. Процент употребления никотина 2000–2010-е гг.
По результатам анализа видно, что процентное соотношение употребление никотина к 2010-му году идет на спад.
3. Процент употребления никотина 2010-2019-е гг.
По результатам анализа видно, что несмотря на скачки в таблице, процентное соотношение употребление никотина к 2019 году стало еще ниже.
4. Анализ общего показателя употребления никотина среди взрослых
По итогу анализа видно, что процент людей употребляющий никотин в настоящее время ниже, чем по результатам в 1996 году.
Описание применения генеративной модели
1. Генерация кода на Pythone
Для генерации кода я использовала коды в предложенных вариантах графиков с Google Colab с учетом изменений видов графиков и критерий для анализа.
С данной задачей мне помог сайт replit.com и функция Assistant Ai. Благодаря этому была ускорена работа с кодом и созданием разных видов графиков.
Промт для Replit ai
2. Стилизация графиков
Для стилизации графиков и изменений цветовой гаммы я использовала Google Collab и Replit.ai. С имеющим кодом, я просила нейросеть поменять цвет таблицы. Для мелких корректировок таблиц использовала программу AdobeIllustrator.
Промт для изменения цвета в таблице
Пример ДО корректировки цвета
Пример ПОСЛЕ корректировки цвета
Ссылки
4. Блокнот с кодом и датасет: https://drive.google.com/drive/folders/1sdtd2kLpkgkJBLyxF1c7dvA5Rhk1MbW-?usp=drive_link
5. Google Collab: https://colab.research.google.com/
7. ChatGPT-3.5: https://chatgpt.com/
8. Ideogram: https://ideogram.ai/