
Введение
В своей работе я решила проанализировать данные, которые раскрывают какие привычки и предпочтения относительно чтения встречаются у людей различных возрастов, пола, уровня образования и т. д. Таблица выделяет такие особенности как сколько книжек прочитал человек за прошлый год, читает ли человек печатную литературу или слушает аудио книги, а также многое другое. Все данные были оформлены в виде таблицы, где было 14 столбцов и 2833строк.
Эти данные я нашла на сайте kaggle.com. Мне интересна эта тема, поскольку чтение является неотъемлемой частью жизни каждого человека и когда я увидела эту аналитику, мне стало интересно узнать какие закономерности можно из нее выявить. Например, в каком возрасте люди больше читают? Пользуются ли популярностью у старших поколений электронные и аудиокниги, или они предпочитают читать их в печатном виде? Связан ли уровень образования с количеством прочитанных книг?
Виды графиков в работе: — Гистограмма — Столбчатые диаграммы — Круговая диаграмма — Линейный график
Оформление: Чтобы графики выглядели красиво и были выполнены в одном стиле, я использовала цвета из своей палитры, а также добавила прозрачность некоторым элементам, изменяла ширину столбцов графика, меняла размеры шрифта и углы наклона подписей.
Я создала определенную палитру для данного проекта.

На питоне это выглядело так: colors=['#8C0013', '#BF4319', '#D06F2F', '#DCA934', '#87992F', '#428F7E', '#405A91', '#51428F']
Описание применения генеративной модели
В своей работе я пользовалась помощью ChatGPT для генерации начального кода, а также Leonardo.ai для генерации обложки проекта. Далее я сама модифицировала код для графиков и исправляла неточности ИИ. Все введенные начальные промпты будут указаны в описании кода. Я также пользовалась информацией с некоторых сайтов для лучшего понимания как изменять некоторые детали графиков. (https://matplotlib.org/stable/, https://stackoverflow.com/)
Этапы работы
Сначала я импортировала библиотеку pandas как pd, и написала код, который считывает файл csv с именем 'data_read.csv', а затем отображает содержимое этой таблицы.
Далее представлены коды, написанные для создания графиков.
Начальный промпт: write a code to create a bar graph in python for depicting how many females and males are there based on a CSV file with a column named 'Sex'
Я заменила базовые цвета графика на свою палитру.
Первое, что я захотела узнать, есть ли разница в среднем количестве книг, которые женщины и мужчины читают за год. Как показывает диаграмма, женщины в среднем читают больше книг (20) за год чем мужчины (13).
Начальный промпт: write a code to create an area graph in python for depicting all ages based on a CSV file with a column named 'Age'
Я заменила базовые цвета графика на свою палитру, изменила ширину столбцов и прозрачность некоторых элементов.
Другие общие данные, которые я хотела узнать, это людей какого возраста было больше среди опрошенных. Выяснилось, что преобладали участники 16,17, 47, 50, 60, 65 лет.
code in python for creating a pie chart which shows how many books people read based on their education level (How many books did you read during last 12months? , Education), add numbers of books to chart
Я заменила базовые цвета графика на свою палитру и добавила подписи внутри диаграммы, которые показывают какое количество книг было прочитано в среднем каждой группой.
Другой интересный для меня вопрос: Есть ли закономерность между уровнем образования и количеством прочитанных за год книг? Я предполагала, что чем выше образование, тем больше человек будет заинтересован в литературе. Данные показывают, что больше всех (23) читают аспиранты, затем (19) выпускники университета и наконец люди не окончившие университет (18). В целом мое предположение оказалось верным.
Начальный промпт: write a code in python for creating line graph based on csv file, where reading print books were yes, no or don’t know (job level and reading print books)
Я заменила базовые цвета графика на свою палитру и перевернула подписи на оси x на 90 градусов, так как они так лучше читались и не сливались вместе.
Этот график показывает насколько вероятно то, что человек прочитает печатную версию книги, в зависимости от его типа занятости. Я предполагала, что люди с меньшим доходом, возможно предпочтут электронную версию, так как она может быть дешевле. В результате анализа оказалось, что с наибольшей частотой нетрудоспособные люди изучают печатные издания, также печатные книги пользуются популярностью у группы самозанятых людей. Я затрудняюсь без каких-либо дополнительных данных рассуждать, из-за чего проявляется такая закономерность.
write a code in python for creating bar graph based on csv file, where reading any audiobooks during last 12months were yes, no or don’t know, which is compared to age (age and reading audiobooks)
Я заменила базовые цвета графика на свою палитру и изменила размер шрифта у подписей на оси x, чтобы они лучше помещались вместе.
Можно заметить, что представители старшего поколения проявляют очень незначительный интерес к аудиокнигам, то же можно сказать и об участниках до 20 лет. Остальные данные дают весьма переменчивые значения.
Промпт для генерации обложки в Leonardo.ai: a vector drawing style, with no stroke or line, from a distance, a person, wearing a button up shirt, sitting behind a table reading different books, in a library, warm and vibrant color palette