
Анализ базы данных не раскрытых особо тяжких преступлений
Вводная часть
Для своего исследования я выбрал данные о количестве нераскрытых особо тяжких преступлений, зафиксированных в различных регионах и субъектах Российской Федерации. Источником информации выступает открытый портал crimestat.ru, предоставляющий данные в формате XML.
Анализ подобной статистики имеет прикладную ценность: он позволяет выявить региональные особенности в раскрываемости тяжких преступлений и может быть использован для повышения эффективности работы правоохранительных органов и органов государственной власти.
В процессе анализа я использую визуализацию данных — в частности, строю круговые и линейные диаграммы, чтобы представить информацию более наглядно и облегчить её восприятие.
1. Топ-15 регионов по количеству нераскрытых особо тяжких преступлений (2020)
1. Загрузим XML-файл

2. Преобразуем XML в таблицу

3. Отфильтруем данные за 2020 год

4. Построим столбчатую диаграмму
Для визуализации был применён инструмент matplotlib.pyplot, с помощью которого я построил столбчатую диаграмму. Она отобразила топ-15 регионов с наибольшим числом нераскрытых особо тяжких преступлений. Региональные значения были отсортированы по убыванию, чтобы акцентировать внимание на наиболее проблемных субъектах Российской Федерации.
2. Доля нераскрытых особо тяжких преступлений по регионам (2020)
1. Преобразуем XML в таблицу
2. Отфильтруем по 2020 году и объединим
3. Создадим круговую диаграмму по топ-10 регионам + «Прочие»
Для построения самой круговой диаграммы я использовал библиотеку matplotlib.pyplot, указав формат отображения долей (autopct='%1.1f%%'), начальный угол (startangle=140) и обеспечив равномерное распределение сегментов (plt.axis ('equal')). В результате получилась визуализация, которая показывает вклад каждого региона (в том числе группы «Прочие») в общее количество нераскрытых особо тяжких преступлений за выбранный год.
3. Динамика нераскрытых особо тяжких преступлений по регионам
1. Преобразуем XML в таблицу
2. Выберем регионы для анализа
3. Построим линейную диаграмму
Для визуализации я применил библиотеку matplotlib.pyplot, построив линейную диаграмму, где каждая линия отражает изменение количества нераскрытых особо тяжких преступлений в конкретном регионе по годам. Использование точек (marker='o') на линиях делает акценты на конкретных значениях, а наличие сетки и легенды упрощает восприятие графика. Такой подход позволяет наглядно оценить, где наблюдается рост, спад или стабильность показателей во времени.
4. Сравнение количества нераскрытых особо тяжких преступлений в регионах (2014 vs 2020)
1. Преобразуем XML в таблицу
2. Отбор данных за 2014 и 2020 годы
3. Построим сравнительную столбчатую диаграмму
Для анализа я отобрал данные за 2014 и 2020 годы, поскольку сравнение этих двух периодов позволяет выявить изменения в раскрываемости особо тяжких преступлений на временном интервале. Региональные значения были отсортированы по убыванию данных за 2020 год, и в финальную диаграмму были включены 15 регионов с наибольшими значениями.
Для построения визуализации использовалась библиотека matplotlib.pyplot. Итоговая сравнительная столбчатая диаграмма позволила наглядно представить, как изменилась ситуация по каждому региону между 2014 и 2020 годами, выявив как случаи роста, так и снижения количества нераскрытых особо тяжких преступлений.
5. Сравнение количества нераскрытых особо тяжких преступлений (2014 vs 2020)
1. Преобразуем XML в таблицу
2. Подготовим данные для scatter plot (2014 vs 2020)
3. Построим диаграмму рассеяния
Для построения диаграммы я отобрал только данные за 2014 и 2020 годы, так как целью было сравнение двух временных точек. Сгруппировав данные по регионам и по годам, я получил таблицу, в которой для каждого региона указано количество нераскрытых преступлений в эти два года. Из таблицы были исключены регионы, по которым отсутствуют данные за один из годов, чтобы избежать искажений.
С помощью библиотеки matplotlib.pyplot я построил диаграмму рассеяния, где по оси X отложено значение за 2014 год, а по оси Y — за 2020 год. Добавление диагонали y = x позволило визуально оценить изменения: точки выше диагонали обозначают увеличение количества нераскрытых преступлений, ниже — снижение, на диагонали — отсутствие изменений. Для крупных значений были добавлены подписи с названиями регионов, чтобы выделить ключевые случаи. Это позволяет быстро определить, где ситуация с раскрываемостью преступлений улучшилась, а где — ухудшилась.