3.8. Системы статистического анализа данных

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 
17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 

Статистике отводится существенная роль в деятельности право­охранительных органов. Она базируется на теории вероятностей и близка по духу к экспериментальной науке. Статистические данные, характеризующие оперативную обстановку в регионе, дают возмож­ность проанализировать состояние преступности, заставляют заду­маться о результатах работы, оценить их, сравнить, сопоставить с итогами предыдущих периодов, с аналогичными показателями в дру­гих регионах и объектах.

В общем виде статистика изучает и количественную сторону об­щественных явлений в целях раскрытия их качественных характеристик. Любая статистическая работа слагается из трех основных этапов:

1) статистического наблюдения;

2) сводки и группировки собранного материала;

3) статистического анализа.

Названные этапы связаны друг с другом, представляют нераз­рывное целое, и если допущена ошибка в одном из них, то вся работа может оказаться недостоверной. Здесь же используются специальные статистические методы. Рассмотрим последовательно каждый из ука­занных этапов.

1. Статистическое наблюдение представляет собой планомер­ный, научно организованный сбор массовых сведений о социально-экономических явлениях и процессах. Одно из основополагающих требований статистического наблюдения - достоверность, полнота и объективность собранных данных, которые определяют успех всей

последующей статистической работы.

Статистическое наблюдение опирается на закон больших чисел. Смысл этого закона состоит в том, что закономерности могут быть об­наружены только при массовом наблюдении. На изучаемый объект, на­пример общественное мнение населения о деятельности милиции, дей­ствует множество различных факторов, но при массовом опросе людей совокупное действие большого числа этих факторов приводит к резуль­тату, почти не зависящему от случая. Происходит это потому, что слу­чайные отклонения появляются по ту или другую сторону от среднего значения и взаимно уничтожаются, вследствие чего суммарное отклоне­ние в большинстве случаев оказывается малым. Это - один из выводов закона больших чисел. Так, образовательный и культурный уровень у разных преступников может быть далеко не одинаков. Но лишь закон

412

больших чисел, т. е. результат массового статистического наблюдения, вскрывает здесь типические и характерные особенности, заключающие­ся в том, что этот уровень значительно ниже, чем в среднем у граждан России. Закономерности, которые обнаруживаются лишь при суммиро­вании большого числа единичных фактов, называются статистическими.

Предметом статистического наблюдения может быть одно или несколько свойств (характеристик) объекта. Для их изучения надо знать, из каких элементов состоит объект, какова роль каждого из них. В статистике имеется такое понятие, как совокупность.

Группа элементов или явлений, объединенных каким-либо об­щим свойством, которым обладает исследуемый объект, называется совокупностью. Отдельные элементы или явления, образующие сово-. купность, называются единицами совокупности. Взятая наудачу еди­ница совокупности является случайной величиной, числовые пара­метры которой заранее неизвестны.

Признаком называется характерное свойство единиц совокупности. Дня качественных признаков отдельные значения имеют существенные различия. Для количественных признаков отдельные значения различают­ся по величине. Например, в качестве качественного и количественного признаков можно привести профессию и возраст обследуемых.

Во избежание ошибок наблюдения необходимо в процессе его подготовки и проведения предусмотреть и осуществить ряд меро­приятий. К подобного рода мероприятиям относятся: четкая разра­ботка цели, задач и программы наблюдения; детальная инструкция по программе наблюдения, правильный выбор даты наблюдения, его сроков и места; правильный подбор кадров, проводящих наблюдения, и их обучение. Целесообразно проводить проверку наблюдения в хо­де его выполнения.

Однако в органах внутренних дел сбор статистических сведений осуществляется также в форме отчетности. Статистическая отчет­ность составляется на основании данных первичного учета. Первич­ный учет - это ведение систематических записей в специальных доку­ментах. Такими документами являются: карточки на зарегистриро­ванное преступление (форма 1); на лицо, совершившее преступление (форма 2); о движении уголовного дела (форма 3). В карточках со­держится обширная информация об объектах преступных посяга­тельств, субъектах преступления по различным демографическим признакам (пол, возраст, образование и т.п.). Эти данные для их по­следующей обработки должны вводиться в компьютер.

413

 

Вернемся к специальному статистическому наблюдению, задача которого заключается в выполнении социального заказа. Все единицы совокупности объекта, относящиеся к изучаемому свойству (признаку), определяют генеральную совокупность. Общее число та­ких единиц, отражающее объем названной совокупности, обозначим буквой «N». Например, при изучении общественного мнения о дея­тельности конкретного городского отдела внутренних дел генераль­ную совокупность представляет население этого города, а ее едини­цей является отдельный человек. Если исследователя интересует про­цент осужденных, совершивших преступления в состоянии опьяне­ния, генеральной совокупностью будут соответствующие уголовные дела за определенный период времени, а единицей совокупности -

одно уголовное дело.

По степени охвата единиц изучаемой совокупности наблюдения

делятся на сплошное, при котором регистрируются все без исключе­ния единицы обследуемой совокупности, и несплошное, когда подле­жит учету только часть ее единиц. Сплошное наблюдение дает полное представление о состоянии объекта по анализируемому признаку. Однако подобный метод связан с преодолением следующих практи­ческих препятствий:

генеральная совокупность нередко настолько велика, что нет воз­можности собрать данные в отношении каждой ее единицы. Так, выясне­ние общественного мнения населения Москвы о работе милиции методом сплошного обследования требует затрат и денежных средств;

иногда генеральная совокупность недоступна для полного (до последней ее единицы) изучения. Например, невозможно применить метод опроса к наркоманам города в силу определенной латентности

совершаемых ими незаконных сделок и покупок;

сплошное изучение генеральной совокупности может привес­ти к ее порче или уничтожению. Это относится, в частности, к про­верке годности патронов, поступающих в органы МВД, УВД, кон­трольной закупке блюд в общественных пунктах питания и т.п.

Несплошное обследование может осуществляться различными путями: методом основного массива, монографическим, выборочным

методами, направленным отбором.

Одним из самых распространенных является выборочный ме^ тод. Сущность его заключается в том, что исследованию подвергает­ся лишь часть единиц генеральной совокупности для последующего суждения о последней в целом. Данная часть единиц называется вы-

414

борочной совокупностью. Она должна быть копией в миниатюре ге­неральной совокупности по тем характеристикам и признакам, кото­рые подлежат изучению. Ее объем обозначим буквой «п», С полным основанием ее можно назвать моделью генеральной совокупности, а выборочный метод - разновидностью моделирования.

Известно, что выборочная совокупность выступает как модель генеральной совокупности, если: а) их структуры совпадают; б) осу­ществляется условие репрезентативности (представительности). Только в этом случае можно говорить о научной обоснованности дан­ных, получаемых при исследовании модели.

Для выполнения первого условия генеральная совокупность де­лится по некоторому признаку на однородные части - типические группы, при этом N = Ni +N2+.,.+Nic (где k • число типических групп). Из каждой группы производится случайная выборка; при этом п = щ + П2+,..+0)с. Отношения между частями и целым в выборочной и гене­ральной совокупности должны совпадать, т.е. п/п = Nt/N, где i'=l,2...,k - номер типической группы. Такую выборочную совокупность в лите­ратуре называют типической (районированной или стратифицирован­ной, т.е. расслоенной) выборкой,

Второе условие - репрезентативность выборочной совокупно­сти, т.е. ее способность воспроизводить характеристики генеральной совокупности. Следовательно, достаточно точно отражающая ее вы­борка рассматривается как репрезентативная.

Считается, что репрезентативность достигается, когда расхож­дение между значениями какого-либо признака в генеральной и вы­борочной совокупностях не превышает ± 5%. Это расхождение назы­вается предельной ошибкой выборки и обозначается в виде Л == ± У/о. Например, если исследователь определил, что средний возраст лиц в репрезентативной выборочной совокупности равняется 30 годам, то средний возраст лиц в генеральной совокупности будет находиться в пределах от 28,5 до 31,5 года.

Существуют определенные правила организации выборочного обследования. Они применимы для однородной генеральной сово­купности. Если последняя состоит из нескольких типических групп, правила приложимы к каждой из них в отдельности. Такими прави­лами являются следующие:

количество взятых в выборку единиц должно быть достаточно велико;

415

 

• отбор должен обеспечивать равновероятность их включения в выборку из генеральной совокупности. Ни одна из единиц совокупно­сти не должна иметь преимуществ перед другими;

отбор должен быть произведен из всей генеральной совокуп­ности (из каждой типической группы).

Если генеральная совокупность не требует членения на типиче­ские группы, то использование типических правил обеспечивает соб­ственно случайную выборку.

По способу организации различают выборки: собственно слу­чайную, типическую, механическую, серийную, комбинированную, ступенчатую, многофазную53. Указанные виды выборки применяются в сочетании с повторным и бесповторным отбором.

Повторный отбор есть вид выборки, при котором отобранная однажды единица совокупности после ее изучения возвращается об­ратно в генеральную совокупность и снова участвует в процессе от­бора. Бесповторный отбор характеризуется тем, что отобранная еди­ница после ее изучения в генеральную совокупность не возвращается. При выборе ряда единиц вероятность попадания в выборку для ос­тавшихся единиц генеральной совокупности возрастает.

В математической статистике существуют расчетные формулы объема (количества единиц) выборочной совокупности, в зависимо­сти от способа выборки. Эти формулы дают ответ на вопрос, сколь­ко изучить документов, сколько экземпляров анкеты тиражировать, сколько времени наблюдать за совокупностью, чтобы получить ре­презентативную выборку.

Исследователи часто пользуются случайной бесповторной вы­боркой, когда заранее неизвестен объем генеральной совокупности (N), так как он не входит в расчетные формулы объема выборочной совокупности (п). Объем повторной выборки обычно выше, чем при бесповторном отборе.

Не представляет затруднений определить объем выборочной совокупности на компьютере, пользуясь, например, программой-приложением Excel 5.0 для Windows. Тем не менее приведем расчет­ную формулу объема репрезентативной случайной бесповторной вы­борки. Объем выборки, с одной стороны, должен быть минимальным

53 Михайлов Н.И., Кравченко Ю.А. Основы социологических знаний. Часть 4. Методика социологических исследований и ее использование в органах внут­ренних дел. - М., 1991.

416

(в целях сокращения объема работы по сбору и обработке информа­ции), но вместе с тем достаточным для того, чтобы выводы о выбо­рочной совокупности можно было бы перенести на генеральную со­вокупность.

Формула случайной бесповторной выборки имеет вид:

СТг2 * t2 *N

„=————————,                              (3.8.1)

A^N+CTr2*!2 где N - объем генеральной совокупности;

n - объем выборочной совокупности;

Отг2 - дисперсия генеральной совокупности;

t - коэффициент доверия;

Д - предельная ошибка выборки (репрезентативности).

Смысл предельной ошибки выборки был рассмотрен ранее. Ес­ли исследователь желает, чтобы расхождений в характеристиках вы­борочной и генеральной совокупностей не было (т.е. чтобы А=0), то, подставляя нулевое значение этой ошибки в формулу, он получит n=N. Это указывает на необходимость сплошного наблюдения.

На степень однородности генеральной совокупности указывает величина Отг2 . Так, если исследователя интересует средний возраст лиц, составляющих генеральную совокупность, то дисперсия Стг2 по­казывает степень разброса (рассеяния) возрастов отдельных лиц во­круг среднего значения. При Отг2 = 0 все единицы совокупности одно­родны и п=0. Следовательно, выборку делать не нужно, а достаточно изучить любую единицу генеральной совокупности. Следует отме­тить, что Стг2» Ств2 (дисперсия выборочной совокупности) при п>30.

Коэффициент доверия t характеризует, с какой вероятностью признак находится в генеральной совокупности в заданных пределах. Чем выше требуется вероятность, тем большее значение t и тем шире интервал, в который попадает изучаемый признак. При этом объем выборки n заметно увеличивается.

Когда же исследователя интересует доля какого-либо признака в генеральной совокупности, тогда дисперсия Стг2 в формуле 3.8.1 за­меняется выражением рг*(1 - рг).

Основная трудность расчета объема выборки заключается в оп­ределении величин Стг2 и рг*(1 - рг), поскольку к началу обследования они неизвестны ни по генеральной, ни по выборочной совокупности ввиду того, что выборка еще не произведена. Поэтому рассматривает-

14 Заказ 1497

417

 

ся приближенное значение рг и оД а именно рг =0.5 и а^О.И^Хтш -Xmin). Эти значения обеспечивают завышенный объем п. После прове­дения выборки уже можно определить более точные значения рг и Стг2.

Рассмотрим сказанное на примере. Так, разработана анкета оп­роса населения города о работе милиции. Для расчета тиража анкеты воспользуемся формулой случайной бесповторной выборки. Взрослое население составляет N = 224160 чел. Будем считать, что рг - доля лиц, удовлетворенных работой милиции, составляет 0,5 (или 50%). Берем t=2 - коэффициент доверия, характеризующий вероятность близости результатов опроса выборочной и генеральной совокупно-стией (q = 0,954), а Д=0,05 или (5%). Подставляя исходные данные в формулу 3.8.1, получаем п = 399.

Если на первом этапе обращается внимание на полноту, качест­во и достоверность собранной информации из выборочной совокуп­ности, то на втором этапе нужно стремиться к эффективности исполь­зования первичных данных для решения задач анализа.

2. Сводка и группировка собранного материала - основные понятия статистики. Под сводкой понимается обработка материалов наблюдения для получения итоговых или определенным образом упорядоченных числовых характеристик изучаемой совокупности. На этой стадии совершается переход от характеристик и единиц к харак­теристике их совокупности.

При сводке основное внимание уделяется группировке резуль­татов наблюдения. Под группировкой понимается разделение единиц совокупности на качественно однородные группы по существенным варьирующимся признакам, называемым группировочными. Сущест­вует несколько видов группировок:

типологическая, расчленяющая разнородную массу явлений на качественно однородные категории или типы (например, виды преступлений);

вариационная, характеризующая структуру совокупности по какому-либо количественному (варьирующему) признаку (например, стаж работы в органах);           \

аналитическая, дающая возможность изучать взаимосвязи ме­жду двумя и более признаками совокупности (например, влияние ми­грации населения на преступность).

Результаты сводки и группировки данных, как правило, оформ­ляются в табличном и графическом видах, причем первый вид пред-

418

Таблица 3.8.1 Структура статистической таблицы Сказуемое

 

 

 

 

 

 

 

 

 

 

 

 

Подлежа­щее

 

 

 

Числа

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ставления данных наиболее рационален и удобен для дальнейшей об­работки, тогда как второй дает максимум наглядности.

Статистические таблицы имеют два основных элемента, кото­рые по аналогии с грамматическим предложением называются под­лежащим и сказуемым. Под­лежащим называется то, о чем говорится в таблице, напри­мер о видах преступления. Подлежащее размещается в строках левой части таблицы. Сказуемое таблицы определя­ет перечень признаков, харак­теризующих подлежащее, за­писывается вверху таблицы и обусловливает содержание ее столбцов. Такими признаками могут быть районы региона или периоды време­ни, дающие возможность проследить динамику видов преступлений. Клетки, образуемые на пересечении строк и столбцов, содержат чи­словые данные (см. табл. 3.8.1). В зависимости от содержания табли­цы подлежащее и сказуемое могут меняться местами.

Пусть в результате выборочного обследования осужденных за тяжкие телесные повреждения (п =55) в качестве наблюдаемого при­знака взят возраст. Анализ возрастных особенностей названной груп­пы применительно к 55 осужденным дал результаты, которые введе­ны в табличный процессор Excel 5.0 для Windows.

При изучении результатов выборочных наблюдений их прежде всего упорядочивают. Нужно расположить значения случайной величи­ны в порядке возрастания Xi < Xz <...< Хп. В этом ранжированном ряду различные значения, как видно из табл. 3.8.2, встречаются несколько раз. Такие различные X, называются вариантами, а ряд вариантов, располо­женных в порядке их возрастания - вариационным рядом.

Таблица 3.8.2 Результаты выборки

14*

16

 

22

 

20

 

19

 

18

 

24

 

21

 

17

 

23

 

18

 

19

 

16

 

22

 

18

 

23

 

20

 

19

 

20

 

18

 

21

 

18

 

19

 

24

 

17

 

16

 

23

 

19

 

25

 

21

 

20

 

18

 

19

 

22

 

20

 

18

 

17

 

21

 

19

 

20

 

23

 

25

 

22

 

20

 

17

 

24

 

19

 

17

 

21

 

18

 

19

 

21

 

26

 

22

 

19

 

20

 

 

 

 

 

 

 

 

 

 

 

 

419

 

Пусть Xi наблюдался mi раз, X; - m; раз и т.д. Число наблюде­ний называют частотой и обозначают т. Сумма частот равна объему выборки п. Отношение частоты к объему выборки называется часто­стью и обозначается р;* = т;/п. Частость характеризует долю каждого значения в общем числе наблюдений и является статистической веро­ятностью. Варианты и соответствующие им частоты (или частости) образуют статистический ряд выборки.

Проранжируем в Excel 5.0 варианты (для этого они должны быть в одной строке или столбце) и определим с помощью «Мастера функций» частоты, соответствующие каждому варианту. В результате в рабочем листе Excel 5.0 имеем табл. 3.8.3.

Статистический ряд выборки

Таблица 3.8.3

Вариационные ряды делятся на дискретные и интервальные. В дискретном  ряду  вариант  принимает  дискретное  значение (количество лет, стаж работы в органах внутренних дел и др.). В слу­чае интервального ряда значения варианта даются в виде интервалов, которые получаются в результате группировки данных наблюдения. Частоты при этом относятся не к отдельному значению признака, а к не­которому интервалу (например, варианты норм выработки в исправитель­ных учреждениях в виде интервалов: 65-70%, 70-75%, 80-85% и т.д.).

Статистический ряд является эмпирическим законом распреде­ления выборочной совокупности. К универсальной характеристике случайной величины относится ее функция, или плотность, распреде­ления. Функцию распределения генеральной совокупности будем на­зывать теоретической функцией распределения F(x), а статистиче­скую функцию распределения выборки - эмпирической функцией распределения Fn (x).

При больших объемах наблюдений n Fn (x) —> F(x), т. е. эмпири­ческая функция распределения выборки с ростом ее объема прибли­жается к теоретической функции распределения генеральной сово-

420

купности и может быть использована для ее приближенного пред­ставления.

Для достижения наглядности строят различные графики стати­стического распределения, из которых чаще всего используют поли­гон или гистограмму. Они являются графическим изображением стати­стического ряда. Графики, подобно другим искусственным языкам, (например, математическому) имеют целый ряд положительных свойств, особенно в смысле лаконичности, однозначности и наглядности.

Выделив табл. 3.8.2 в рабочем листе Excel 5.0 для Windows, можно построить гистограмму, полигон и кумулятивную кривую (кумуляту). За это отвечает «Мастер диаграмм».

При построении гистограм­мы над каждым временным ин­тервалом (в один год) варианта строится прямоугольник, высота которого пропорциональна соот­ветствующей частости, выражен­ной в % (см. рис. 3.8.1).

Полигон строят из отрезков, соединяющих точки, координата­ми которых являются значения вариантов X, и соответствующие частости, или частоты. На рис. 3.8.2 в виде полигона отображен вариационный ряд из табл. 3.8.3.

На оси ординат отложены частоты ряда. Из гистограммы можно по­лучить полигон распределения, для чего необходимо соединить ло­маной линией середины верхних сторон прямоугольников. При уве­личении объема выборки число сторон полигона распределения будет расти, и его ломаная линия будет стремиться к плавной кривой рас­пределения, которая отражает теоретическое распределение гене­ральной совокупности.

В ряде случаев для изображения вариационного ряда использу­ется кумулятивная кривая (см. рис. 3.8.3). Для ее построения подсчи­тываются по вариантам накопленные частоты, или частости. Первому варианту Xi (16 лет) соответствует частость mi/n, второму X; - сумма (mi + mz)/n, третьему X - сумма (mi+ т-^+ гпз)/п и т.д. Последнему ва­рианту Хщах соответствует накопленная частость, равная единице или 100, если подсчет ведется в %.

Рис. 3.8.1. Гистограмма

421

 

•        В 17 18 19 23 21 22 23 24 25 26 возраст

Рис. 3.8.2. Полигон

Рис. 3.8.3. Кумулята

Накопленные частоты показывают, сколько единиц совокупно­сти имеют значения признака не больше, чем рассматриваемое значе­ние. Так, на рис. 3.8.3 показано, что возраст 90% осужденных за со­вершение тяжких телесных повреждений не превышает 23 лет.

Иногда в статистике, помимо диаграмм, применяется еще осо­бый вид графических изображений вариантов - картограммы. Карто­грамма - это изображение величины интересующего признака (его размещение, интенсивность) на географической карте с помощью графических символов: штриховки, расцветки,» точек. Картограмма иллюстрирует содержание статистических таблиц, подлежащим кото­рых является административно-географическое деление совокупно­сти. Разновидностью картограммы является картодиаграмма. Она представляет собой географическую карту, по отдельным районам или пунктам которой размещены графические знаки (столбики, круги и т.д.), соответствующие величине статистических показателей, изо­браженных на ней. Следует отметить, что Excel 7.0 способен созда­вать картодиаграммы.

Варианты статистического ряда могут быть абсолютными и от­носительными величинами. Абсолютные величины - форма выраже­ния статистических показателей, непосредственно характеризующая абсолютные размеры правовых явлений, их признаков в единицах со­ответствующих систем измерения. Так, абсолютные величины харак­теризуют общее количество зарегистрированных преступлений, общую сумму ущерба, сроки лишения свободы, число уголовных дел и др.

422

Однако сравнительный анализ преступности по отдельным ре­гионам нельзя проводить путем использования абсолютных величин, поскольку регионы могут отличаться по численности населения и другим параметрам. Поэтому для сравнения, обобщения, определения интенсивности развития исследуемого явления, его структуры, дина­мики используются относительные величины.

Относительные величины - это отношение двух величин. Чис­литель отношения - текущие данные об исследуемом явлении (преступления, суммы ущерба и т.д.). Знаменатель отношения назы­вается основанием или базой (сравнения). В качестве текущей или ба­зисной могут выступать как одноименные, так и разноименные вели­чины. В первом случае получаем безразмерные величины. Если осно­вание принять за единицу, то величины образуют долю, или коэффи­циент. Он показывает, во сколько раз сравниваемая величина больше или меньше основания, например доля квартирных краж в преступле­ниях по линии уголовного розыска. Если основание принять за 100%, то относительная величина будет выражаться в процентах (например, число преступлений в регионе в 1998 г. - 2930, в 1997 г. - 2014, темп роста преступности К = 2930/2014*100= 145,5%). К разноименным относительным величинам относятся, например, уровень преступно­сти в расчете на 10 тыс. человек, нагрузка на одного следователя и др.

Средние и относительные величины относятся к обобщающим показателям, которые характеризуют одним числом типичные, наибо­лее распространенные стороны изучаемых явлений. Обобщающие по­казатели отражают по определенному признаку всю совокупность в це­лом, отвлекаясь от частного и случайного, что дает возможность уста­новить и измерить закономерности различных массовых процессов.

Главное значение средних величин состоит в замене множества различных индивидуальных значений признака средней величиной, ха­рактеризующей всю однородную совокупность. В статистике к средним величинам относятся: средняя арифметическая, средневзвешенная, .сред­няя геометрическая, средняя гармоническая, средняя квадратическая, средняя кубическая, медиана, мода. Рассмотрим некоторые из них.

Средняя арифметическая величина получается путем деления суммы величин вариантов на их число. При ее вычислении общий объем признака мысленно распределяется поровну между всеми еди­ницами совокупности. В результате получается средняя арифметиче­ская величина - среднее слагаемое. Формула средней арифметиче­ской имеет следующий вид:

423

 

x = x i + x 2 +•••+ x

Z x

(3.8.2)

X - средняя величина; n - численность совокупности.

Если же отдельные значения признака повторяются неодина­ковое число раз, то средняя определяется по формуле средней взве­шенной арифметической. Формула имеет вид:

Sx,*f,

if,

(3.8.3)

где fi - значение частот; i - номер интервала с одинаковыми варианта­ми; k - число интервалов.

Частоты нередко называют весами средней, отсюда и происхо­дит название средней взвешенной.

В теории вероятностей такую же формулу имеет показатель -математическое ожидание. Его формула имеет вид:

£x,*

М(х)= ^

(3.8.4)

где М(х) - математическое ожидание; р, - вероятность появления зна­чения х; случайной величины X.

Математическое ожидание представляет собой центр распре­деления, около которого сосредоточены все возможные значения слу­чайной величины. Поэтому математическое ожидание иногда назы­вают просто средним значением случайной величины.

Для определения средних темпов прироста или снижения при­знака (например, количества преступлений), когда на протяжении всех исследуемых лет происходит либо его непрерывный рост, либо непрерывное снижение, применяется средняя геометрическая, кото­рая определяется по формуле:

K.eoM-^k,*k2*...*kn ,

где k; - темп роста в i-й период; n - число периодов.

(3.8.5)

424

В качестве примера рассмотрим число уголовных дел на одного следователя по годам (см. табл. 3.8.4).

Таблица 3.8.4 Динамика нагрузки на следователя по годам

Показатель

 

Годы

 

1

 

2

 

3

 

4

 

Число дел на одного следо­вателя

 

20

 

24

 

36

 

72

 

 

Обозначим  нагрузку  на  следователя   как  X.   Тогда ki=X2/Xi=24/20 = 1,2; k2=Xa/X2 =36/24= 1,5; k3=X4/X3=72/36= 2.

______           Следовательно, за четыре года число

{^ =^/1,2*1,5*2 =1,5 дел на одного следователя в среднем уве­личивалось в 1,5 раза. Используя этот пока­затель, можно осуществить прогноз на пятый год при условии сохра­нения тенденции. Для этого нужно нагрузку на следователя в четвер­том году умножить на среднее геометрическое, т.е. Х5 = Х4* 1.5=72* 1.5=108 уголовных дел.

Отметим, что все интересующие исследователя показатели, ха­рактеризующие вариационный ряд, без труда можно проводить в таб­личном процессоре Excel 5.0 для Windows. Его пользователю не нуж­но знать математических формул, достаточно обратиться к «Мастеру функций» и он проведет все расчеты.

Для вариационного ряда, представленного в табл. 3.8.3, расчет­ные показатели, полученные Excel 5.0, приведены в табл. 3.8.5. Так, средневзвешенная величина равна 20,05, а средняя геометрическая равна 19,9. Здесь средняя геометрическая рассчитывает не темп роста, а качественное удаление от максимального и минимального значений с учетом частот вариантов.

При изучении вариационного ряда применяются также характе­ристики, которые описывают его структуру, строение. К ним относят­ся медиана и мода.

Медиана (обозначается «Me») - значение величины вариа­ционного ряда, расположенного в его середине, т.е. она делит ряд на две равные части. Медиана в отличие от средней не зави­сит от значений признака, стоящих на краях вариационного ряда

425

 

(перед вычислением медианы ряд должен быть обязательно ранжиро­ван, если до этого он не подвергался сортировке).

Если в вариационном Таблица 3.8.5

Расчет показателей ряда приложением Excel

ПОКАЗАТЕЛИ

 

Средняя величина

 

20,05

 

Медиана

 

20

 

Мода

 

19

 

Средняя геометрическая

 

19,9

 

Средняя гармоническая

 

19,8

 

Максимум

 

26

 

Минимум

 

16

 

Размах вариации

 

10

 

Среднее линейное отклонение

 

1,99

 

Дисперсия

 

6,13

 

Среднее квадратическое от­клонение

 

2,48

 

Коэффициент вариации

 

0,12

 

Скос

 

0,45

 

Эксцесс

 

-0,44

 

 

ряду четное число вариантов, то Me будет половиной суммы двух серединных вариантов. На практике медиана приме­няется в качестве средней в случае больших колебаний в значениях варьирующего при­знака.

Модой   (обозначается Мо) называется вариант при­знака, имеющий наибольшую частоту, т. е. мода - наиболее типичное значение признака. Из табл. 3.8.5 видно, что Мо = 19, Me = 20. Как правило, в вариационных рядах Мо < Me ^ Хсредн. Если они равны друг другу, то вариационный ряд подчиняется нормальному за­кону распределения. В случае различия их значений эти по­казатели используются для характеристики асимметрии (скоса) кри­вой распределения. В нашем случае (см. табл. 3.8.5) они близки друг другу (19; 20; 20,05), поэтому можно предположить, что эмпириче­ский ряд близок к нормальному закону распределения.

Однако для характеристики исследуемого признака совокупно­сти недостаточно иметь данные о средней величине этого признака. Бывают такие случаи, когда средние величины двух и более совокуп-ностей одинаковые, но они существенно отличаются своей вариацией, т.е. в одной совокупности отдельные варианты могут далеко отстоять от средней, а в другой - они могут размещаться кучно возле средней.

Если отдельные варианты недалеко отстоят от средней, данная средняя хорошо представляет свою совокупность. Для того чтобы изучить, как велики эти отклонения, их измеряют при помощи ряда показателей вариации.

426

Для характеристики величины колебания в статистике исчис­ляют следующие показатели: размах вариации; среднее линейное от­клонение; дисперсия; среднее квадратическое отклонение; коэффици­ент вариации.

Размах вариации является наиболее простым измерителем ва­риации и представляет собой разность между наибольшим и наи­меньшим значениями признака. Его формула имеет вид:

R = X щах- Х mm ,                                               (3.8.6)

где Х щах - наибольшее значение признака; Х щ,п - наименьшее значение признака.

В нашем случае R = 10 (см. табл. 3.8.5). Поскольку величина размаха характеризует лишь максимальное различие значений при­знака, она не может измерять закономерную силу его вариации во всей совокупности.

Более точную характеристику колеблемости можно получить, если сравнить все имеющиеся значения с их средней величиной. Так­же сравнение можно сделать на основе среднего линейного отклоне­ния, которое от среднего значения отнимает значения вариантов по абсолютной величине (не учитывая минусов). Его формула имеет вид:

а=

п

£

Xi-X|

(3.8.7) или с учетом частот (3-8-8)

k

Zx,

а=

*

n

n

j - номер интервала с одинаковыми частотами.

Для выборочной совокупности, представленной в табл. 3.8.3, а =1,99 (см. табл. 3.8.5).

Простота расчета и интерпретации составляет положительные стороны данного показателя, однако его нельзя поставить в соответ­ствие с каким-либо вероятностным законом, в том числе и с нормаль­ным распределением, одним из параметров которого является среднее квадратическое отклонение.

В математической статистике для оценки рассеяния вариантов используется дисперсия (Д), часто называемая средним квадратом от­клонения. Ее формула имеет следующий вид:

n             __^                                                          k             ——2 .

£(Xi-X)   (3.8.9) или с учетом      E(Xj-X) * fj D=ст2=м—————       частот (3.8.10) 0=^————————

П

n

427

 

Для нашего вариационного ряда D = 6,13 (см. табл. 3.8.5). На использовании дисперсии основаны практически все методы матема­тической статистики. Однако в ряде случаев D неудобно пользовать­ся, так как она имеет размерность X2.

Значительно более употребимой характеристикой колеблемости признака в изучаемой совокупности является среднее квадратическое отклонение, размерность которого совпадает с размерностью вариан­тов вариационного ряда. Его величина определяется как квадратный корень из дисперсии, а именно:

(3.8.11) или с учетом частот       (3.8.12)

Среднее квадратическое отклонение в реальных совокупно-стях всегда больше среднего линейного отклонения. Соотношение ст/а зависит от наличия в совокупности резких выделяющихся от­клонений и может служить индикатором «засоренности» совокуп­ности неоднородными с основной массой элементами. Чем это со­отношение больше, тем сильнее подобная «засоренность». Для нормального закона распределения ст/а = 1,25. Для нашего вариа­ционного ряда ет/а =2,48/1,99 = 1,25, что говорит об его хорошей близости к нормальному закону распределения.

Для оценки интенсивности вариации и для сравнения ее в раз­ных совокупностях и тем более для разных признаков используются относительные коэффициенты вариации. Чаще других применяется коэффициент вариации, являющийся отношением среднего квадрати-ческого отклонения к среднему значению математического ожидания вариационного ряда. Его формула имеет вид: V = ст/М (3.8.13). Для нашего случая V= 0,12 (см. табл. 3.8.5). Коэффициент вариации часто используют самостоятельно для определения степени согласованности экспертов при их оценке различных объектов. Чем меньше V и ближе к нулю, тем мнения экспертов считаются более согласованными.

Иногда подсчитывают показатель репрезентативности (имеет формулу q^^OO0/^/!!^^) вариационного ряда. Он не должен пре­вышать 5%. Для нашего случая q = 1,62%.

Для дальнейшего изучения характера вариации используются та­кие показатели, как скос (коэффициент асимметрии), эксцесс.

428

Рис. 3.8.4. Виды асимметрии

Скос (коэффициент асимметрии, обозначается «As» показывает, какая из ветвей кривой распределения длиннее другой. Если As <0, левая ветвь длиннее правой, т.е. имеем левостороннюю   асимметрию    (см. рис.3.8.4). Если As>0, правая ветвь длиннее левой, что свидетельствует о правосторонней асимметрии (см. рис. 3.8.4). Из рисунка 3.8.2 видно, что поли­гон вариационного ряда скошен, при этом As = 0,45 (см. табл. 3.8.5). Налицо -незначительная правосторонняя асим­метрия.

Эксцесс (обозначается «Ех») ха­рактеризует еще более сложное свойство вариационных рядов, а именно-степень крутизны распределения по сравнению с кривой нормального распределения. Кривые, у которых эксцесс отрицатель­ный (Ех<0), имеют более плоские вер­шины по сравнению с нормальной кри­вой и называются плосковершинными.

Кривые, у которых эксцесс положительный (Ех>0), имеют более ост­рую вершину по сравнению с нормальной кривой и называются ост­ровершинными (см. рис. 3.8.5).

Для нашего вариа­ционного ряда Ех = -0.44 (см. табл. 3.8.5), что сви­детельствует о незначи­тельной островершинно­сти эмпирической кривой распределения. Для нор­мального распределения As=Ex=0. Скос и эксцесс имеют довольно сложные математические выраже­ния (см. формулы 3.8.13 и Рис. 3.8.5. Сравнение теоретической и экс-    „ „ , ^

периментальной кривых

429

 

(3.8.14)

Однако, обратившись к «Мастеру функций» программного сред­ства Excel 5.0 для Windows, пользователь оперативно подсчитает As и Ex. Отметим, что использование современных аппаратных и про­граммных средств позволяет не только повысить оперативность под­готовки представления статистической информации, но и существен­но увеличить и усилить ее аналитические возможности.

Итак, анализируя средние и вариационные показатели вариаци­онного ряда (см. табл. 3.8.2), можно сделать предположение, что его генеральная совокупность хорошо согласуется с нормальным законом распределения или, другими словами, теоретическая кривая нормаль­ного распределения хорошо описывает эмпирические данные нашего ряда.

К такому же выводу можно прийти, сравнивая близость эмпи­рических и теоретических кривых. Однако теоретические и эмпири­ческие законы распределения могут значительно отличаться друг от друга. Расхождение между ними может быть случайным и объяснять­ся малым объемом выборки, неудачным способом группировки ста­тистических данных. Но, возможно, причина расхождения в том, что была не верна исходная посылка или, как принято говорить в стати­стике, гипотеза о виде теоретического закона распределения. Помимо нормального закона распределения существует и много других, на­пример закон Пуассона, биномиальный закон распределения и др.

Если теоретическая кривая подобрана неверно, то естественно, что расхождение ее с экспериментальным распределением не случай­но, а закономерно. Для того чтобы вынести суждение о том, насколь­ко распределение теоретического и эмпирического законов распреде­ления существенно, используется критерий согласия.

Критерием согласия называют критерий гипотезы о том, что генеральная совокупность имеет теоретическое распределение пред­полагаемого типа.

Статистическая гипотеза о том, что эмпирическое распределе­ние случайной величины описывается известным теоретическим за­коном распределения, называется нулевой. Понятие гипотезы, с кото­рым имеет дело математическая статистика, более узко, чем общее

430

понятие гипотезы (предвидение того, что ожидается от исследова­ния). Статистические гипотезы касаются поведения наблюдаемых случайных величин (вариантов статистических рядов). Их проверка осуществляется путем сопоставления с результатами наблюдений. Но результаты наблюдений зависят от случая. Поэтому статистические гипотезы носят не категорический, однозначный характер, а характер правдоподобного утверждения, которое также имеет вполне опреде­ленную вероятность (р = 0,95 - 0,99).

Критерии согласия позволяют судить о том, согласуются ли на­блюдавшиеся значения случайной величины с выдвинутой нулевой гипотезой о виде ее распределения. Существуют критерии согласия Колмогорова, Пирсона, Смирнова, Романовского, Ястремского и др. Наиболее часто используют для проверки критерий Пирсона, назы­ваемый также критерием у1 (хи-квадрат), который устанавливает критическую меру расхождения между теоретическим и практиче­ским законами распределения.

Порядок проверки гипотезы о виде закона распределения с по­мощью критериев согласия состоит из следующих шагов.

1. Выдвигается гипотеза о виде закона распределения вариаци­онного ряда и определяются его показатели.

2. Задают уровень значимости критерия а, например а = 0,01. Это значит, что с вероятностью р = 1 - а = 0,99 ( 99 %) гипотеза бу­дет принята правильно.

3. Вычисляют величину эмпирического критерия на основе па­раметров вариационного ряда Кэмп-

4. По таблице критических значений распределения находят теоретический (часто называют «критический») критерий согласия Кт при заданном значении а.

5. Делают вывод относительно проверяемой гипотезы о согла­сованности теоретического и эмпирического распределений:

а) если Кэмп < Кт, гипотезу принимают;

б) если К эмп > К т, гипотезу отвергают.

Поскольку категоричные суждения в статистике не принима­ются, в случае Кэмп < Кт можно только утверждать, что принятая ги­потеза не противоречит результатам наблюдения. Другими словами, проверка статистических гипотез позволяет отвергнуть гипотезу как неправильную, но не позволяет доказать, что она верна, лишь указы­вает на отсутствие опровержения со стороны опытных данных.

431

 

Для нашего эмпирического вариационного ряда (см. табл. 3.8.2) нужно подсчитать Кэмп> в качестве которого возьмем 5С2. Для вы­числения х эмп необходимо сравнить эмпирические частоты вариационного ряда с теоретическими, рассчитанными Excel 5.0 для кривой нормального распределения при заданных значениях Хср и ст. Получаем, что ^эмп =3,52. По таблице значений ^крит при а = 0,01 и числе степеней свободы к = t - г -1=6, где t -количество интервалов, г - число параметров распределения, на­ходим = 16,8. Следовательно, нет оснований отвергать гипотезу о нормальном распределении возрастов осужденных в выборочной совокупности, так как ^эмп <')(гкpи^•

Итак, оценка эмпирического распределения сводится к реше­нию трех задач:

1) нахождению общего характера эмпирического распределения (построение полигона и вычисление основных показателей);

2) сглаживанию эмпирического распределения посредством из­вестного теоретического распределения, в зависимости от характера полученных показателей, вида полигона и навыков самого исследова­теля;

3) проверке степени близости эмпирического и теоретического распределений с помощью критерия согласия.

Поскольку генеральная совокупность вариационного ряда, представленного в табл. 3.8.2, соответствует нормальному закону рас­пределения (согласно нулевой гипотезе), рассмотрим более подробно свойства этого закона.

Нормальный закон распределения проявляется в тех случаях, когда случайная величина Х образуется в результате действия боль­шого числа взаимно независимых факторов, причем каждый фактор не доминирует над другими по степени своего влияния на X.

Кривая нормального распределения, или просто нормальная кривая, имеет холмообразный вид. В формулу кривой входят пара­метры М(х) - математического ожидания, и ст(х) - среднего квадрати-ческого отклонения. Математическое ожидание или Хср являются центром симметрии кривой, вокруг которого группируются случай­ные величины. При изменении кривая смещается вдоль оси X, сохра­няя свой вид. Так, на рис. 3.8.6 видно, что изменение Хср значения 20 на 15 сдвигает нормальную кривую влево по оси X.

432

С изменением ст(х) вид кривой ме­няется: с ростом ст(х) кривая прижимается к оси Х и растягива­ется   вдоль   нее (большой   разброс случайной величины X) (см. на рис. 3.8.6 кривую с от(х)= 5), с уменьшением   о(х) кривая вытягивается вдоль оси ординат. Точки перегиба54 у

кривой отстоят от М(х) на расстоянии ±

Рис. 3.8.6. Кривые нормального закона распределения

ст(х). Известно также правило, что:

95%распределения лежит между значениями М - 2ст; М + 2ст;

более, чем 99% распределения заключено между М- Зет; М+ Зст.

Напомним, что у кривой нормального распределения М(х)=Мо(х)=Ме(х).

3. С помощью методов статистического анализа исследуют структуру и динамику преступности, определяют факторы, влияю­щие, на нее, оценивают на основе конкретных критериев эффектив­ность работы органов внутренних дел.

Основная цель статистического анализа заключается в установ­лении и измерении взаимосвязей и закономерностей изучаемых массовых явлений и процессов. К главным задачам относятся: 1) описание явления; 2) сопоставление и выявление закономерностей; 3) составление прогноза; 4) подготовка выводов.

Выявляя количественные взаимосвязи, соотношения и законо­мерности, статистический анализ помогает изучать и в определенной степени объяснять характер и причины явлений, условий и механизм их развития. Статистический анализ характеризует, что было и что есть. Но чтобы познать явление, надо знать не только прошлое и на­стоящее, но и иметь представление о будущем, о перспективах и тен-

54 Точкой перегиба функции у = f(x) называется такая, в которой кривая из вогнутой становится выпуклой, и наоборот.

433

 

денциях развития явлений. Таким образом, статистический анализ имеет и прогностическую функцию.

Статистический анализ позволяет выявить «тревожные» момен­ты в характеристике преступности, положительные стороны и недос­татки в работе ОВД, слабые звенья (например, низкий уровень рас­крываемое™ преступлений, длительные сроки и низкое качество рас­следования и рассмотрения дел и т.д.), чтобы на основе этих данных своевременно принять решение, разработать меры по устранению не­достатков. В конечном итоге статистическая информация нужна именно для того, чтобы сделать практические выводы для улучшения организации работы.

Статистический анализ характеризуется применением разнооб­разных методов математической статистики: корреляционного, дис­персионного, факторного, кластерного и др.

Большинство статистических задач достаточно трудоемки и требуют большого количества рутинных вычислений, ограничиваю­щихся в целом ряде случаев простыми математическими операциями. Поэтому автоматизация решения такого класса задач просто необхо­дима.

К универсальным пакетам статистических программ можно от­нести: DataStat, MicroStat, MultiStat, P-Stat, SAS, Soritec, SPSS, STADIA, STATA, StatGraphics, Statistica, StatPro, StatView, Systat и др. Эти прикладные программы имеют различную структуру и интер­фейс с пользователем, обеспечивая широкий набор статистических процедур для анализа данных наряду с другими функциями (ввод и редактирование данных, графический анализ и др.).

Например, пакет StatGraphics содержит практически все функ­ции статистического анализа, великолепную графику и по обилию своих возможностей представляет большой интерес для специалиста-математика. В сравнении с StatGraphics небольшой пакет MicroStat более прост в использовании и включает лишь ряд функций для оце­нивания плотностей распределений, дисперсионного и регрессионно­го анализа и ряда др.

Для работы с «гигантскими» массивами данных и многоцелевого использования прекрасно зарекомендовал себя пакет SAS (Statistical Analysis System), который является лидером перечисленной группы стати­стических программ. Однако он требует для своей работы 10-16 Мбайт оперативной памяти, в зависимости от полноты используемых функций пакета, и не менее 120 Мбайт памяти на жестком диске.

434

Excel 5.0 для Windows представляет значительное количество разнообразных функций как для описательной, так и для производной статистики и анализа данных. В случае многомерного статистическо­го анализа, т.е. анализа со многими зависимыми переменными, Excel (версии 5.0 и 7.0) по своим возможностям ничем не уступает стан­дартным статистическим пакетам, указанным выше. Поэтому даль­нейший статистический анализ будем иллюстрировать расчетами в Excel 5.0 для Windows.

Характеристика динамических рядов. Общественные явления, в частности преступность и правонарушения, изучаемые статистикой, находятся в постоянном развитии и изменении. При изучении соци­ально-экономических процессов в развитии применяют ряды динами­ки.

Динамический ряд - последовательный ряд значений статисти­ческих показателей, характеризующих изменение общественных яв­лений во времени. Числовые значения показателей динамического ряда называются уровнями ряда.

С помощью динамических рядов изучение закономерностей развития социально-экономических явлений осуществляется в сле­дующих направлениях:

характеристика уровней развития изучаемых явлений во вре­мени;

измерение динамики изучаемых явлений посредством систе­мы статистических показателей;

выявление и количественная оценка основной тенденции (тренда) развития;

изучение периодических колебаний;

экстраполяция и прогнозирование.

Основным условием для получения правильных выводов при анализе динамики является сопоставимость его элементов. Несо­поставимость в динамических рядах вызывается различными при­чинами. Это могут быть разновеликость показаний времени, не­однородность состава изучаемых совокупностей во времени, из­менения в методике первичного учета и обобщения исходной ин­формации, различия применяемых в отдельные периоды единиц

измерения и др.

В зависимости от характера уровней ряда различают два вида динамических рядов: моментные и интервальные.

435

 

Моментным называется ряд динамики, уровни которого характери­зуют состояние явления на определенный момент времени (см. табл. 3.8.6).

Таблица 3.8.6 Пример моментного ряда

Момент времени

 

Годы

 

1.01.95

 

1.01.96

 

1.1.97

 

1.1.98

 

Штат ОВД

 

160

 

165

 

166

 

170

 

 

В каждом последующем уровне этого ряда содержится полно­стью или частично предыдущий уровень. Уровни ряда удобно срав­нивать для изучения развития изучаемого явления во времени.

Интервальным называется такой ряд динамики, уровни которо­го характеризуют размер явления за отдельные периоды времени (см. табл. 3.8.7). Уровни интервального ряда не содержатся в предыдущих и последующих показателях. Поэтому важное значение имеет сумми­рование этих уровней. Свойство суммирования уровней за последова­тельные интервалы времени позволяет получать ряды динамики более укрупненных периодов.

Таблица 3.8.7 Пример интервального ряда

Показатель

 

Годы

 

1995

 

1996

 

1997

 

1998

 

Количество зарегистрирован­ных убийств

 

48

 

60

 

78

 

90

 

 

Для количественной оценки динамики социально-экономических явлений применяются статистические показатели. К основным показате­лям относятся: абсолютный прирост, темп роста и темп прироста.

Базисный абсолютный прирост AYo вычисляется как разность между сравниваемым уровнем y( и уровнем, принятым за постоянную базу сравне­ния yq, а именно AYg = y( - Y„ (3.8.15). Например, базисный абсолютный прирост зарегистрированных убийств в 1997 г. по сравнению с 1995 г. со­ставляет ЛУб = 78 - 48 = 30 (данные и далее берутся из табл. 3.8.7).

Цепной абсолютный прирост АУц представляет собой разность между сравниваемым уровнем y( и уровнем, который ему предшест-

436

вует , т. е. AY„ = y( - Уц (3.8.16). Так, цепной абсолютный прирост зарегистрированных убийств в 1997 г. по сравнению с 1996 г. состав­ляет ЛУц=78-60=18.

Распространенным статистическим показателем динамических рядов является темп роста. Он характеризует отношение двух уровней ряда и может выражаться в виде коэффициента или в процентах. Ба­зисный темп роста Трб( исчисляется делением сравниваемого уровня y( на уровень Yo, принятый за постоянную базу сравнения. Формула имеет вид: Трб» = y( / Yo (3.8.17). Например, темп роста зарегистриро­ванных убийств в 1997 г. по сравнению с базовым 1995 г. равняется

Трб ==78/48=1,63.

Цепной темп роста исчисляется делением сравниваемого уровня

на предыдущий уровень, а именно Трц i = y( / Yt-i (3.8.18). Так, темп роста зарегистрированных убийств в 1997 г. по сравнению с 1996 г.

равняется Трц( = 78/60 =1,3.

Темпы прироста характеризуют абсолютный прирост в относи­тельных величинах. Базисный темп прироста Тпб( вычисляется деле­нием сравниваемого абсолютного прироста ДУб на уровень, принятый за постоянную базу сравнения Yo, то есть Тпб(=АУб/Уо (3.8.19). Так, базисный темп прироста зарегистрированных убийств в 1995 г. со­ставляет Тпбз = 30/48 = 0,625. Часто темп прироста исчисляют не в долях, а в процентах. В этом случае абсолютный темп прироста пока­зывает, на сколько процентов изменился сравниваемый уровень с уровнем, принятым за базу сравнения. Полученный результат в долях

умножается на 100%, тогда Тпбз= 62,5 %.

Аналогично вычисляется цепной темп прироста:

Тпщ=ДУц (/у».] (3.8.20). Подсчитаем темп прироста зарегистри­рованных убийств в 1997 г. по сравнению с 1996 г.: Тпцз =16/60=0,267, или 26,7% . Кроме того, для сравнения динамических рядов используются средние величины: средний уровень, средний аб­солютный прирост, средние темпы роста и прироста.

В интервальных рядах динамики средний уровень Yep опреде­ляется делением суммы уровней на их число, т. е. подсчитывается средняя арифметическая по формуле (3.8.2). Так, для интервального ряда, представленного в таблице 3.8.7, Yep = (48+60+78+90)/4 = 69 зарегистрированных убийств в год.

437

 

Для моментных рядов средний уровень определяется как сред­няя хронологическая с равностоящими датами времени. Она равна сумме уровней ряда, деленной на число уровней без единицы; при этом начальный и конечный уровни должны быть взяты в половин­ном размере, так как число дат (моментов) обычно бывает на единицу больше, чем число периодов:

у ½+у2+уз+......+у„/2

Yxp=———————————————— .                  (3.8.21)

n-1

Подсчитаем средний уровень для моментного ряда, представленно­го в табл. 3.8.6. Yxp = (160/2+165+166+170/2)/(4-1)= 165,3» 165 чел.

В моментном ряду динамики с неравноотстоящими датами t;

средний уровень определяется по формуле средней взвешенной 3.8.3, в которой вместо частот f; нужно поставить t,.

Средний абсолютный прирост определяется как сумма абсо­лютных цепных приростов, деленная на их число. Так, для ряда из табл. 3.8.7 абсолютный прирост равняется:

АУцср = [(60-48) + (78-60)+(90-78)]/3 = 14 зарегистрированных убийств.

Средний темп роста Трср вычисляется по формуле 3.8.5 средней геометрической, а средний темп прироста определяется на основе взаимосвязи между темпом роста и прироста,

а именно:   Тпср = Трср - 1 .                              (3.8.22)

Так, для ряда из табл. 3.8.7 Трср = 1.23 и Тпср = 0,23 (или 23 %).

Изучение динамических рядов с помощью диаграмм. Важной стороной анализа динамических рядов является определение тенден­ции их поведения во времени. Иногда лишь одно только построение динамического ряда без всякой дополнительной обработки информа­ции выявляет общее направление или тенденцию (тренд) развития яв­ления. Но чаще бывают случаи, когда тенденция развития явления яв­но не прослеживается, так как уровни ряда колеблются то в сторону уве­личения, то в сторону уменьшения, или наоборот. Одним из способов выявления тенденций выступает аналитическая замена динамического ряда теоретической кривой сглаживания, параметры (коэффициенты) которой находятся методом наименьших квадратов.

Сущность метода заключается в том, что для выбранной функ­ции сглаживания определяются параметры, при которых сумма квад­ратов отклонений расчетных значений уровней от их действительных

438

значений должна быть минимальной. Excel 5.0 позволяет проводить подобные расчеты.

На преступность влияют многие факторы. Показатели, отра­жающие некоторые из них, приведены в табл. 3.8.8. Они называются факторными признаками, а уровень преступности является результа­тивным признаком. Рассмотрим в качестве иллюстрации динамиче­ский ряд «Уровень преступности».

Таблица 3.8.8

Статистические данные о состоянии криминологической обстановки в регионе N

 

 

A BCDEFGHIJ

 

1

 

ГОДЫ 123456789

 

2

 

Уровень преступности

 

78

 

75,2

 

72,7

 

63,7

 

46

 

50,9

 

60,8

 

102,4

 

128,1

 

3

 

Доля городского населения

 

0,8

 

0,805

 

0,807

 

0,81

 

0,81

 

0,815

 

0,82

 

0,83

 

0,836

 

4

 

Доля несовершеннолетних

 

6,8

 

6,4

 

5,8

 

5,4

 

5,5

 

5,3

 

6,1

 

6,7

 

6,8

 

5

 

Доля ранее судимых (на 10 тыс.)

 

154,7

 

151,3

 

149

 

144,9

 

137,9

 

132,2

 

146,3

 

164,2

 

170,9

 

6

 

Доля незанятых (на 100 тыс.)

 

110,9

 

100,9

 

103,2

 

95,7

 

77,7

 

96,3

 

82,3

 

117

 

126,6

 

7

 

Доля наркоманов (на 100 тыс.)

 

2

 

2,3

 

4,3

 

6

 

6,9

 

7,9

 

11,7

 

16,2

 

18,9

 

8

 

Доля иммигрантов (на одну тыс.)

 

16,2

 

16,4

 

15,1

 

16,6

 

19,1

 

21,1

 

22,3

 

23,3

 

22

 

9

 

Потребление алкоголя

 

6

 

6

 

5,9

 

5,2

 

4,6

 

4,7

 

5,1

 

6,2

 

6,6

 

10

 

Выпуск промышленной продукции

 

2,7

 

2,7

 

2,8

 

3,1

 

3,1

 

3,2

 

3,2

 

3,1

 

3

 

11

 

Выпуск сельхозпродукции

 

0,4

 

0,27

 

0,26

 

0,37

 

0,36

 

0,34

 

0,31

 

0,31

 

0,26

 

12

 

Плотность сотрудников ОВД (на 10 тыс.)

 

28,6

 

30,4

 

28,5

 

27,6

 

27,5

 

26,2

 

26,3

 

26,4

 

27,8

 

13

 

Плотность сотрудников УР (на 10 тыс.)

 

2,2

 

2,23

 

2,36

 

2,3

 

2,3

 

2,21

 

2,2

 

2,3

 

2,4

 

 

Сущность метода заключается в том, что для выбранной функции сглаживания определяются параметры, при которых сумма квадратов от­клонений расчетных значений уровней от их действительных значений должна быть минимальной. Excel 5.0 позволяет проводить подобные расче­ты. Для этого выделяем интервал ячеек A2J2, в которых находятся уровни динамического ряда, и обращаемся к «Мастеру диаграмм», который строит график эмпирического ряда в диалоговом режиме.

439

 

Чтобы вызвать команду «Линия тренда», выделяем точки гра­фика. В диалоговом окне «Линия тренда» имеется набор аналитиче­ских функций, которые могут смоделировать поведение ряда динами­ки уровня преступности. Выбираем несколько типов тренда, вводя их последовательно на диаграмму. Возьмем в качестве аналитических кривых прямую линию, параболу и полином четвертой степени.

Кроме того, выбираем режим прогноза на два периода (года) вперед, указывая Excel 5.0 на необходимость «Показывать уравнение на диаграмме» и «Показывать значение R-квадрат на диаграмме».

Наша задача - оценить, какая из теоретических кривых лучше описывает экспериментальную кривую. Таким оценочным показате­лем является критерий R-квадрат (показатель, говорящий о точности прогноза, меняющийся в пределах 0 < R2 < 1). Кривая, обладающая наиболее высоким R-квадратом, лучше описывает явление. Как видно из рис. 3.8.7, такой кривой является полином четвертой степени, имеющий показатель R-квадрат, равный 0,9634.

Рис. 3.8.7. Оценка близости линии тренда к экспериментальной кривой

Кроме того, оценку близости теоретической и эксперименталь­ной кривых дают планки погрешностей. Чтобы их построить на гра­фике, нужно выделить точки экспериментальной кривой и выполнить команду «Планки погрешностей».

На диаграмме появляются планки погрешностей (их центром являются экспериментальные точки), характеризующие интервал, в

440

который должна попасть теоретическая кривая. Как видно из рис. 3.8.7, в этот интервал полностью вписываются кривая-полином четвертой степени и парабола, но у нее R2 = 0,8287.

Прогнозирование динамических рядов методом экстраполя­ции.

Метод экстраполяции - это нахождение по известным значени­ям динамического ряда других значений, лежащих за его пределами.

При экстраполяции исследователь переносит выводы, которые он сделал при изучении тенденций развития явления в прошлом и на­стоящем, на будущее, т.е. здесь лежит предположение об определен­ной стабильности факторных признаков, влияющих на развитие дан­ного явления. Прогноз разрабатывается с учетом результатов экстра­поляции, но с привлечением дополнительной информации, не содер­жащейся в самом динамическом ряду. Это так называемая качествен­ная информация, подтверждающая объективное существование ос­новной тенденции и обоснованность переноса ее в будущее.

При разработке экстраполяционных прогнозов статистическими методами выделяются два этапа. Первый этап - это обоснование существования тенденции развития явления во времени и выбор аналитической формы ее описания. Второй этап - это анализ и обоснование целесообразности распространения тенденции в бу­дущее и собственно само аналитическое прогнозирование значений динамического ряда на заданный период времени. Как правило, этот период - довольно короткий: один - три года.

Как видно из рис. 3.8.8, мы выбрали аналитическую кривую (полином четвертого порядка), заменили ей динамический ряд и про­должили ее на два периода, а именно на 10-й и 11-й годы, тем самым выполнив два этапа экстраполяционного прогноза.

Наша задача - определить конкретные прогнозные значения уровня преступности на 10-й и 11-й годы. Существует несколько спо­собов.

Первый способ - построение сетки на rpaf, we. Сотрем лишние линии тренда, выделяя их и нажимая клавишу Del. Чтобы построить сетку, нужно выполнить команду «Сетка». В позициях «Ось X» и «Ось Y» пометим крестиком пункты «основная сетка» (она - более крупная и жирная) и «вспомогательная сетка». Для удобства измерения изме­ним шкалу сетки. Введем числа: минимум - 165, максимум - 200, ос­новная единица - 4, вспомогательная единица - 0,5, пересечение с

441

 

осью X в значении - 165. Для удобства обозрения можно изменить цвет вспомогательной сетки.

Рис. 3.8.8, Построение сетки на графике

В результате можно утверждать, что уровень преступности в 10-м периоде (году) будет составлять 169 преступлений в расчете на 10 тыс. чел., а в 11-м - 196 преступлений.

Второй способ определения прогнозных значений заключается в расчете значений теоретической кривой четвертой степени. Для удобства расчета переносим динамический ряд уровня преступности в соседний рабочий лист Excel 5.0, помещаем в ячейки B1:L4 все воз­можные значения переменной X, входящей в формулу полинома чет­вертой степени. Далее с помощью «Мастера функций» вычисляем теоретическое значение статистической функции «Тенденция» в пер­вом периоде (году) и копируем расчетную формулу в ячейки C6:L6 для остальных периодов.

Результат представлен в таблице 3.8.9. Расчет тенденции показы­вает, что уровень преступности в 10-м периоде равняется 167,8, в 11-м периоде он достиг 195,9 преступлений в расчете на 10 тыс. чел.

Общие понятия корреляционного анализа. Важнейшим услови­ем деятельности в сфере борьбы с преступностью является знание причинно-следственных отношений между показателями, характери­зующими состояние, динамику и структуру социально-экономических

442

процессов, преступности и функционирования органов внутренних

дел.

Таблица 3.8.9 Расчет теоретической кривой

 

 

А

 

В

 

CDEFGHI JK L

 

1

 

 

 

1

 

2

 

3

 

4

 

5

 

 

 

7

 

.

 

 

 

10

 

11

 

2

 

X2

/\

 

1

 

4

 

9

 

л а 16

 

QC

25

 

Oft

00

 

49

 

CtA

64

 

Q-1

o1

 

100

 

121

 

3

 

X3

Л

 

1

 

 

 

27

 

CtA 64

 

125

 

0»1Д

21b

 

0 А О

343

 

c-19 <j i &

 

79Q / £-v

 

1000

 

1331

 

4

 

X4

/\

 

1

 

л а Ю

 

0*1 01

 

ОСД ^00

 

CQC

625

 

'lOQft

izyo

 

2401

 

4096

 

с ее л 000 1

 

•щллп luuuu

 

14641

 

5

 

Уровень преступности

 

7Q

 

•7С 0

' ^(^

 

72,7

 

С*Э «7

о3,7

 

46

 

СЛ Q *J\J,y

 

ДЛ Q

ou,o

 

102,4

 

Л OQ Л

1Zo,1

 

 

 

 

 

6

 

Полином четвертого порядка

 

«7G /О

 

81,1

 

71

 

57,4

 

49

 

51,4

 

ftft Q

ЬЬ,о

 

94,6

 

A Qrt ft

1oU,b

 

л д-7 Q

167,0

 

195,9

 

 

Однако в настоящее время уже недостаточно лишь констатиро­вать наличие существующих связей, их нужно измерять. Количест­венное их измерение и получаемые на этой основе выводы во многом определяют выбор конкретных форм и методов деятельности в сфере борьбы с преступностью.

Для точного выражения зависимости между переменными (признаками, показателями) в математике применяется понятие функции, функциональной зависимости Y=F(x), где каждому значе­нию одной величины «х» соответствует определенное значение вто­рой величины «у». Например, длина тормозного пути Y зависит от скорости автомобиля Х в момент торможения:     Y = a*fS* у*Х2. При этом в формулу определения длины тормозного пути эта ско­рость входит в квадрате. В формулу также введены коэффициенты, учитывающие механические свойства рабочей поверхности колеса и поверхности дороги, состояние дорожного покрытия и продольного уклона дороги. Эти постоянные коэффициенты берутся из таблиц.

По отношению к событиям функциональная зависимость всегда выступает в виде причинной, т.е. наступление одного события (причины, в нашем случае - конкретное значение скорости в момент торможения) всегда влечет наступление другого (следствия, в нашем примере - определенная длина тормозного пути).

При анализе зависимостей в социальной сфере в большинстве случаев нельзя установить однозначного соответствия между какими-либо социальными признаками. Значению некоторого социального

443

 

признака может соответствовать множество значений другого призна­ка. В этом случае какое-либо событие (причина) не обязательно приво­дит к определенному результату (следствию). Изменение признака со­ответствует множеству изменений других признаков, колеблющихся возле некоторой средней величины. Такие зависимости называются стохастическими. Так, улучшение некоторых социально-экономиче­ских условий жизни населения не обязательно в каждом конкретном случае приводит к снижению преступности, что обусловлено действи­ем множества других факторов, т.е. стохастической природой преступ­ности и ее связью с другими, не только социальными, явлениями.

Приведем еще один пример. Практика подтверждает, что в тех регионах, где количество преступлений, приходящихся на одного ра­ботника милиции (нагрузка), больше, там ниже процент раскрывае-мости преступлений. Однако эта закономерность проявляется лишь статистически, а не функционально.

Статистическая зависимость уровня преступности от нагрузки на одного сотрудника милиции

Y Х

 

30

 

35

 

40

 

45

 

100

 

5

 

4

 

3

 

 

 

110

 

4

 

3

 

3

 

4

 

120

 

1

 

3

 

3

 

4

 

130

 

-

 

-

 

-

 

2

 

 

Рассмотрим табл. 3.8.10. В ней приведены статистические данные по некоторому региону: Y - количество преступлений в расчете на 10 тыс. человек населения (уровень преступности), Х - количество пре­ступлений, приходящихся на одного работника милиции (нагрузка). В регионе выбирались 10 городов с примерно одинаковой нагрузкой на одного работника милиции (всего 40 городов).

Как видно из таблицы Таблица 3.8.10 3.8.10, при нагрузке Х = 30

уровень преступности в пяти городах равен 100, в четырех городах - Y = 110, в одном городе - Y = 120, т.е. одному значению Х соответствует несколько значений Y. С дру­гой стороны, уровень пре­ступности Y = 100 отмечен в 12 городах с различной на­грузкой: в пяти городах - Х = 30, в четырех городах - Х = 35, в трех городах - Х = 45, т.е. одному значению Y соответствует несколько значений X.

Тенденция проявляется лишь в среднем. Так, для Х = 30 среднее значение Yep = (100*5 + 110*4 + 120*1)/10 = 106. Поступая аналогич­ным образом, получим:

444

Y

 

100

 

110

 

120

 

130

 

Х

 

34

 

37

 

40

 

43

 

 

X

 

30

 

35

 

40

 

45

 

Y

 

106

 

109

 

112

 

118

 

 

Корреляционной связью называется такая статистическая зави­симость, которая проявляется в виде тенденций для средних величин значений показателей, при этом каждому значению показателя, вы­бранного в качестве независимой переменной или факторного при­знака (X), соответствует множество значений другого показателя, вы­бранного в качестве зависимой переменной или результативного при­знака (Y), и наоборот.

Особенность корреляционных связей заключается в том, что они (в отличие от функциональных связей) являются неполными. Анализируя, например, зависимость между нагрузкой (факторным признаком) и раскрываемостью преступлений (результативным при­знаком), приходим к выводу, что на раскрываемость действуют и дру­гие факторы, причем они оказывают влияние в разных направлениях (так, высокий уровень профессиональной подготовленности сотруд­ников милиции будет положительно воздействовать на результаты их работы, а слабая оснащенность техническими средствами, напротив, будет отрицательно влиять на результаты их деятельности).

Для изучения корреляционной связи разработаны специальные методы, и в частности корреляционный анализ.

Корреляционный анализ - комплексное использование в опреде­ленной последовательности совокупности различных статистических методов обработки информации, позволяющее при выполнении неко­торых условий найти форму, направление и величину или тесноту взаимосвязей между признаками.

По форме корреляционные связи могут быть линейными и кри­волинейными. Для корректного применения корреляционного анали­за требуется обоснование близости распределения значений фактор­ного и результативного признаков к нормальному и формы связи к линейной. В противном случае необходимо использовать специаль­ные приемы анализа или другие коэффициенты связи.

Следующим условием применимости корреляционного анализа является условие достаточности объема значений признаков и их од­нородности. Чем хуже выполняется это условие, тем более сложный математический аппарат надо привлекать для получения надежных и достоверных выводов.

445

 

По направлению (типу) корреляционные связи можно разделить на прямые (положительные) и обратные (отрицательные). При пря­мой связи увеличение факторного признака ведет к увеличению ре­зультативного признака (например, связь между нагрузкой на одного сотрудника милиции и уровнем преступности), а при обратной - уве­личение факторного признака ведет к уменьшению результативного признака (например, связь между нагрузкой на одного сотрудника милиции и процентом раскрываемое™ преступлений).

Сила или теснота корреляционной связи характеризуется раз­личными коэффициентами, измеряющими эту связь. Так, для метри­ческих шкал используется линейный коэффициент корреляции (Пирсона) - г. Коэффициент корреляции - величина относительная, он выражается в долях единицы от -1 до +1.

Обычно считается, что г < 0,3 указывает на слабую связь, при 0,3 < г < 0,5 связь признается умеренной, при 0,5 < г < 0,7 корреляция является значительной, а при 0,7 < г < 0,9 - сильной и при г > 0,9 -очень сильной, близкой к функциональной связи.

Следует отметить, что коэффициент корреляции позволяет оп­ределить не только тесноту, но и направление связи ( на это указыва­ют знаки «+» или «-«).

Корреляционный анализ не заканчивается только подсчетом г. Необходимо проверить значимость коэффициента корреляции при за­данном уровне. Если г > г кр. (критическое значение г кр. находят по специальным таблицам), то полученному результату можно доверять;

если г< г кр., то рассчитанному коэффициенту корреляции доверять

нельзя.

На уровень преступности влияет множество факторных призна­ков. К' ним относятся социально-экономические, географические и климатические, демографические и другие признаки, а также призна­ки, характеризующие силы и средства, степень организованности

ОВД.

Пусть п - число этих признаков. Тогда Y = Y(Xl,X2,X3,...Xn).

Задача корреляционного анализа - выявить те факторные признаки, которые наиболее существенно влияют на результативный признак Y,

а остальными можно пренебречь.

Пусть, например, после вычислений коэффициентов корреля­ции оказалось, что Y = Y(X9, X21, Х45). Тогда руководитель органа внутренних дел при разработке плана мероприятий должен в первую

446

очередь включать в него такие, которые влияют на перечисленные факторные признаки.

Для нас представляет интерес рассмотрение корреляционных зависимостей динамических рядов. Факторные и результативные при­знаки могут меняться во времени, т.е. представлять динамические ря­ды. Между ними также можно количественно измерить тесноту связи, используя коэффициенты корреляции. Однако, чтобы использовать методы корреляционного анализа, надо выполнить ряд условий.

Динамическим рядам свойственны колебания различных типов. Первый тип - сезонные, примерно одинаковые внутригодичные коле­бания. Второй тип - трендовые, или длительные, колебания, выра­женные постоянным увеличением (уменьшением) средних уровней, как проявлением общей тенденции развития явления. Третий тип -эксцессы, нерегулярные колебания, вызванные такими факторами, как стихийные бедствия, неурожаи, военные действия и т.п. Четвер­тый тип - колебания циклические, повторяющиеся через длительные и не обязательно одинаковые промежутки времени. Эти колебания проявляются в результате изменения хозяйственной деятельности, скачка научно-технического прогресса и т.п.

Корреляцию динамических рядов можно применять только для однотипных динамических рядов, имеющих одинаковый тип колеба­ний. Это первое условие.

Вторым условием применимости корреляционного анализа яв­ляется замена эмпирических данных (уровней) динамических рядов расчетными значениями. Для этого каждый эмпирический ряд надо выровнять теоретической кривой, наиболее близко описывающей ди­намический ряд. Только после замены эмпирических уровней на рас­четные можно вычислять коэффициенты корреляции г.

При коррелировании рядов динамики надо обращать внимание на возможность изменений уровней одного ряда динамики на уровни другого со сдвигом во времени. Встречаются такие взаимосвязи между явлениями, когда изменения одного явления вызывают изменения дру­гого не сразу, а через какой-то период времени (так, изменение структу­ры органа внутренних дел может сказаться на результативности работы с запаздыванием). В этом случае необходимо совместить динамические ряды, чтобы устранить сдвиг. Этот сдвиг называется лагом.

Для динамических рядов можно также установить, усиливается или ослабевает связь между рядами динамики во времени, т.е. увели­чивается или уменьшается коэффициент корреляции между анализи-

447

 

руемыми явлениями. Для ответа на этот вопрос иногда достаточно разделить каждый из сопоставляемых рядов динамики на два во вре­мени и для каждой пары новых рядов вычислить коэффициенты кор­реляции.

Построение таблицы парных корреляций. Вычисление коэф­фициентов корреляции будем проводить на отдельном рабочем листе. Для получения коэффициентов корреляции выполняем следующую последовательность действий:

вызываем «Мастера функций» и среди статистических функ­ций активизируем функцию «Корреляция»;

в строку «массив 1» вводим диапазон динамического ряда «Уровень преступности», являющегося результативным или зависи­мым признаком;

в строку «массив 2» вводим данные факторного или независи­мого признака «Доля городского населения».

нажимаем на клавишу «Закончить», чтобы получить коэффи­циент корреляции, показывающий степень влияния доли городского населения на уровень преступности.

В результате в ячейке В2 появляется г = 0,66 (см. табл. 3.8.11). Скопируем формулу коэффициента корреляции, находящуюся в ячей­ке В2, в диапазон ячеек ВЗ:В12.

Таблица 3.8.11 Коэффициенты корреляции с лагом 0,1, 2

А

 

В

 

С

 

D

 

Е

 

F

 

G

 

Н

 

I

 

Корреляция уровня преступности

 

0

 

1

 

2

 

0

 

1

 

2

 

макс

 

лаг

 

Доля городского населения

 

0,66

 

0,72

 

0,71

 

0,66

 

0,72

 

0,71

 

0,72

 

1

 

Доля несовершеннолетних

 

0,80

 

0,71

 

0,07

 

0,80

 

0,71

 

0,07

 

0,80

 

0

 

Доля ранее судимых (на 10 тыс.)

 

0,96

 

0,71

 

-0,28

 

0,96

 

0,71

 

0,28

 

0,96

 

0

 

Доля незанятых (на 100 тыс.)

 

0,91

 

0,43

 

-0,36

 

0,91

 

0,43

 

0,36

 

0,91

 

0

 

Доля наркоманов (на 100 тыс.)

 

0,65

 

0,73

 

0,73

 

0,65

 

0,73

 

0,73

 

0,73

 

2

 

Доля иммигрантов (на 1 тыс.)

 

0,32

 

0,67

 

0,89

 

0,32

 

0,67

 

0,89

 

0,89

 

2

 

Потребление алкоголя (на душу)

 

0,91

 

0,51

 

-0,38

 

0,91

 

0,51

 

0,38

 

0,91

 

0

 

Выпуск промышленной продукции

 

-0,22

 

0,13

 

0,54

 

0,22

 

0,13

 

0,54

 

0,54

 

2

 

Выпуск сельхозпродукции

 

-0,49

 

-0,29

 

0,04

 

0,49

 

0,29

 

0,04

 

0,49

 

0

 

Плотность сотрудников ОВД (на 10 тыс.)

 

0,12

 

-0,33

 

-0,64

 

0,12

 

0,33

 

0,64

 

0,64

 

2

 

Плотность сотрудников УР (на 10 тыс.)

 

0,57

 

-0,17

 

-0,76

 

0,57

 

0,17

 

0,76

 

0,76

 

2

 

 

448

Результаты расчета представлены в табл. 3.8.11 в колонке В. Проведенные расчеты показывают, что наиболее сильное влияние на преступность оказывают три признака: доля ранее судимых (г4 = 0,96), доля незанятых (г5 = 0,91), потребление алкоголя (rg= 0,91). По­этому руководитель органа внутренних дел должен в первую очередь обратить внимание на эти показатели в текущем году (девятом перио­де).

Будем считать, что указанные три признака проявляют себя по­стоянно, без запаздывания. Поэтому эти три параметра наиболее ак­тивны в период с лагом 0.

Возникает вопрос, какие факторные признаки проявят себя в следующем году (десятом периоде), если для перечисленных призна­ков был разработан комплекс мероприятий с целью снижения их влияния на преступность. Чтобы определить, какие признаки проявят себя на следующий год с лагом 1, нужно сдвинуть слева направо динамический ряд «уровень преступности» на один год, но поскольку данных за десятый период нет, количество его членов станет равным восьми. Что касается факторных признаков, то они сдвигаются справа налево на один период, исключая текущий год. Таким образом, число их уровней также станет равным восьми.

Подсчитываем коэффициенты корреляции для лага 1. Результа­ты расчета представлены в столбце С табл. 3.8.11. Как видно из таб­лицы, в следующем (десятом) периоде влияние указанных ранее трех признаков снизилось (очевидно, из-за активной работы органа внут­ренних дел), но усилилось влияние таких признаков, как доля нарко­манов и доля городского населения (см. столбец С табл. 3.8.11).

Повторяем те же операции для лага 2. т.е. сдвигаем динамиче­ские ряды на два периода. На основе рассчитанных коэффициентов корреляции вычислим влияние факторных признаков в 11-м периоде. Как видно из табл. 3.8.11 (колонки D), наиболее существенно влияю­щими на преступность в 11-м периоде являются доля иммигрантов (г = 0,89), плотность сотрудников УР (г = -0,76), доля наркоманов (г = 0,73) и по-прежнему доля городского населения (г = 0,71).

Далее в столбцы Е, F, G вводим абсолютные значения коэффи­циентов корреляции (т.е. без знака «минус»). Эту операцию выполняет «Мастер функций», применяя к формулам, стоящим в столбцах В, С и D, математическую функцию ABS.

Находим теперь максимальное значение коэффициентов корре­ляции для каждого признака, в зависимости от лагов. Эту операцию

449

 

выполняет «Мастер функций», применяя к формулам, стоящим в столбцах Е, F, G, статистическую функцию «Макс». Результаты расче­та приведены в столбце Н табл. 3.8.11.

Теперь наша задача заключается в том, чтобы определить, ка­кому лагу соответствует максимум, находящийся в ячейках столбца Н. В принципе это можно сделать визуально и ввести в колонку 1 зна­чения лагов вручную. Однако это можно выполнить с помощью логи­ческой функции «ЕСЛИ». Снова заполнение столбца 1 выполнит «Мастер функций». В окончательном виде имеем табл. 3.8.11, которая позволяет провести анализ влияния факторных признаков на резуль­тативный признак в различные периоды времени.

Понятие регрессионного анализа. После определения наибо­лее существенных факторных признаков, влияющих на результатив­ный признак, не менее важно установить их математическое описание (уравнение), дающее возможность численно оценивать результатив­ный признак через факторные признаки.

Уравнение, выражающее изменение средней величины резуль­тативного признака в зависимости от значений факторных признаков, называется уравнением регрессии.

Регрессионный анализ - комплексное использование в опреде­ленной последовательности различных статистических методов обра­ботки информации, позволяющее при некоторых условиях найти вид уравнения регрессии и вычислить значения результативного признака Y по значениям факторных признаков.

Обычно уравнение регрессии представляется в виде следующей зависимости (Х9, Хгь Х»5 взяты в качестве иллюстрации):

¥= а + Ь *Х, + c*X^i + d*X4s.

Здесь а, Ь, с, d - неизвестные коэффициенты, которые опреде­ляются методами регрессионного анализа. Уравнение же называется уравнением множественной линейной регрессии.

Иногда достаточно выбрать один наиболее существенный при­знак и найти математическую зависимость между результативным признаком и выбранным факторным признаком, например: Y = а + Ь*Ху (прямая линия) или ¥= а + b*Xy + c*X2y (парабола). Эти уравне­ния называются уравнениями парной или простой регрессии.

Естественно, оценка результативного признака без учета ос­тальных факторных признаков (в нашем примере - Хгь Х4э) будет бо­лее грубой, но расчеты - менее трудоемкими, и иногда такой прибли­женной оценки бывает достаточно.

450

Качеством построения уравнения регрессии является средняя ошибка аппроксимации или стандартизированная ошибка оценки.

Итак, проведение регрессионного анализа позволяет разделить его на три этапа:

1)       выбор формы зависимости (вида уравнения) на основе стати­стических данных;

2)       вычисление коэффициентов выбранного уравнения;

3)       оценка достоверности выбранного уравнения.

Используя уравнения регрессии, можно прогнозировать поведе­ние различных показателей, например уровня преступности, если имеются статистические или прогнозные данные о факторных при­знаках, влияющих на него.

Прогнозирование уровня преступности с лагом 0. В текущем году на преступность наиболее сильное влияние оказали такие фак­торные признаки, как «уровни ранее судимых» (г4=0,96), «уровни не­занятых» (г5=0,91), «потребление алкоголя» (г»=0,91). Будем их учиты­вать при построении уравнения регрессии.

Для этого дополним табл. 3.8.11 рядами динамики «уровни ра­нее судимых (на 10 тыс.)», «доля незанятых (на 100 тыс.)», «потребление алкоголя (на душу населения в литрах)» из табл. 3.8.8. В результате приходим к табл. 3.8.12.

Таблица 3.8.12 Построение уравнения множественной регрессии с лагом О

 

 

А

 

В

 

С

 

D

 

Е

 

F

 

G

 

Н

 

I

 

J

 

К

 

L

 

1

 

X

 

1

 

2

 

3

 

4

 

5

 

6

 

7

 

8

 

9

 

10

 

ii

 

2

 

х*х

 

1

 

4

 

9

 

16

 

25

 

36

 

49

 

64

 

81

 

100

 

121

 

3

 

х*х*х

 

l

 

8

 

27

 

64

 

125

 

216

 

343

 

512

 

729

 

1000

 

1331

 

4

 

х*х*х*х

 

1

 

16

 

8]

 

256

 

625

 

1296

 

2401

 

4096

 

6561

 

10000

 

14641

 

5

 

Уровень преступ­ности

 

78

 

75,2

 

72,7

 

63,7

 

46

 

50,9

 

60,8

 

102,4

 

128,1

 

 

 

 

 

6

 

Полином четвер­той степени

 

75,8

 

81,1

 

71,0

 

57,4

 

49,0

 

51,4

 

66,8

 

94,6

 

131

 

167,8

 

195,9

 

7

 

Доля ранее судимых

 

154

 

151

 

149

 

144,9

 

138

 

132

 

146

 

164,2

 

170,9

 

186,9

 

206,1

 

8

 

Доля незанятых

 

111

 

101

 

103

 

95,7.

 

77,7

 

96,3

 

82,3

 

117

 

126,6

 

144,2

 

167,6

 

9

 

Потребление ал­коголя

 

6

 

6

 

5,9

 

5,2

 

4,6

 

4,7

 

5,1

 

6,2

 

6,6

 

7,45

 

8,53

 

10

 

Множественная регрессия

 

86,4

 

72,7

 

71,2

 

65,8

 

46,1

 

48,1

 

59,6

 

106,

 

122

 

155

 

196,1

 

 

15*

451

 

Поскольку у трех выделенных факторных признаков нет данных за 10-й и 11-й периоды, используем метод экстраполя­ции. Однако сначала необходимо изучить три динамических ря­да с помощью диаграмм. Эта утомительная процедура показы­вает, что полином четвертой степени описывает кривые лучше, чем все другие кривые (R-квадрат у него выше), однако его тренд после девятого периода меняется и стремится к сниже­нию. Поэтому выбор теоретической кривой зависит от эксперт­ного исследования.

Будем считать, что такой кривой является парабола, т.е. поли­ном второй степени. Хотя у параболы R-квадрат меньше, чем у поли­нома четвертой степени, однако он значительно выше по сравнению с другими кривыми.

Итак, выполняем экстраполяцию трех динамических рядов со сглаживанием их по параболе и прогнозированием на 10-й и 11-й пе­риоды. С помощью «Мастера функций» и встроенной функции «Тенденция» осуществляем прогноз трех динамических рядов в стро­ках 7:9 в клетки К7:К9 и L7:L9.

После того, как подготовлены прогнозные данные трех фактор­ных признаков на 10-й и 11-й периоды, осуществим прогноз уровня преступности на основе уравнения множественной регрессии. Для этого активизируем клетку В 10. Снова используя «Мастера функций», вызываем функцию «Тенденция» и заполняем в ее диалоговом окне необходимые параметры. Далее копируем получившуюся формулу из клетки В 10 в диапазон клеток С10:ЫО. Результаты представлены в табл. 3.8.12.

Сравнивая прогнозы уровня преступности на основе полинома четвертого порядка и уравнения множественной регрессии, убежда­емся в хорошем совпадении значений в ячейках L6 и L10 (195,9 и 196,1) в 11-м периоде (см. табл. 3.8.12).

Прогнозирование уровня преступности с лагом 1 и 2. При по­строении уравнения множественной регрессии с лагом 0 нам прихо­дилось прогнозировать факторные признаки, являющиеся перемен­ными в этом уравнении. Их экстраполяция в 10-й, 11-й периоды мо­жет привести к дополнительным ошибкам в прогнозе уровня пре­ступности.

Обойти этот шаг можно, если построить уравнение регрессии, включив в него признаки, которые проявят себя в 10-м и 11-м перио­дах. К ним относятся (см. табл. 3.8.11) доля городского населения (г=0,72, лаг 1), доля иммигрантов (г=0,89, лаг 2), доля наркоманов (г=0,73, лаг 2), плотность сотрудников УР (г=0,76, лаг 2). Дополним рабочий лист Excel 5.0 для Windows этими рядами, которые займут строки 12:15 (см. табл. 3.8.13).

Таблица 3.8.13 Построение уравнения множественной регрессии с лагами 1 и 2

A BCDEFGHI

 

J

 

К

 

L

 

12

 

Доля городского населения

 

 

 

0,8

 

0,805

 

0,807

 

0,81

 

0,81

 

0,815

 

0,82

 

0,83

 

0,84

 

0,864

 

13

 

Доля наркоманов

 

 

 

 

 

2

 

2,3

 

4,3

 

6

 

6,9

 

7,9

 

11,7

 

16,2

 

18,9

 

14

 

Доля иммигран­тов

 

 

 

 

 

16,2

 

16,4

 

15,1

 

16,6

 

19,1

 

21,1

 

22,3

 

23,3

 

22

 

15

 

Плотность сотруд­ников УР

 

 

 

 

 

2,2

 

2,23

 

2,36

 

2,3

 

2,3

 

2,21

 

2,2

 

2,3

 

2,4

 

16

 

Множественная регрессия

 

 

 

 

 

69,82

 

68,41

 

43,76

 

51,63

 

62,57

 

99,12

 

129,3

 

112,2

 

194,7

 

 

Отметим, что на основе планирования и экспертных оценок до­ля городского населения в 11-м периоде составит 0,864. Поэтому в

ячейку L12 введем число 0,864.

После этой подготовительной работы активизируем ячейку D16 и с помощью «Мастера функций» вызываем функцию «Тенденция» и в ее диалоговом окне заполняем необходимые строки, вводя в качестве переменных четыре динамических ряда, указанных в табл. 3.8.13. Далее копируем полученную формулу множественной регрессии из клетки D16 в диапазон клеток E16:L16. Результаты представлены в табл. 3.8.13. Сравним расчетные показатели уровня преступности, находящиеся в ячейках L6 (табл. 3.8.12) и L16 (табл. 3.8.13), они при­мерно совпадают (195,9 и 194,7).

Отметим, что расчетные коэффициенты уравнения множествен­ной регрессии Excel 5.0 не показывает, а только дает конечный ре­зультат Y.

Анализ руководителем ОВД прогнозных результатов. На основе полученного прогноза руководителю органа внутренних дел следует подумать, как воздействовать на факторы, которыми он может управ-

452

453

 

лять. В качестве иллюстрации рассмотрим показатель «плотность со­трудников УР (на 10 тыс. нас.)»в табл. 3.8.13. Каким должен быть этот показатель, чтобы уровень преступности в 11-м периоде равнялся 190?

Для этого в листе Excel 5.0 активизируем ячейку L16 и выпол­ним команду «Подбор параметра». В диалоговом окне команды «Подбор параметра» в первой строке «Установить в ячейке» окажется адрес клетки , а именно $L$16. В ней находится расчетная формула. Во вторую строку «Значение» нужно поставить желаемый для руково­дителя (в 11-м периоде) уровень преступности, например 190. В тре­тью строку «Изменяя ячейку» нужно поставить адрес клетки, где на­ходится признак «плотность сотрудников УР (на 10 тыс. чел.)», а именно $L$15, и нажать кнопку ОК.

В результате в диалоговом окне «Состояние подбора параметра» появится результат. Он одновременно будет находиться в ячейках L 15 и L16. Если подбор параметра руководителя удовлетворяет, то он для последующего принятия решения должен учесть, что обеспечение общего уровня преступности в расчете на 10 тыс. чел. (190) достига­ется при наличии плотности сотрудников УР на 10 тыс. чел. равной 2,417 (вместо 2,4).

Таким образом, программы различных методов статистического анализа, установленные на современных компьютерах, являются мощным средством повышения эффективности аналитической дея­тельности органов внутренних дел.