January 9th, 2012

белая ленточка

Про распределения (подсказки аналитикам)

Уж сколько копий сломано про гаусса... (в смысле - про нормальное распределение)  А истины всё нет.

Почему-то спорщики с обеих сторон забывают, что характер распределения в статистических исследованиях должен выбираться, исходя из "физической модели" (в данном случае - социальной модели) процесса. Логика здесь должны быть такая:
- описываем реально происходящий процесс как серию испытаний, независимых или зависимых друг от друга - как есть (точнее - как мы это себе представляем);
- выбираем из набора известных распределений то, которое лучше всего описывает нашу схему;
- сравниваем эмпирическое распределение и теоретическое - и...
  • вариант 1: бинго! совпадает с высокой вероятностью, которую мы считаем по критерию хи-квадрат, Колмогорова-Смирнова и др. Пьём шампанское и пишем статью.
  • вариант 2: не совпало. Это значит, что мы неправильно выбрали модель или ещё что-то. Пьём водку и думаем.
К сожалению, ни одна публикация на тему анализа голосования не начинается со слов "мы выбрали для апроксимации данных распределение Гаусса, исходя из следующей теоритеческой модели..." Так что есть гаусс в избирательной статистике или нет - это пока науке неизвестно.

Зато нам удалось сделать первые шаги к тому, чтобы это выяснить.  Вероятно, кому-то это пригодится.

Распределение численности избирателей по участкам (внесённых в список на момент окончания голосования) великолепно апроксимируется вейбулловским распределением ;)

Collapse )

Во-вторых, что несколько менее очевидно (хотя... если подумать...) число действительных бюллетеней на участках также описывается распределением Вейбулла!

Collapse )
Это всё позволит нам, как минимум, сравнивать аналогичные данные по выборам в ГоДуму и ЗакС при помощи сильных (в статистическом плане) праметрических методов, а кроме того, позволит нормализовать данные для дальнейшего анализа.

Так что если гаусса пока нет, это не означает, что его совсем не будет! :)
белая ленточка

Анализ расхождений между численностью избирателей на выборах в ГД и ЗС

"Всех учили. Но зачем ты оказался первым учеником, скотина такая?"
Е.Шварц. Дракон

Для того, чтобы поймать жулика, не надо за ним следить каждую минуту. Надо предоставить ему возможность жульничать нагло и бесконтрольно - тогда у него не будет стимулов прятать концы в воду. И результаты мошенничества будут лежать прямо на поверхности. Приходи и бери.

Покажем, как это правило работает применительно к результатам прошедших "выборов". Проведём анализ расхождений между списками избирателей на выборах в ГД и ЗС, происходивших 4 декабря параллельно.

Для начала вычислим разницу между количеством избирателей на выборах в ГД и в ЗС на момент окончания голосования на каждом участке (по официальным данным ГАС-Выборы). Способ вычисления: "Число избирателей, внесённых в списки для голосования на момент окончания на выборах в ГД" плюс "Число выданных на этом участке открепительных" (эти избиратели были исключены из списка на выборы в ГД, но не были исключены из списка на выборы в ЗС, поскольку закон этого не предусматривает, поэтому списки для голосования по ЗС больше на эту величину) минус  "Число проголосовавших по открепительным на выборах в ГД на этом участке" (эти избиратели не имеют права голосовать на выборах в ЗС) минус "Число избирателей, внесённых в списки для голосования на момент окончания на выборах в ЗС". (Проверьте кто-нибудь.)

(Стоит отметить, что среднее ряда = 1, т.е. в среднем по городу расхождений нет.) Всего в городе имеется  862 участка с "навесами" в пользу ЗС, 832 – с "навесами" в пользу ГД и 88 участков, на которых баланс сошёлся в 0.

Затем суммируем  все «навесы» в пользу ГД и пользу ЗС (отдельно) в пределах каждой избирательной территории. Почему в пределах избирательной территории? Да потому что именно ИТ являлись верхним (из доступных для нашего анализа) и, пожалуй, самым значимым уровнем выборных махинаций. Судьба кандидитов в ЗС зависела от доли голосов, поученных ими на всех УИКа избирательной территории, поэтому они кровно... иногда даже кроваво... В общем - старались, как могли.

Отобразим полученные данные в виде гистограммки. Для наглядности избирательные территории ранжированы по «балансу» – суммарной разнице списков для каждой территории:


Разница по ИТ.
Разница между количеством избирателей, внесённых в списки для голосования на выборах в ГД и ЗС СПб на момент оконцания голосования 4.12.2011. Официальные данные, сгруппированные по избирательным территориям.

Очевидно, что есть некие «аномалии» с одной и с другой стороны графика. Насколько они существенны?

Collapse )

Почему из 1781 участков на 502 списки избирателей расходятся больше, чем на 30 человек? Почему на некоторых они расходятся на 100, 200, 500, 1000 человек? И не следует ли в первую очередь провести расследование деятельности именно этих УИКов (список может быть предоставлен) с принятием мер дисциплинарно-ликвидационного характера?