выборы и опросы
Nov. 10th, 2016 01:36 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Интересно, как так получилось, что опросы и рынки попали впросак с этими выборами, так же, как и с Брекзитом.
Общенациональные опросы не так уж сильно промахнулись. Клинтон выиграла по голосам (избирателей, но не выборщиков) примерно на 1%, последние опросы ей давали преимущество в 3%-4%. В 2012 общенациональные опросы недооценили долю голосов Обамы на 3% с лишним, так что ошибка в 2016 даже чуть пониже.
Ошибка же произошла на на двух других этапах - на предсказаниях для ключевых штатов и на конвертации статистики опросов в вероятности побед. Вот интересная предвыборная статья в NYT с аггрегацией последних предсказаний основных публичных фирм. Они все давали смехотворно высокую вероятность победы Клинтон:

Вероятность победы на выборах складывается из вероятности победы в каждом штате, поэтому все эти предсказатели аггрегировали свои предсказания по штатам. Ошибка опроса для каждого штата по сравнению с выборами складывается из нескольких компонент:
1) статистическая ошибка выборки (шум),
2) изменение предпочтений со временем (нестационарность)
3) сдвиг выборки по сравнению с голосующим населением,
4) корреляция отказа от ответа/вранья в ответе с предпочтениями
5) корреляция изменений в явке по сравнению с опросом с предпочтениями
Имея данные опросов, предсказатели могут попробовать прикинуть вероятного победителя и неопределенность прогноза и получить из них вероятность выигрыша каждого кандидата. На этих выборах все сделали ошибку дискриминации (т.е. победителя), но это по одному наблюдению еще мало о чем говорит. Куда более серьезна ошибка калибрации, то есть, зашаливающая степень уверенности многих прогнозистов в своем прогнозе, у всех, кром 538.com куда более высокая, чем у (тоже ошибшихся с дискриминацией) рынков предсказаний.
1) Первая проблема решается большим количеством опросов, хотя это решение иногда вступает в противоречие с контролем второй проблемы. Все основные публичные предсказатели активно занимались мета-анализом многих опросов, по-разному их взвешивая, так что дело не в первой проблеме. Кроме того, ошибки этой природы были бы некоррелированы между разными опросами и разными штатами. Неопределенность, создаваемая этой проблемой, тривиально моделируется математически.
2) Судя по тому, что ранние exit polls промахнулись примерно на столько же, насколько последние опросы, вторая проблема невелика. Неопределенность, ей создаваемая, вобщем, моделируется математически, хотя это и можно делать по-разному разными предположениями про динамику временных рядов.
Почти все пресказатели для калибрации вероятностей ограничились этими двумя источниками ошибок.
3) Третья проблема довольно фундаментальная - опросы обзвоном по фиксированным линиям давно дают сильно смещенную выборку, добавление мобильных номеров немного помогает, но создает новые смещения. Сделать хорошую репрезентативную выборку, если хотеть, можно, но это будет небыстро и недешево. Возможно, обедневшие медиа не могли себе позволить качественные выборки во всех ключевых штатах. Кроме публичных опросов, были еще закрытые опросы, проводившиеся по заказу обеих кампаний и нескольких крупных институциональных инвесторов. Какие были результаты у этих опросов, мне неизвестно. Однако, мне кажется, что, как минимум, кампания Клинтон имела куда более адекватную картинку, чем СМИ. Они интенсифицировали в последние дни кампанию в штатах, которые многие предсказатели считали их с вероятностями за 95% и отменили Нью Йорский победный салют еще в понедельник. Крупные же инвесторы, по моим ощущениям, преимущественной информации не имели. Самые разные рынки полихорадило (и еще будет лихорадить) на победе Трампа, но для большинства активов влияние Трампа неочевидно. Я думаю, что если бы у крупного макро фонда была бы непубличная информация из частных опросов про исход выборов, то самым логичным было бы за день другой до выборов шортить мексиканский песо. Этого в крупных масштабах не происходило. Дополнительная сложность с частными опросами - это то, что для устранения первой проблемы выборок нужно иметь выборку, бьющую совокупную выборку многих публичных опросов, а не выборку каждого из них.
Стандартный статистический прием для уменьшения первой и третьей проблем - стратифицированная выборка, когда опрашивается меньше избирателей, про которых и так все очевидно, и больше избирателей, чей выбор неясен, а потом результаты перевзвешиваются в соответствии с долей каждой группы в населении (или в явке на выборы.) Разумеется, если забыть перевзвесить, то третья проблема стратификацией радикально усугубляется. В некоторых вполне уважаемых опросах, поразительным образом, перевзвешивание заведомо перекошенной выборки не производилось. Например, типичный опрос ABC news указывает в примечаниях "Results have a margin of sampling error of 3.5 points, including the design effect. Partisan divisions are 36-27-31 percent, Democrats-Republicans-independent". Немного света на стратификацию проливает утекший е-мейл Подесты, главы кампании Клинтон. Из других его е-мейлов видно, что он имел огромное влияние на освещение выборов почти всеми основными СМИ. Первое ощущение - что обсуждается стратификация закрытых опросов по заказу кампании. Однако, непонятно, почему Podesta требует "over-sample Hispanics", когда, казалось бы, с Трампом борьба идет не столько за них, сколько за белый рабочий класс. Завершается все это фразой "I want to get this all compiled into one set of recommendations so we can maximize what we get out of our media polling." Вот это слово "media" я не могу объяснить никак, кроме как тем, что эти рекомендации не для закрытых опросов, а для публичных и Подеста хочет манипулировать ими, создавая видимость преимущества. Так что, возможно, публичные опросы были настолько плохи из-за намеренно введенной ошибки третьего типа. Это же объясняет, почему сама кампания Клинтон не была введена в заблуждение публичными опросами. Неопределенность этой ошибки математически моделировать трудно (и невозможно если она введена намеренно.)
4) Четвертая проблема была еще большей проблемой в опросах в Британии про Брекзит, поскольку люди стеснялись признаваться в контр-системном выборе. Если масштаб искажения был сравним с британскими 3%-4%, то этого одного достаточно для объяснения ошибки опросов на общенациональном уровне и во многих штатах. Эта ошибка, а также создаваемая ей неопределенность, очень важны при переходе от результатов опросов к вероятности победы кандидата. Поразительным образом, почти все предсказатели не просто предположили, что эта ошибка имеет нулевое среднее, но еще и предположили нулевую вариацию! Это и сделало их предсказания такими уверенными. Из пресказаний по штатам понятно, что ошибка предсказателей была не только в дискриминации (то есть, различении, кто победит в каком штате), но в калибрации, когда, например, взятые Трампом Мичиган и Пеннсильвания предсказывались демократическими с вероятностью 99% и Huffington Post и DailyKos, и они же давали около 90% вероятности для Клинтон выиграть в проигранных ей Флориде и Айове. Эта ошибка калибрации мне кажется гораздо более позорной, чем ошибка в 2%-4% в дискриминации. Она настолько очевидна, что трудно поверить в то, что она была сделана ненамеренно. По интересному совпадению, про главу Huffington Post в тех же е-мейлах Подесты написано "She is enthusiastic abt the project but asks if she's more useful to us not being on the Board and, instead, using Huffpo to echo our message without any perceived conflicts. She has a point."
5) эта ошибка, как и вторая, не влияет на exit polls, так что вряд ли велика. Конечно, то, что расследование ФБР то закапывали, то откапывали так поздно в кампании, могли повлиять и на эту ошибку и на вторую.
***
Какой же мой вывод из этой простыни текста? Вывод про прошедшие выборы был интересен три дня назад. Сейчас куда важнее наблюдения про СМИ и экспертов.
Общенациональные опросы не так уж сильно промахнулись. Клинтон выиграла по голосам (избирателей, но не выборщиков) примерно на 1%, последние опросы ей давали преимущество в 3%-4%. В 2012 общенациональные опросы недооценили долю голосов Обамы на 3% с лишним, так что ошибка в 2016 даже чуть пониже.
Ошибка же произошла на на двух других этапах - на предсказаниях для ключевых штатов и на конвертации статистики опросов в вероятности побед. Вот интересная предвыборная статья в NYT с аггрегацией последних предсказаний основных публичных фирм. Они все давали смехотворно высокую вероятность победы Клинтон:

Вероятность победы на выборах складывается из вероятности победы в каждом штате, поэтому все эти предсказатели аггрегировали свои предсказания по штатам. Ошибка опроса для каждого штата по сравнению с выборами складывается из нескольких компонент:
1) статистическая ошибка выборки (шум),
2) изменение предпочтений со временем (нестационарность)
3) сдвиг выборки по сравнению с голосующим населением,
4) корреляция отказа от ответа/вранья в ответе с предпочтениями
5) корреляция изменений в явке по сравнению с опросом с предпочтениями
Имея данные опросов, предсказатели могут попробовать прикинуть вероятного победителя и неопределенность прогноза и получить из них вероятность выигрыша каждого кандидата. На этих выборах все сделали ошибку дискриминации (т.е. победителя), но это по одному наблюдению еще мало о чем говорит. Куда более серьезна ошибка калибрации, то есть, зашаливающая степень уверенности многих прогнозистов в своем прогнозе, у всех, кром 538.com куда более высокая, чем у (тоже ошибшихся с дискриминацией) рынков предсказаний.
1) Первая проблема решается большим количеством опросов, хотя это решение иногда вступает в противоречие с контролем второй проблемы. Все основные публичные предсказатели активно занимались мета-анализом многих опросов, по-разному их взвешивая, так что дело не в первой проблеме. Кроме того, ошибки этой природы были бы некоррелированы между разными опросами и разными штатами. Неопределенность, создаваемая этой проблемой, тривиально моделируется математически.
2) Судя по тому, что ранние exit polls промахнулись примерно на столько же, насколько последние опросы, вторая проблема невелика. Неопределенность, ей создаваемая, вобщем, моделируется математически, хотя это и можно делать по-разному разными предположениями про динамику временных рядов.
Почти все пресказатели для калибрации вероятностей ограничились этими двумя источниками ошибок.
3) Третья проблема довольно фундаментальная - опросы обзвоном по фиксированным линиям давно дают сильно смещенную выборку, добавление мобильных номеров немного помогает, но создает новые смещения. Сделать хорошую репрезентативную выборку, если хотеть, можно, но это будет небыстро и недешево. Возможно, обедневшие медиа не могли себе позволить качественные выборки во всех ключевых штатах. Кроме публичных опросов, были еще закрытые опросы, проводившиеся по заказу обеих кампаний и нескольких крупных институциональных инвесторов. Какие были результаты у этих опросов, мне неизвестно. Однако, мне кажется, что, как минимум, кампания Клинтон имела куда более адекватную картинку, чем СМИ. Они интенсифицировали в последние дни кампанию в штатах, которые многие предсказатели считали их с вероятностями за 95% и отменили Нью Йорский победный салют еще в понедельник. Крупные же инвесторы, по моим ощущениям, преимущественной информации не имели. Самые разные рынки полихорадило (и еще будет лихорадить) на победе Трампа, но для большинства активов влияние Трампа неочевидно. Я думаю, что если бы у крупного макро фонда была бы непубличная информация из частных опросов про исход выборов, то самым логичным было бы за день другой до выборов шортить мексиканский песо. Этого в крупных масштабах не происходило. Дополнительная сложность с частными опросами - это то, что для устранения первой проблемы выборок нужно иметь выборку, бьющую совокупную выборку многих публичных опросов, а не выборку каждого из них.

Стандартный статистический прием для уменьшения первой и третьей проблем - стратифицированная выборка, когда опрашивается меньше избирателей, про которых и так все очевидно, и больше избирателей, чей выбор неясен, а потом результаты перевзвешиваются в соответствии с долей каждой группы в населении (или в явке на выборы.) Разумеется, если забыть перевзвесить, то третья проблема стратификацией радикально усугубляется. В некоторых вполне уважаемых опросах, поразительным образом, перевзвешивание заведомо перекошенной выборки не производилось. Например, типичный опрос ABC news указывает в примечаниях "Results have a margin of sampling error of 3.5 points, including the design effect. Partisan divisions are 36-27-31 percent, Democrats-Republicans-independent". Немного света на стратификацию проливает утекший е-мейл Подесты, главы кампании Клинтон. Из других его е-мейлов видно, что он имел огромное влияние на освещение выборов почти всеми основными СМИ. Первое ощущение - что обсуждается стратификация закрытых опросов по заказу кампании. Однако, непонятно, почему Podesta требует "over-sample Hispanics", когда, казалось бы, с Трампом борьба идет не столько за них, сколько за белый рабочий класс. Завершается все это фразой "I want to get this all compiled into one set of recommendations so we can maximize what we get out of our media polling." Вот это слово "media" я не могу объяснить никак, кроме как тем, что эти рекомендации не для закрытых опросов, а для публичных и Подеста хочет манипулировать ими, создавая видимость преимущества. Так что, возможно, публичные опросы были настолько плохи из-за намеренно введенной ошибки третьего типа. Это же объясняет, почему сама кампания Клинтон не была введена в заблуждение публичными опросами. Неопределенность этой ошибки математически моделировать трудно (и невозможно если она введена намеренно.)
4) Четвертая проблема была еще большей проблемой в опросах в Британии про Брекзит, поскольку люди стеснялись признаваться в контр-системном выборе. Если масштаб искажения был сравним с британскими 3%-4%, то этого одного достаточно для объяснения ошибки опросов на общенациональном уровне и во многих штатах. Эта ошибка, а также создаваемая ей неопределенность, очень важны при переходе от результатов опросов к вероятности победы кандидата. Поразительным образом, почти все предсказатели не просто предположили, что эта ошибка имеет нулевое среднее, но еще и предположили нулевую вариацию! Это и сделало их предсказания такими уверенными. Из пресказаний по штатам понятно, что ошибка предсказателей была не только в дискриминации (то есть, различении, кто победит в каком штате), но в калибрации, когда, например, взятые Трампом Мичиган и Пеннсильвания предсказывались демократическими с вероятностью 99% и Huffington Post и DailyKos, и они же давали около 90% вероятности для Клинтон выиграть в проигранных ей Флориде и Айове. Эта ошибка калибрации мне кажется гораздо более позорной, чем ошибка в 2%-4% в дискриминации. Она настолько очевидна, что трудно поверить в то, что она была сделана ненамеренно. По интересному совпадению, про главу Huffington Post в тех же е-мейлах Подесты написано "She is enthusiastic abt the project but asks if she's more useful to us not being on the Board and, instead, using Huffpo to echo our message without any perceived conflicts. She has a point."
5) эта ошибка, как и вторая, не влияет на exit polls, так что вряд ли велика. Конечно, то, что расследование ФБР то закапывали, то откапывали так поздно в кампании, могли повлиять и на эту ошибку и на вторую.
***
Какой же мой вывод из этой простыни текста? Вывод про прошедшие выборы был интересен три дня назад. Сейчас куда важнее наблюдения про СМИ и экспертов.