aliases

sr-due

sr-interval

sr-ease

Калибровка уверенности

Калибровка

Доверительный Интервал

2024-12-15

77

152

tag: #N/S/Synthesizing #N/T/Conspect #N/T/Article #N/T/Public 2021-10-15 15:44, Source1, Source2, Source3,

Authors: [[]]

Related: [[Субъективная минута]] [[Предсказание будущего]] [[$ calibrator]], [[Рациосообщество]] #T/T/To/Do/Note/Refactor

Калибровка мозга и уверенности

![[& Цитатник#^41178e]]

Прокачка способности оценивать величины, [[Доверительный интервал|доверительные интервалы]] и [[Теория игр|Вероятности]] путём сравнения собственных оценок с заведомо более точными.

Человек может проводить измерения не только при помощи непосредственных наблюдений за чем-либо, но и при помощи различных приборов. Более того, в современной науки используются в основном приборы, которые могут переводить явления, не фиксируемые органами чувств человека, в видимые глазом величины. А для того, чтобы убедиться в необходимой точности используемых приборов, используется калибровка.

Например, если необходимо провести калибровку весов, на них нужно последовательно поместить несколько гирь, которые с высокой точностью были взвешены на эталонных весах. После взвешивания этих гирь, которых мы считаем эталонными, мы сможем скорректировать показания калибруемых весов и добиться желаемой точности взвешивания.

Человека можно также откалибровать, чтобы он более точно осознавал свою уверенность или неуверенность см [[Доверительный интервал]] Калибровка позволяет справляться с множеством [Когнитивные искажения|когнитивных искажений]], таких как:

[[Эффект сверхуверенности]] который люди проявляют чаще всего
#T/T/To/Do/Note якорение,
[[иллюзия компетентности]]
#T/T/To/Do/Note ошибка планирования
и некоторые другие схожие.
В ряде случаев люди также могут недооценивать свою уверенность, хотя это встречается реже, чем переоценка уверенности.

Точные вероятностные суждения имеют решающее значение для принятия правильных решений. Одним из свойств хороших вероятностных суждений является то, что они «хорошо откалиброваны», что означает, что доля событий, которые, по оценкам, имеют определенную вероятность (скажем, 60%), которые действительно происходят, равна этой вероятности. Например, 60% событий, вероятность возникновения которых оценивается в 60%, в конечном итоге должны произойти. К сожалению, исследования показывают, что люди обычно слишком уверены в своих суждениях; люди приписывают событиям вероятность, превышающую долю тех событий, которые действительно происходят (подробнее). Один из методов оценки вашей калибровки — ответить на список простых вопросов и дать уверенность в каждом ответе. Когда вы задаете набор вопросов, вы строите «калибровочную кривую», которая отображает вашу уверенность в ответах в зависимости от доли вопросов, на которые даны правильные ответы (пример).

Кто хорошо откалиброван

Кто-то хорошо откалиброван , если вещи , которые он предсказывает с вероятностью X% , на самом деле происходят X% времени . Важно отметить, что калибровка — это не то же самое, что точность. Калибровка — это точная оценка того, насколько хороши ваши прогнозы, а не создание хороших прогнозов. Человек A, чьи прогнозы немного лучше случайности (60% из них сбываются при выборе из двух вариантов) и который уверен в своем выборе ровно на 60%, идеально откалиброван. Напротив, Человек B, который уверен в своих прогнозах на 99% и оказывается прав в 90% времени, более точен , чем Человек A, но менее хорошо откалиброван .

Сервисы для калибровки

https://calibrator.vladlen.ch/ (оценка доверительных интервалов) Моя версия [[$ calibrator]]
https://www.quantifiedintuitions.org/calibration?deck=long_term_history&deck=global+poverty&deck=animals (оценка доверительных интервалов по темам)
https://fatebook.io/ (Калибровка умения предсказывать вложимся в дату с вероятностью)
http://confidence.success-equation.com/ (Калибровка уверенности ДА/НЕТ)
Простой тест https://peterattiamd.com/confidence/

Результаты

При помощи калибровки можно научиться с более высокой точностью оценивать [[Доверительный интервал]] разных величин. То есть, если человек уверен не на 90 %, а на 70 %, то после калибровки он сможет это осознать. Либо, суметь расширить интервал значений таким образом, чтобы он стал доверительным с заданной вероятностью, например, с вероятностью 90 %.
На практике это необходимо для оценки вероятностей и значения пользы при совершении рационального выбора.
Также это помогает оценивать стоимость информации.
В целом же, калибровка позволяет человеку изменить взгляд на окружающий мир, который станет более понятным и более определённым.
И надо ли говорить, что калибровка позволяет эффективно бороться сразу с целым рядом [[& Когнитивные искажения|когнитивных искажений]], включая уже упомянутый эффект чрезмерной уверенности.

Описание метода

Вот пример вопроса: «Каков размах крыльев самолёта Боинг 737 последней модели?» Точный ответ на этот вопрос, скорее всего, знает довольно небольшое количество людей, однако, любой читатель этого материала вполне способен приблизительно оценить данную величину. При этом задача калибровки состоит в том, чтобы научиться сначала задавать желаемую вероятность, с которой неизвестная величина попадёт в предложенный вами интервал, а потом на основании некоторых умозаключений предлагать верхнюю и нижнюю границу доверительного интервала. Достаточно часто используемым в экспертной оценке является девяностопроцентный [[Доверительный интервал]], неизвестная величина, по определению, окажется внутри него в девяти случаях из десяти.

Если вернуться к вопросу про размах крыльев, то тут можно дать разные интервалы, даже если отталкиваться от того, что по заданию одни должны быть доверительными для вероятности 90 %. Предположим, кто-то даёт интервал от 10 до 11 метров, но этот интервал выглядит довольно узким, и если человек мало знает о самолётах и их физических характеристиках, то вероятность промаха довольно велика. Иными словами, давая такой узкий интервал, человек проявляет [[Эффект сверхуверенности]], однако, именно с ним можно эффективно бороться с использованием калибровки. Также можно сказать, что если человек не является инженером, осуществляющим конструирование или ремонт самолётов, то интервал от 10 до 11 метров больше похож на доверительный интервал в процентов десять, но никак не девяносто.

Другим крайним случаем может быть интервал от 0 до 1000 метров. Тут уже можно говорить о недостаточной уверенности, либо о доверительном интервале большем 90 %. То есть, это может быть доверительный интервал 98 или 99 %, либо даже 99,95 %. Подобные широкие рамки хороши, если вы действительно мало знаете о самолётах, но эти рамки стоит сжать, чтобы интервал больше соответствовал доверительному на 90 %.

Советы по улучшению калибровки

Начинайте с очень широкого интервала, затем задайте себе вопрос следующего плана: «Можно ли сдвинуть верхнюю границу вниз, а нижнюю вверх?» В случае с Боингом, 1000 метров уже сравнимо с длиной взлётно-посадочной полосы на аэродромах. Возможно, самолётов с таким размахом крыльев вообще не существует. А с размахом 500 метров? Или 300 метров?

Точно также следует поднимать и нижний придел. С размахом крыльев до одного метра, скорее всего, существуют только игрушечные самолёты. Можно попробовать оценить размах крыльев дельтаплана и предположить, что у Боинга он будет больше. И, соответственно, сдвинуть нижнюю границу, скажем, до 10 метров.
Представьте себе два варианта азартной игры. В первом варианте вас просят назвать девяностопроцентный доверительный интервал для размаха крыльев самолёта, и объявляют, что вы выиграете ценный приз, например, миллион рублей, если реальный размах крыльев попадёт в ваш интервал. Во втором случае вы используете генератор случайных чисел, который с вероятностью 0,9 выдаст вам миллион рублей, а с вероятностью 0,1 не выдаст ничего. Что вы предпочтёте?

Если первую игру с заданием доверительного интервала, то скорее всего вы задали слишком широкий интервал, которому соответствует вероятность попадания в него больше 90 процентов. Если вторую игру, то вы, скорее всего, задали узкий интервал, поэтому и считаете, что генератор случайных чисел будет более удачным способом выиграть. Соответственно, нужно скорректировать ваш интервал таким образом, чтобы оба варианта игры были одинаково предпочтительны.

Калибровка на практике

Сервисы

https://lesswrong.ru/calibrator

для авторизации нужно зайти через вк и впн соответственно.

Работает так: Задаются вопросы на количественную оценку всякой рандомной херни из интернетов и википедии.

Суть не в том чтобы знать ответ, или узнать, погуглив. А в том, что ты должен дать 2 диапазона в которых по твоим прикидкам находится ответ. один диапазон - в каких пределах находится ответ с 90% вероятностью второй - более точный диапазон в котором ответ находится с меньшей, 50% вероятностью.

После пары десятков - сотни ответов можно посмотреть на статистику. Она покажет насколько твои представления о мире и оценки вероятностей согласуются с реальностью:

И если ты склонен недооценивать\переоценивать вероятности, и достоверность фактов или событий, то при последующих оценках в жизни делать поправку на это или расширить свой "доверительный интервал"

Как я понял, в идеале в 90 процентов должно быть около 90 % попаданий а в 50 % - около 50

Predict

Android приложение на английском

Самостоятельная, офлайн калибровка

Вам предстоит ответить на два блока вопросов, по 10 каждый. В первом блоке нужно будет дать численные ответы на некоторые вопросы, без использования любых справочных материалов.

Теперь приготовьтесь записать девяностопроцентные доверительные интервалы для ответов на следующие вопросы:

Длина реки Дон, в километрах. Число жителей CCCР по данным Всесоюзной переписи населения 1939 года, в миллионах человек. Год переноса столицы в Санкт-Петербург. Ширина фюзеляжа самолёта Boeing 737, м. Период обращения вокруг Земли корабля «Восток-1» с Ю. Гагариным на борту. Количество штатов в Индии. Количество статей в современной Российской конституции от 1993 года. Год открытия пенициллина. Количество башен Московского кремля. Количество братьев и сестёр у Зевса.

Следующий блок вопросов будет немного отличаться, вам нужно будет определить, является ли утверждение верным или не верным. И указать вашу уверенность в процентах, от 50 до 100 с шагом в 10 процентов. Например, дано утверждение «Наполеон родился в 19 веке». Вы с ним скорее не согласны, и оцениваете надёжность своего ответа в 70 %, соответственно, так и записываете: «не верно, на 70 %».

В королевстве Бутан разрешено многожёнство. На территории Японии имеется посольство Китайской Республики, не путать с Китайской Народной Республикой. С 1991 по 2011 годы в Российской федерации не изготавливали монеты из циркония. Буква «К» является одной из трёх самых распространённых букв в словах русского языка. Древнерусская сажень меньше косой сажени. Основным экспортным продуктом Республики Конго в 2011 году являлся уран. Любые виды бронзы содержат медь. Первым позвоночным животным, отправленным на околоземную орбиту и благополучно вернувшимся, была крыса. В результате постройки гидроэлектростанций и образования водохранилищ, длина реки Волга увеличилась. Микки Маус имеет детей, официально фигурирующих в мультфильмах студии «Дисней».

После того, как вы ответили на оба блока вопросов, вы можете перейти к ответам по ссылке в конце статьи, и отметить у себя, сколько у вас правильных и сколько неправильных ответов.

Методика оценки

Для первого блока, где нужно дать численный интервал, вы просто считаете количество правильных ответов. Предположим, вы дали 7 правильных ответов из 10, то есть в семи случаях правильный ответ оказался внутри вашего интервала. Это означает, что доверительный интервал для ваших ответов в среднем был 70 %. Посмотрите, в каких случаях вы ошиблись, и попробуйте понять, почему вы искомое значение вышло за границы вашего интервала.

Для второго блока вопросов вы тоже должны посчитать количество правильных ответов, при этом все ответы, для которых вы установили надёжность в 50 % считаются как 0,5 правильного ответа. Например, вы дали 6 правильных ответов, для которых ваша надёжность была от 60 до 100 %, два неправильных, и два ответа для которых вы установили надёжность в 50 %. Тогда к шести вы прибавляете 0,5 умноженное на 2, получая семь из десяти, это будет соответствовать реальной надёжности ваших ответов, как и в предыдущем блоке.
Следующим шагом вы должны посчитать среднюю надёжность, которую вы сами устанавливали на ответы, сложив все ваши проценты и разделив их на десять. Предположим, вы получили 80 %. Если реальная надёжность составила 7 из 10, то есть 70 %, а ожидаемая 80 %, то это будет неплохим результатом. Впрочем, даже такой результат можно улучшить с помощью дальнейшей калибровки.

[[Ответы к калибровочным вопросам]]

Source: Alpert, M. and Raiffa, H. 1982. «A Progress Report on the Training of Probability Assessors». In Kahneman et. al. 1982: 294-305.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

калибровка мозга.md

калибровка мозга.md

Калибровка мозга и уверенности

Кто хорошо откалиброван

Сервисы для калибровки

Результаты

Описание метода

Советы по улучшению калибровки

Калибровка на практике

Сервисы

https://lesswrong.ru/calibrator

Predict

Самостоятельная, офлайн калибровка

Методика оценки

[[Ответы к калибровочным вопросам]]

Files

калибровка мозга.md

Latest commit

History

калибровка мозга.md

File metadata and controls

Калибровка мозга и уверенности

Кто хорошо откалиброван

Сервисы для калибровки

Результаты

Описание метода

Советы по улучшению калибровки

Калибровка на практике

Сервисы

https://lesswrong.ru/calibrator

Predict

Самостоятельная, офлайн калибровка

Методика оценки

[[Ответы к калибровочным вопросам]]