А это достоверно?

Факты и цифры действительно показывают то, на что претендуют?

У статистики есть ареол авторитетного источника, и люди легко поддаются его влиянию. Она выглядит как «доказательство», даже когда на самом деле ничего не доказывает.

Достоверна или нет?

Специалисты в области статистики должны знать, что факты и цифры, полученные в результате исследования, научной работы, опроса или еще чего-то — «достоверны». Другими словами, создают ли они полезную информацию, которой можно пользоваться, или данный результат мог быть получен случайно или из-за ошибки в выборке? В целом, считается, что в научной работе получен достоверный результат, если вероятность (р), что результат случаен или ошибочен, менее чем 1 к 20. Это выражается следующим образом:

р < 0,05

Вероятность 1 означает, что нечто абсолютно верно: с вероятностью 1 можно утверждать, что если вы читаете эту книгу, то вы живы. Нулевая вероятность означает, что нечто определенно не произойдет. Вероятность того, что ваша копия книги напечатана на воде, равна 0.

Вероятность р < 0,05 устанавливается довольно странным способом. Это пятипроцентная вероятность, что «нуль-гипотеза истинна», а нуль-гипотеза заключается в том, что результата нет. Проведенное через двойное отрицание, это означает, что поскольку шанс на то, что результат — это случайное стечение обстоятельств, менее 5%, статистика хорошая. Этот запас в 5% также используют, чтобы игнорировать выбросы — значения, которые падают за пределами основного поля результатов.

Кривая на картинке снизу демонстрирует обычную — или нормальную — модель распределения результатов (больше об этом вы узнаете в 14-й главе). Результаты, которые, как правило, рассматриваются как надежные и, следовательно, могут быть включены в дальнейшую разработку — это те, что попадают в 95%. В некоторых исследованиях требуются более строгие и тщательные тесты на достоверность. Это применимо к действительно важным исследованиям — таким, которые переопределяют науку. Вероятность, требовавшаяся для подтверждения регистрации бозона Хиггса (тип субатомный частицы), примерно 1 на 3,5 миллиона, или р < 2,86 х 10–7.

Кривая

Нет результата? Или результат не достоверен?

Если исследование придет к выводу, что «статистически достоверный» результат отсутствует, это не обязательно значит, что отсутствует сам результат. Необходимо оценить размер выборки и организацию исследования.

Маломасштабное исследование может пропустить незначительный результат. Промежуток времени мог быть слишком коротким, или размер выборки слишком мал. Это надо принимать во внимание при испытаниях лекарств, например. Исследование, включающее только 20 испытуемых, не сможет показать эффект, оказываемый только на 2% — либо оно не покажет ничего, либо такой эффект проявится у 1 (или более) из 20, и мы получим 5% или более.

Корреляция и обусловленность

В новостных статьях обычно связывают поведение и события, утверждая, что одно вызывает другое. Мы можем, например, прочитать, что человек в мотоциклетном шлеме с меньшей вероятностью получит серьезную травму головы в случае аварии. Вывод: мотоциклетный шлем защищает. И, скорее всего, так оно и есть. Но также возможно продемонстрировать две последовательности цифр и утверждать, что есть связь, которая вряд ли существует или может отличаться от заявленной. Например, и покупка газет, и уровень убийств упали за последние 5 лет. Здесь существует корреляция — графики похожи. А представив цифры рядом, можно утверждать, что два явления связаны — вселяет ли покупка газеты в людей желание убивать? Наверное, нет. Здесь есть корреляция, но нет обусловленности: одно не является причиной другого.

Зимой увеличивается количество проданных санок, а продажи мороженого падают. Здесь есть связь, но не прямая: оба явления связаны с зимой, но не друг с другом. Остерегайтесь статистических графиков и таблиц, которые вроде бы подтверждают связь двух феноменов — связь, может, и есть, но могут присутствовать и другие факторы, известные как побочные переменные, которые связаны с обоими. В примере с санками и мороженым зима — это побочная переменная. Но и побочные переменные не всегда существуют — в некоторых случаях это просто совпадение.




Поделиться ссылкой