Фокусы с цифрами. Почему мы доверяем данным?

Наверное, все слышали старую байку о средней зарплате: начальник зарабатывает сто рублей, рядовой сотрудник – двадцать, а в среднем зарплата в компании – шестьдесят рублей. Простейший фокус, который давно стал мемом. Тем не менее любая статистика и цифры вызывают у нас гораздо больше доверия, чем миллионы словесных аргументов. В этом материале магистрантка программы «Журналистика данных» Тольяттинского государственного университета Юлия Михалёва представляет сеанс магии с последующим разоблачением, показывая, что цифры тоже врут, повторяет и раскрывает распространённые «фокусы» со статистикой и даёт рекомендации, которые помогут вам не стать жертвой манипуляции данными. Следите за руками!

Среднестатистический пользователь интернета проводит в Сети почти семь (!) часов в день. Только представьте этот информационный шум из мнений, эмоций, комментариев... Мы буквально тонем в потоке, в котором так сложно отличить правду от вымысла. Но вот цифры – это же вроде совсем другое дело? Не зря статистику часто называют «сухой», то есть лишённой эмоций и свободной от оценочности. Вот ещё несколько причин доверять данным.

Политолог и социолог Сергей Кара-Мурза («Манипуляция сознанием. Век XXI», Эксмо, 2015):

– В числе, как и в слове, заложены множественные смыслы. Порой кажется, что это – исключительно холодные, рассудочные, рациональные смыслы. Это не так. Магия числа в том, что оно, в отличие от слова или метафоры, обладает авторитетом точности и беспристрастности. Поэтому число – один из главных объектов манипуляции.

Сами по себе (вне контекста) цифры свободны от манипуляций и вполне конкретны. Но не стоит забывать, что те цифры, которые мы получаем, например, от СМИ, представляют собой уже переработанную информацию. А в своём первоначальном виде это огромные, постоянно обновляющиеся массивы данных. Их нужно сначала отфильтровать, проанализировать, а затем правильно упаковать. Сделать это может только специалист. Как правило, именно человек и становится причиной появления манипуляций. Кстати, возникнуть они могут на каждом этапе работы.

 

Ловкость рук и никакого мошенничества?

Первый этап – сбор статистики. Уже здесь могут возникнуть проблемы. Например, если говорить о социологическом исследовании, слишком многое будет зависеть от формулировки самого вопроса.

Фокус 1. На картинке ниже представлены два варианта. Как вы думаете, какой из них неправильный?

В первом вопросе содержится готовое утверждение «магистратура положительно влияет на карьерные возможности». Даже если цель исследования в том, чтобы популяризировать магистратуру, и утверждение вполне обоснованно, задавать такой вопрос некорректно: эта формулировка, скорее всего, повлияет на ответы респондентов, что исказит результаты.

Второй этап – обработка и интерпретация данных. Интересный факт: в зависимости от интерпретации одни и те же цифры могут приобретать новые значения, порой противоречащие друг другу.

Фокус 2. Представим, что на вопрос «Какую оценку вы бы поставили продукту Х?» из 1000 респондентов 600 ответили «хорошо», а оставшиеся 400 – «удовлетворительно». Вот два варианта, как можно подать этот результат.

Одни и те же цифры могут быть интерпретированы по-разному в зависимости от контекста и цели. Даже если данные собраны и обработаны правильно, это не значит, что в материале не возникнет манипуляции. Ввести в заблуждение может даже графическое оформление. Вот несколько примеров (для наглядности будем использовать выдуманные данные).

Фокус 3. Предположим, мы хотим узнать, какое гуманитарное направление подготовки было наиболее популярным у абитуриентов университета N в 2023 году (берём только бакалавриат и только очную форму). Для этого мы опрашиваем всех гуманитариев (представим, что их 300 человек) и предлагаем им выбрать только одно направление – приоритетное для них.

По итогам исследования в лидерах оказалось направление «Лингвистика». Для наглядности оформим полученные данные в круговую диаграмму. И начинается самое интересное.

На классической круговой диаграмме видно, что самый большой сегмент (выделен синим цветом) – это «Лингвистика», следом оранжевый – «Журналистика» и так далее.

Если придать диаграмме объём, получим следующую картину.

Такое оформление некорректно из-за самого пространственного решения диаграммы. Теперь оранжевый сегмент находится ближе к нам и визуально кажется самым большим, а вот тёмно-синий – наоборот. Если автор исследования решит использовать в итоговом материале этот вариант, он рискует ввести некоторых читателей в откровенное заблуждение. При беглом или невнимательном просмотре этой диаграммы возникнет впечатление, что самое популярное гуманитарное направление подготовки – это «Журналистика», а вовсе не «Лингвистика».

Фокус 4. Представьте, что у нас в распоряжении два статистических исследования.

  • Студенты университета N шесть месяцев изучали новую дисциплину. В конце каждого месяца проводилось тестирование для проверки уровня знаний по дисциплине. Каждый месяц количество студентов, которые получили за тестирование пятёрку, увеличивалось.
  • В студенческой столовой постоянно растёт популярность салата «Цезарь». Если за февраль его купили всего 20 раз, то в июне этот показатель вырос до 60.

Если визуализировать оба этих показателя вместе, получится следующий график.

На графике видно, что количество отличных оценок у студентов растёт вместе с продажами блюда. Раз обе линии размещены на одном графике, складывается ложное ощущение, что данные взаимосвязаны. Если вы уже собрались бежать в столовую за чудо-салатом, не спешите: вы стали жертвой простой манипуляции.

В нашем примере успех салата «Цезарь» и рост успеваемости студентов действительно происходили в одно время. Но это единственное, что связывает два этих явления, иное не указано, а значит, сравнивать их некорректно. Скорее всего, студенты стали лучше писать тест, потому что каждый месяц получали всё больше информации по новой дисциплине. Ну а салат, возможно, просто оказался очень вкусным.

 

Необоснованное масштабирование

Фокус 5. Предположим, что мы решили узнать, сколько студентов ежегодно поступает в университет N. Запросили статистику за последние десять лет и для наглядности уложили её в график. Получаем такую картинку.

Здесь видно, что меньше всего студентов поступило в университет N в 2016 году, а в 2018 году количество первокурсников заметно увеличилось. Есть ещё небольшой спад в 2020 году, но в целом график выглядит довольно стабильным.

На втором графике мы представили только последние пять лет (2018–2023). И вот уже всё гораздо драматичнее.

На этом примере видно, как меняется график, если объектом нашего внимания становится не вся статистика, а лишь её часть. Делать так можно, но только в том случае, если это масштабирование обоснованно. Но даже если мы изучаем только последнюю пятилетку, следует упомянуть, что с учётом всей доступной нам статистики спад в 2020 году вовсе не является критичным.

Это только некоторые фокусы с цифрами, которые могут использовать манипуляторы. На самом деле, их гораздо больше. Вот несколько универсальных рекомендаций, которые помогут вам не дать себя обмануть.

Как не стать жертвой манипуляции данными

  • Обращайте внимание на источник данных

Очень важно, кто именно проводил исследование и собирал статистику. Узнайте, насколько этот человек или организация авторитетны в той области, о которой идёт речь. Для этого стоит ознакомиться как минимум с официальным сайтом или страницами в социальных сетях.

  • Работайте с полным массивом данных

В материалах на основе данных, как правило, авторы всегда оставляют ссылку на базу данных, дата-сеты и массивы, с которыми работали. Заглянуть туда бывает полезно, чтобы получить полную картину исследования.

  • Изучите методологию

Авторы дата-текстов часто описывают процессы сбора и обработки данных, которые используют в материале. Уделите внимание этому описанию. Проверьте, достаточно ли обоснованна выборка, насколько корректно сформулированы вопросы и т.д.

  • Не забывайте о критическом мышлении и не бойтесь задавать вопросы

Если что-то в дата-материале вызывает у вас сомнения, попробуйте самостоятельно найти информацию в других источниках или обратитесь напрямую к автору. Особенно если в тексте отсутствуют части, о которых мы говорили выше.

  • Внимательно изучите контекст и выбор визуального оформления

Обратите внимание на выбор используемых терминов и лексики. Если текст изобилует оценочными суждениями и чересчур эмоционален или в нём представлена только одна точка зрения на проблему, это может быть признаком наличия в нём манипуляций.

 

Что почитать по теме?

  • Сергей Кара-Мурза «Манипуляция сознанием XXI век»

  • Дэвид и Том Чиверс «Цифры врут. Как не дать статистике обмануть себя»

  • Дарелл Хафф «Как лгать с помощью статистики»


Просмотров: 799
Читайте также:
Поделиться с друзьями
Назад к списку статей