Наверное, все слышали старую байку о средней зарплате: начальник зарабатывает сто рублей, рядовой сотрудник – двадцать, а в среднем зарплата в компании – шестьдесят рублей. Простейший фокус, который давно стал мемом. Тем не менее любая статистика и цифры вызывают у нас гораздо больше доверия, чем миллионы словесных аргументов. В этом материале магистрантка программы «Журналистика данных» Тольяттинского государственного университета Юлия Михалёва представляет сеанс магии с последующим разоблачением, показывая, что цифры тоже врут, повторяет и раскрывает распространённые «фокусы» со статистикой и даёт рекомендации, которые помогут вам не стать жертвой манипуляции данными. Следите за руками!
Среднестатистический пользователь интернета проводит в Сети почти семь (!) часов в день. Только представьте этот информационный шум из мнений, эмоций, комментариев... Мы буквально тонем в потоке, в котором так сложно отличить правду от вымысла. Но вот цифры – это же вроде совсем другое дело? Не зря статистику часто называют «сухой», то есть лишённой эмоций и свободной от оценочности. Вот ещё несколько причин доверять данным.
Политолог и социолог Сергей Кара-Мурза («Манипуляция сознанием. Век XXI», Эксмо, 2015):
– В числе, как и в слове, заложены множественные смыслы. Порой кажется, что это – исключительно холодные, рассудочные, рациональные смыслы. Это не так. Магия числа в том, что оно, в отличие от слова или метафоры, обладает авторитетом точности и беспристрастности. Поэтому число – один из главных объектов манипуляции.
Сами по себе (вне контекста) цифры свободны от манипуляций и вполне конкретны. Но не стоит забывать, что те цифры, которые мы получаем, например, от СМИ, представляют собой уже переработанную информацию. А в своём первоначальном виде это огромные, постоянно обновляющиеся массивы данных. Их нужно сначала отфильтровать, проанализировать, а затем правильно упаковать. Сделать это может только специалист. Как правило, именно человек и становится причиной появления манипуляций. Кстати, возникнуть они могут на каждом этапе работы.
Ловкость рук и никакого мошенничества?
Первый этап – сбор статистики. Уже здесь могут возникнуть проблемы. Например, если говорить о социологическом исследовании, слишком многое будет зависеть от формулировки самого вопроса.
Фокус 1. На картинке ниже представлены два варианта. Как вы думаете, какой из них неправильный?
В первом вопросе содержится готовое утверждение «магистратура положительно влияет на карьерные возможности». Даже если цель исследования в том, чтобы популяризировать магистратуру, и утверждение вполне обоснованно, задавать такой вопрос некорректно: эта формулировка, скорее всего, повлияет на ответы респондентов, что исказит результаты.
Второй этап – обработка и интерпретация данных. Интересный факт: в зависимости от интерпретации одни и те же цифры могут приобретать новые значения, порой противоречащие друг другу.
Фокус 2. Представим, что на вопрос «Какую оценку вы бы поставили продукту Х?» из 1000 респондентов 600 ответили «хорошо», а оставшиеся 400 – «удовлетворительно». Вот два варианта, как можно подать этот результат.
Одни и те же цифры могут быть интерпретированы по-разному в зависимости от контекста и цели. Даже если данные собраны и обработаны правильно, это не значит, что в материале не возникнет манипуляции. Ввести в заблуждение может даже графическое оформление. Вот несколько примеров (для наглядности будем использовать выдуманные данные).
Фокус 3. Предположим, мы хотим узнать, какое гуманитарное направление подготовки было наиболее популярным у абитуриентов университета N в 2023 году (берём только бакалавриат и только очную форму). Для этого мы опрашиваем всех гуманитариев (представим, что их 300 человек) и предлагаем им выбрать только одно направление – приоритетное для них.
По итогам исследования в лидерах оказалось направление «Лингвистика». Для наглядности оформим полученные данные в круговую диаграмму. И начинается самое интересное.
На классической круговой диаграмме видно, что самый большой сегмент (выделен синим цветом) – это «Лингвистика», следом оранжевый – «Журналистика» и так далее.
Если придать диаграмме объём, получим следующую картину.
Такое оформление некорректно из-за самого пространственного решения диаграммы. Теперь оранжевый сегмент находится ближе к нам и визуально кажется самым большим, а вот тёмно-синий – наоборот. Если автор исследования решит использовать в итоговом материале этот вариант, он рискует ввести некоторых читателей в откровенное заблуждение. При беглом или невнимательном просмотре этой диаграммы возникнет впечатление, что самое популярное гуманитарное направление подготовки – это «Журналистика», а вовсе не «Лингвистика».
Фокус 4. Представьте, что у нас в распоряжении два статистических исследования.
Если визуализировать оба этих показателя вместе, получится следующий график.
На графике видно, что количество отличных оценок у студентов растёт вместе с продажами блюда. Раз обе линии размещены на одном графике, складывается ложное ощущение, что данные взаимосвязаны. Если вы уже собрались бежать в столовую за чудо-салатом, не спешите: вы стали жертвой простой манипуляции.
В нашем примере успех салата «Цезарь» и рост успеваемости студентов действительно происходили в одно время. Но это единственное, что связывает два этих явления, иное не указано, а значит, сравнивать их некорректно. Скорее всего, студенты стали лучше писать тест, потому что каждый месяц получали всё больше информации по новой дисциплине. Ну а салат, возможно, просто оказался очень вкусным.
Необоснованное масштабирование
Фокус 5. Предположим, что мы решили узнать, сколько студентов ежегодно поступает в университет N. Запросили статистику за последние десять лет и для наглядности уложили её в график. Получаем такую картинку.
Здесь видно, что меньше всего студентов поступило в университет N в 2016 году, а в 2018 году количество первокурсников заметно увеличилось. Есть ещё небольшой спад в 2020 году, но в целом график выглядит довольно стабильным.
На втором графике мы представили только последние пять лет (2018–2023). И вот уже всё гораздо драматичнее.
На этом примере видно, как меняется график, если объектом нашего внимания становится не вся статистика, а лишь её часть. Делать так можно, но только в том случае, если это масштабирование обоснованно. Но даже если мы изучаем только последнюю пятилетку, следует упомянуть, что с учётом всей доступной нам статистики спад в 2020 году вовсе не является критичным.
Это только некоторые фокусы с цифрами, которые могут использовать манипуляторы. На самом деле, их гораздо больше. Вот несколько универсальных рекомендаций, которые помогут вам не дать себя обмануть.
Как не стать жертвой манипуляции данными
Очень важно, кто именно проводил исследование и собирал статистику. Узнайте, насколько этот человек или организация авторитетны в той области, о которой идёт речь. Для этого стоит ознакомиться как минимум с официальным сайтом или страницами в социальных сетях.
В материалах на основе данных, как правило, авторы всегда оставляют ссылку на базу данных, дата-сеты и массивы, с которыми работали. Заглянуть туда бывает полезно, чтобы получить полную картину исследования.
Авторы дата-текстов часто описывают процессы сбора и обработки данных, которые используют в материале. Уделите внимание этому описанию. Проверьте, достаточно ли обоснованна выборка, насколько корректно сформулированы вопросы и т.д.
Если что-то в дата-материале вызывает у вас сомнения, попробуйте самостоятельно найти информацию в других источниках или обратитесь напрямую к автору. Особенно если в тексте отсутствуют части, о которых мы говорили выше.
Обратите внимание на выбор используемых терминов и лексики. Если текст изобилует оценочными суждениями и чересчур эмоционален или в нём представлена только одна точка зрения на проблему, это может быть признаком наличия в нём манипуляций.
Что почитать по теме?
Сергей Кара-Мурза «Манипуляция сознанием XXI век»
Дэвид и Том Чиверс «Цифры врут. Как не дать статистике обмануть себя»
Дарелл Хафф «Как лгать с помощью статистики»