публичный образовательный интернет-портал

Загадочный закон Бенфорда

1428 07/04/2025
Фрэнк Бенфорд
Саймон Ньюком
Саймон Ньюком, не первооткрыватель, но первозамечатель

Фрэнк Бенфорд и его закон

Фрэнк Бенфорд (Frank Benford) родился в 1883 году в Джонстауне, штат Пенсильвания, США. Закончив учёбу в Мичиганском университете, он получил специальность физика, и всю жизнь его деятельность была связана с компанией General Electric. Первые 18 лет он проработал в светотехнической лаборатории, а затем 20 лет — в научно-исследовательской лаборатории. Через несколько месяцев после выхода на пенсию в 1948 году, Фрэнк Бенфорд скоропостижно скончался. 

За время своей работы Бенфорд запатентовал несколько устройств, в том числе усовершенствованную систему проекционного освещения, которая применялась в промышленной и образовательной технике. Но известен он стал из-за своей статьи, опубликованной в 1938 году и посвящённой вопросам, казалось бы, абстрактным. Закон, сформулированный Бенфордом в этой статье, имеет большое практическое значение. До сих пор он является главным инструментом борьбы с мошенничеством: подделками документов и счетов.

 

Что же это за закон?

История закона Бенфорда, началась за полвека до появления его статьи. Американский астроном Саймон Ньюком (Simon Newcomb; 1835-1909) в 1881 году по долгу службы листал справочник с таблицами логарифмов. Дело в том, что астрономам приходилось делать довольно сложные математические вычисления, включающие умножение и деление. Калькуляторы или арифмометры тогда отсутствовали. Все расчёты производились вручную, на бумаге. Логарифмы – это математические функции, которые позволяли упростить расчёты, заменяя умножение и деление чисел сложением или вычитанием логарифмов этих чисел. Поэтому таблицы логарифмов были в то время настольной книгой для инженеров или ученых, занятых точными науками. Люди, учившиеся и работавшие в СССР в 1960-х – 1980-х годах, наверняка, помнят таблицы Брадиса, которые использовали для облегчения расчётов. Они также содержали и таблицы логарифмов.

Заголовок статьи Фрэнка Бенфорда
Заголовок статьи Фрэнка Бенфорда. Первооткрывательство

Так вот, Ньком, будучи человеком внимательным, обратил внимание на странный факт - страницы, где находились числа, которые начинались с цифры 1, были изрядно истрепаны, а те страницы где числа начинались с цифры 9, выглядели как новые.

Какой вывод сделал Ньюком? Множеству людей, пользовавшихся справочником, числа, начинающиеся на 1 встречались гораздо чаще, чем числа, начинающиеся на 9. Это означало, что числа, первая значащая цифра в которых является 1, встречаются чаще, чем числа, в которых значащая цифра другая. А уж тех, в которых первая значащая цифра 9 совсем немного.

Распределение Бенфорда
Распределение Бенфорда

Факт, действительно, был странным. Ведь, казалось бы, что при расчётах учёному может с равной вероятностью попасться любое число. А получалось, что распределение чисел по первой значащей цифре совсем не равномерно!

Этот факт был замечен, сообщён друзьям и коллегам, но никаких дополнительных исследований этого удивительного феномена произведено не было. У астрономов много серьёзной работы, стоит ли отвлекаться по пустякам?

Вероятно, у Фрэнка Бенфорда было больше времени, когда он в 1937 году заинтересовался тем же явлением. В своей статье, опубликованной в 1938 году и называвшейся «Закон аномальных чисел» (The Law of Anomalous Numbers), он обосновал это явление, проверив более 20 различных наборов данных. Среди этих данных были наборы чисел из самых различных областей, например, протяжённости бассейнов 335 крупнейших рек планеты, удельная теплоемкость различных веществ, номера домов из телефонного справочника и разные другие.

Во всех числах выбиралась первая значащая цифра и строилось распределение частоты встречаемости первой значащей цифры в зависимости от этой цифры. Оказалось, что число 1 в качестве первой значащей цифры появляется в 30% случаев, число 2 – уже только в 18%, а число 9 – всего в 4.6%.

Бенфорд вывел формулу, определяющую вероятность того, что первой значащей цифрой многозначного числа будет цифра d.

Здесь N – основание системы счисления. Для десятичной системы счисления формула примет такой вид:

Цифра d при этом может принимать 9 значений, от 1 до 9.

График этой зависимости изображён на рисунке

Иллюстрация простого объяснения закона Бенфорда
Простое объяснение закона Бенфорда

В статье Фрэнка Бенфорда аномальность распределения значащих цифр в различных данных была впервые строго рассмотрена и объяснена. Именно поэтому, несмотря на первенство Саймона Ньюкомба, закон об аномальном распределении первых значащих цифр в данных, описывающих различные физические характеристики объектов, получил имя Бенфорда.

Не внеси Бенфорд полную ясность в этот вопрос, этот закон мог бы носить имя кого-нибудь из учёных 1960-х годов, который заметил бы, что износ клавиш калькулятора, которым он пользовался в научных расчётах, неравномерен. Клавиша с цифрой 1 была бы чуть более потёртой, чем другие. Ведь в реальных вычислениях, особенно в инженерных и финансовых задачах, числа, начинающиеся с 1, действительно встречаются чаще — а значит, эта клавиша нажимается немного чаще остальных.

Природа закона

Совсем простое объяснение

Если Вы хотите вкратце объяснить закон Бенфорда ученику младших классов, то проще всего сказать, что количество небольших предметов всегда превышает количество предметов больших. После дождя маленьких луж больше, чем больших. Чтобы недалеко уходить от луж, то и маленьких по площади озёр больше, чем озёр крупных. Низких домов в любом городе всегда будет больше, чем высоких. Крупные аварии встречаются редко, поэтому большое количество пострадавших в различных инциндентах, тоже встречается реже. В магазинах мы чаще всего платим небольшие сумы, а крупные — гораздо реже.

Как правило это объяснение удовлетворяет и малышей, и многих взрослых.

Ещё одно простое объяснение

Допустим, мы измеряем какую-нибудь величину и допустим, что все результаты измерений находятся в пределах от 1 до 1 000 000. При этом в сегменте от 10 до 19 можно насчитать 10 чисел с единицей в первой позиции, в сегменте от 100 до 199 таких чисел уже 100 таких чисел, а в сегменте от 1000 до 1999 — уже 1000. Сначала процент единиц в первой знаковой позиции большой, постепенно он разбавляется двойками, тройками и так далее. А уже под конец нарастает процент девяток. В больших массивах данных именно единицы появляются в первой значащей цифры чаще всего.

 

Математическое объяснение

Закон Бенфорда описывает распределение первой значащей цифры случайных величин, логарифмы которых имеют равномерно распределённую дробную часть (мантиссу) на интервале [0,1). При конкретных расчётах чаще всего из соображений удобства применяются логарифмы по основанию 10. Закон Бенфорда описывается одной из вышеприведенных логарифмических формул.

Закон Бенфорда не универсален, он применим не для всех распределений. Для каких данных он работает? Для тех, которые можно назвать «естественными», то есть не имеющими максимальных или минимальных границ и не ограниченных двумя или тремя цифрами. Короче говоря, для тех, где нет вмешательства человеческой воли или жёстких границ.

Вот список некоторых реальных данных, которые удовлетворяют закону Бенфорда.

1. Население стран и городов, а также различные региональные показатели, связанные с населением: демографические измерения, выборные показатели.

2. Площади стран или территорий, площади островов, размеры бассейнов рек.

3. Тиражи газет, журналов и книг.

4. Повседневные расходы.

Вообще говоря, закон Бенфорда хорошо описывает данные, которые растут по экспоненциальному закону, где между числами последовательности большой размах, охватывающий несколько порядков величин.

Хорошей математической моделью для демонстрации закона Бенфорда являются степенные функции. Чаще всего для исследования закона Бенфорда используют степени двойки. Но все выводы, сделанные для этой последовательности, справедливы для других степенных последовательностей с основанием, не кратным 10 (например, 3n или 5n).

 

Применение закона Бедфорда в аудите

Закон Бенфорда нашёл неожиданное применение в бухгалтерии и финансовом контроле.

Это делает его мощным дополнением к классическим методам анализа данных. Он помогает найти то, что визуально не видно, но что математически подозрительно.

Один из его активных популяризаторов — Марк Негрини — предложил использовать закон для автоматического выявления ошибок и мошенничества в отчётности. Принцип прост: если данные о тратах, доходах или других финансовых величинах не подчиняются ожидаемому логарифмическому распределению по первой (или второй!) цифре, это может быть сигналом тревоги.

Например, если в таблице расходов слишком часто встречаются суммы, начинающиеся на цифру 7 или 9, это может означать, что кто-то «рисовал» числа, не зная о законе Бенфорда. Мошенники часто опираются на интуицию и случайные числа, не подозревая, что естественные числа устроены иначе.

Негрини показал, что даже распределение вторых значащих цифр подчиняется закономерностям — например, комбинация «1 и 0» (то есть 10, 210, 3100 и т. д.) встречается чаще, чем «1 и 9». Такой уровень анализа позволяет аудитору заметить тонкие аномалии в больших массивах чисел.