Компьютерный журнал для новичков и профессионалов

Частота букв в русском языке программа. Частотный анализ текста. Пример написания калькулятора. Сколько знаков необходимо для дешифрования простой замены

Частота применения букв в русском языке

А вы знаете, что некоторые буквы алфавита встречаются в словах чаще остальных...Причем частота употребляемости гласных букв в языке выше, чем согласных.

Какие буквы русского алфавита чаще или реже всего встречаются в словах, используемых для написания текста?

Выявлением и исследованием общих закономерностей занимается статистика. С помощью этого научного направления можно ответить на поставленный выше вопрос, сосчитав количество каждой из букв русского алфавита, применяемых слов, выбрав отрывок из произведений различных авторов. Для собственного интереса и ради занятия от скуки каждый может проделать это самостоятельно. Я же сошлюсь на статистику уже проведенного исследования...

Русский алфавит кириллический. За время своего существования он пережил несколько реформ, в результате которых сложилась современная русская азбучная система, включающая 33 буквы.

о — 9.28%
а — 8.66%
е — 8.10%
и — 7.45%
н — 6.35%
т — 6.30%
р — 5.53%
с — 5.45%
л — 4.32%
в — 4.19%
к — 3.47%
п — 3.35%
м — 3.29%
у — 2.90%
д — 2.56%
я — 2.22%
ы — 2.11%
ь — 1.90%
з — 1.81%
б — 1.51%
г — 1.41%
й — 1.31%
ч — 1.27%
ю — 1.03%
х — 0.92%
ж — 0.78%
ш — 0.77%
ц — 0.52%
щ — 0.49%
ф — 0.40%
э — 0.17%
ъ — 0.04%

Русская буква, имеющая наибольшую частотность в использовании - это гласная «О », как здесь уже справедливо предположили. Есть и характерные примеры, наподобие «ОбОрОнОспОсОбнОсти » (7 штук в одном слове и ничего экзотического или удивительного; очень привычно для русского языка). Высокая популярность буквы «О» во многом объясняется таким грамматическим явлением, как полногласие. То есть, «холод» вместо «хлад» и «мороз» вместо «мраз».

А в самом начале слов чаще всего встречается согласная буква «П ». Это лидерство также уверенно и безоговорочно. Скорее всего, объяснение даёт большое количество приставок на букву «П»: пере-, пре-, пред-, при-, про- и другие.

Частота использования букв основа криптоанализа.

Поиск в инженерном справочнике DPVA. Введите свой запрос:

Дополнительная информация от Инженерного cправочника DPVA, а именно - другие подразделы данного раздела:

  • Алфавит английский. Английский алфавит (26 букв). Алфавит английский нумерованный (пронумерованный) в обоих порядках. ("латинский алфавит", буквы латинского алфавита, латинский международный алфавит)
  • Фонетический английский (латинский) алфавит НАТО (NATO) + цифры, он-же ICAO, ITU, IMO, FAA, ATIS, авиациионный, метеорологический. Он-же международный радиотелефонный алфавит + устаревшие варианты. Alpha, Bravo, Charlie, Delta, Echo, Foxtrot, Golf ...
  • Английский сурдоалфавит, сурдо азбука английская, азбука глухих английская, алфавит глухонемых английский, азбука немых английская, азбука глухонемых английская, язык жестов - английский, жестовый английский язык
  • Алфавит английский флажковый, семафорная английская азбука, флажковая английская азбука, семафорный английский алфавит. Флажковый семафорный алфавит с цифрами (числами).
  • Алфавиты греческий и латинский. Альфа, бета, гамма, дельта, эпсилон... Буквы греческого алфавита. Буквы латинского алфавита.
  • Английская транскрипция для учителей английского языка. Увеличить до нужного размера и распечатать карточки.
  • Азбука Морзе русский и английский алфавит. SOS. СОС. "Алфавит Морозе"
  • Эволюция (развитие) латинского алфавита от протосинайского, через финикийский, греческий и архаическую латынь до современного
  • Алфавит немецкий. Немецкий алфавит (26 букв латинского алфавита + 3 умляута + 1 лигатура (сочетание букв) = 30 знаков). Алфавит немецкий нумерованный (пронумерованный) в обоих порядках. Буквы и знаки немецкого алфавита.
  • Алфавит русский. Буквы русского алфавита. (33 буквы). Алфавит русский нумерованный (пронумерованный) в обоих порядках. Русский алфавит по порядку.
  • Фонетический русский алфавит. Анна, Борис, Василий, Григорий, Дмитрий, Елена, Елена, Женя, Зинаида....
  • Русский сурдоалфавит, сурдо азбука русская, азбука глухих русская, алфавит глухонемых русский, азбука немых русская, азбука глухонемых русская, язык жестов - русский, жестовый русский язык
  • Алфавит русский флажковый, семафорная русская азбука, флажковая русская азбука, семафорный русский алфавит.
  • Вы сейчас здесь: Русский алфавит. Частотность букв русского языка (по НКРЯ). Частотность русского алфавита - как часто встречается данная буква в массиве случайного русского текста.
  • Русский алфавит. Частотность - распределение частот - вероянтность появления букв русского алфавита в текстах на произвольной позиции, в середине, в начале и в конце слова. Независимые исследования примерно 2015 года.
  • Звуки и буквы русского языка. Гласные: 6 звуков - 10 букв. Согласные: 36 звуков - 21 буква. Глухие, звонкие, мягкие, твердые, парные. 2 знака.
  • Русско-врачебный алфавит. Русский медицинский алфавит. Очень полезный
  • Эстонский алфавит 32 буквы. Алфавит эстонский нумерованный (пронумерованный) в обоих порядках. Алфавит эстонского языка - прямая и обратная нумерация букв.
  • Эстонский сурдоалфавит, сурдо азбука эстонская, азбука глухих эстонская, алфавит глухонемых эстонский, азбука немых эстонская, азбука глухонемых эстонская, язык жестов - эстонский, жестовый эстонский язык
  • Написал забавный php-скрипт. Погонял через него все тексты на« Спектаторе» на предмет языка. Всего в текстах употребляется 39110 разных словоформ. Сколько именно разных слов - определить довольно сложно. Чтобы хоть как-то приблизиться к этой цифре, я брал только первые 5 букв слова и сравнивал их. Получилось 14373 таких комбинаций. С большой натяжкой это можно назвать словарным запасом« Спектатора».

    Потом я взял слова и иследовал их на предмет частоты повторения букв. В идеале надо брать какой-нибудь словарь, для полноты картины. Прогонять тексты нельзя, нужно только уникальные слова. В тексте же одни слова повторяются чаще, чем другие. Итак, получились следующие результаты:

    о - 9.28%
    а - 8.66%
    е - 8.10%
    и - 7.45%
    н - 6.35%
    т - 6.30%
    р - 5.53%
    с - 5.45%
    л - 4.32%
    в - 4.19%
    к - 3.47%
    п - 3.35%
    м - 3.29%
    у - 2.90%
    д - 2.56%
    я - 2.22%
    ы - 2.11%
    ь - 1.90%
    з - 1.81%
    б - 1.51%
    г - 1.41%
    й - 1.31%
    ч - 1.27%
    ю - 1.03%
    х - 0.92%
    ж - 0.78%
    ш - 0.77%
    ц - 0.52%
    щ - 0.49%
    ф - 0.40%
    э - 0.17%
    ъ - 0.04%

    Тем, кто поедет на« Поле чудес», советую заучить эту таблицу наизусть. И называть слова в таком порядке. Так, например, казалось бы, такая« привычная» буква« б» употребляется реже, чем« редкая» буква« ы». Помнить надо также и то, что в слове не одни гласные. И что если вы угадали одну гласную, то нужно начинать идти по согласным. И кроме того, слово угадывается именно по согласным. Сравните:« **а**и*е» и« ср*вн*т*». И в том и в другом случае - это слово« сравните».

    И еще одно соображение. Как вы учили английский? Помните? Э пен, э пенсил, э тэйбл. Что вижу - о том и пою. А смысл?.. Как часто вы в нормальной жизни говорите слово« карандаш»? Если задача - научить говорить как можно быстрее и эффективнее, то и учить надо соответствующе. Проводим анализ языка, выделяем самые употребимые слова. И учить начинаем именно с них. Чтобы более-менее говорить на английском языке, достаточно всего полторы тысячи слов.

    Еще одно баловство: составлять слова из букв случайным образом, но учитывая частоту появления, чтобы было похоже на нормальные слова. В первой же десятке« случайных» четырехбуквенных слов выскочило« осел». В следующей полсотне - слова« мчим» и« нато». Но, увы, очень много неблагозвучных комбинаций, таких, как« блтт» или« нрро».

    Поэтому - следующий шаг. Я разбил все слова на двухбуквенные сочетания и начал случайным образом (но с учетом частоты повторения) комбинировать их. Стали в больших количествах получатся слова, похожие на« нормальные». Например:« коивдиот»,« воабма»,« апый»,« депоид»,« дебяко»,« орфа»,« поеснавы»,« озза»,« ченя»,« риторя»,« урдеед»,« утоичи»,« стых»,« сапоть»,« гравда»,« абабап»,« обарто»,« еелует»,« лярезы»,« мыни»,« бромомер» и даже« тодебыст».

    Куда применить... есть варианты. Например, написать генератор красивых фирменных игривых имен. Для йогуртов. Типа,« мемолисо» или« уторорерто». Или - генератор футуристических стихов« Бурлюк-php»:« опелдиий миатон, линоаз окмиая... деесопен одесон».

    И есть еще один вариант. Надо попробовать...

    Некоторые статистические данные об использовании русских слов:

    • Средняя длина слова 5.28 символа.
    • Средняя длина предложения 10.38 слов.
    • 1000 наиболее частотных лемм покрывает 64.0708% текста.
    • 2000 наиболее частотных лемм покрывают 71.9521% текста.
    • 3000 наиболее частотных лемм покрывают 76.5104% текста.
    • 5000 наиболее частотных лемм покрывают 82.0604% текста.

    После заметки мне пришло вот такое письмо:


    Здравствуйте, Дмитрий!

    Проанализировав статью« Язык до Киева доведет» и ту ее часть, где Вы описываете свою программу, возникла идея.
    Вами написанный скрипт кажется мне предназначенным абсолютно не для« Поля чудес» в большей мере, а для другого.
    Первое самое разумное применение результатов работы Вашего скрипта - определение порядка букв при программировании кнопок для мобильных устройств. Да, да - именно в мобильниках и нужно все это.

    Я распределил это по волнам ()

    Далее распределение по кнопкам:
    1. Все буквы из первой волны уходят на 4 кнопки в первый ряд
    2. Все буквы из второй волны тоже на остальные 4 кнопки в тот же первый ряд
    3. Все буквы из третьей волны туда же на оставшиеся две кнопки
    4. 4,5 и 6 волны уходят во второй ряд
    5. 7,8,9 волны уходят на третий ряд, причем 9-я волна уходит вся полностью (не смотря на кажущееся большое количество букв) в третий ряд 9-й кнопки, что-бы 10 кнопку оставить под всякие там знаки препинания (точка, запятая и прочее).

    Я думаю все понятно и так, без детальных обьяснений. Но все же не могли бы Вы обработать Вашим скриптом (включая знаки припинания) тексты следующего содержания:

    А потом выложить статистику? Мне показалось? что тексты максимально отражают нашу современную речь, а ведь мы как говорим, так и пишем sms.

    Заранее большое спасибо.

    Итак, анализировать частоту повторения букв можно двумя способами. Способ 1. Взять текст, найти в нем уникальные (не повторяющиеся) словоформы и анализировать их. Способ хорош для построения статистики по словам русского языка, а не по текстам. Способ 2. Не искать в тексте уникальные слова, а сразу перейти к подсчету частоты повторения букв. Получаем частоту букв в русском тексте, а не в русских словах. Для создания клавиатур и прочего нужно использовать именно этот способ: на клавиатуре набираются именно тексты.

    Клавиатуры должны учитывать не только частоту букв, но и самые упортебимые слова (словоформы). Не так уж и трудно догадаться, какие именно слова самые употребимые: это, во-первых, служебные части речи, ибо роль у них такая - служить всегда и везде, и местоимения, роль у которых не менее важная: заменять в речи любую вещь/человека (это, он, она). Ну и основные глаголы (быть, сказать). По результатам анализа перечисленных выше текстов я получил такие самые« популярные» слова:« и, не, в, что, он, я, на, с, она, как, но, его, это, к, а, все, ее, было, так, же, то, сказал, за, ты, о, у, ему, мне, только, по, меня, бы, да, вы, от, был, когда, из, для, еще, теперь, они, сказала, уже, него, нет, была, ей, быть, ну, ни, если, очень, ничего, вот, себя, чтобы, себе, этого, может, того, до, мы, их, ли, были, есть, чем, или, ней» и так далее.

    Возвращаясь к клавиатурам - очевидно, что в клавиатуре буквосочетания« не»,« что»,« он»,« на» идругие должны находится как можно ближе друг к другу, или если не вплотную, то каким-то наиболее оптимальным образом. Нужно провести исследования, каким именно образом пальцы движутся по клавиатуре, найти самые« удобные» позиции и поместить в них самые употребляемые буквы, не забывая, однако, про буквосочетания.

    Проблема, как всегда, одна: даже если и получиться создать Уникальную Клавиатуру, куда деть миллионы людей, которые уже привыкли к qwerty/йцукен?

    Насчет же мобильных устройств... Наверное, it makes sense. По крайней мере, буквы« о»,« а»,« е» и« и» должны точно находиться на одной клавише. Знаки препинания в порядке частоты употребления: , . - ? ! " ; :) (

    В общем, есть такая тема - частотный анализ текста. Утверждается, что для данного языка частота встречаемости отдельных букв в осмысленном тексте есть устойчивая величина. Устойчивыми также являются комбинации двух, трех (биграммы, триграммы) и четырех букв.
    Этот факт, в частности, использовался в криптографии для вскрытия шифров.

    Я в криптографии не очень, и единственное, что приходит на ум, это вскрытие шифра прямой замены. Надо сказать, наиболее примитивного шифра, когда символы исходного алфавита, используемого в сообщении, преобразуются в другие символы по определенному правилу. Такие шифры, кстати сказать, можно было вскрывать и без применения статистического анализа (где для уменьшения погрешности, очевидно, требуется наличие довольно больших кусков текста), а просто догадываясь о некоторых словах - см. рассказ «Пляшущие человечки».

    И последний штрих (необязательный). Иногда (пока практически всегда) калькулятор требуется снабдить описанием - что за параметры, по каким формулам считает, и вообще, зачем это все - прямо как я сейчас делаю. Для этого пишется статья, и калькулятор вставляется прямо в статью. Чтобы написать статью, выбираем на главной странице раздела «Мои калькуляторы» пункт меню «Создать...» -> «Статью» и начинаем писать. Чтобы вставить калькулятор, нажимаем кнопку с большой подчеркнутой буквой А, и выбираем в открывшемся диалоге только что созданный калькулятор.

    Загрузка...