5.1. Ранг и частота слов в тексте
Данте
Дж. К. Ципф в 1949 г. открыл закон, определяющий зависимость частоты повторяемости f какого-либо слова в тексте от его ранга r:
f (r) ^ 1 , (5.1)
r ln(1,78 R)
где R - общее число различных слов.
Под рангом слова понимается место, которое оно занимает в списке слов данного текста, расположенных в порядке убывания частоты их употребления.Ципф получил этот закон, анализируя текст собственной книги «Человеческое поведение и принцип наименьшего усилия».
Рис. 5.1 иллюстрирует выполнение закона Ципфа для примитивного английского языка (basic English), используемого в средствах массовой информации, где R = 12000. Конечно, в любом языке существуют слова, которых трудно избежать. В английском это the, of, and. В русском - в, из, и. Даже у хорошего писателя с активным словарем в R = 100000 слов, примерно четвертую часть текста занимают около десятка наиболее часто употребляемых слов. У различных писателей слова эти могут быть разными, частоты их употребления могут отличаться, поэтому анализ произведений по методу Ципфа помогает выявить индивидуальные особенности языка автора, а при необходимости и само авторство.

Рис. 5.1. Частота слова как функция его ранга в basic English.
Обе величины отложены в логарифмическом масштабеДа что писатели... Уже знакомый нам по второй главе Б. Ман- дельброт в 1961 г. показал, что обезьяна, барабанящая по клавишам пишущей машинки, также создает «язык», подчиняющийся закону Ципфа. Из-за того, что число клавиш ограничено, наборы букв, отделенные друг от друга пробелами, вынуждены иногда повторяться. Такой обезьяний «язык» оказывается удивительно многословным. Например, слово, встречающееся с вероятностью У, оказывается лишь на 1895761-м месте. Для сравнения: в типичной газетной статье такое слово оказывается приблизительно на 100-м месте.
Гиперболические законы, подобные (5.1), встречаются на только в языкознании. Как показал в конце XIX в. итальянский социолог В. Парето, относительное число людей с доходом, превышающим некоторую большую величину, подчиняется простому закону:
^ = *. (5.2)
N R
Здесь R - величина годового дохода, а - некоторая константа.
Еще по теме 5.1. Ранг и частота слов в тексте:
- 30. Роль служебных слов в тексте. Синонимия предлогов, их нормативно-стилистическая характеристика. Роль частиц и модальных слов в выражении субъективной модальности текста.
- Методика перевода и понимания значения слов в тексте.
- Билет № 15 1. Относительная частота. Устойчивость относительной частоты
- Ранг матрицы.
- 35. Порядок слов и актуальное членение предложения. Коммуникативно-стилистическая функция порядка слов. Устранение ошибок, связанных с порядком слов в предложениях.
- «РАНГ» - ПОНЯТИЕ ПОВЕРХНОСТНОЙ СТРУКТУРЫ
- Задание 501–510. По данному интервальному ряду распределения случайной величины Хi с частотами ni требуется: 1) построить гистограмму плотности относительных частот по данному интервальному ряду распределения; 2) определить основные числовые характеристики распределения: среднюю, моду, медиану, исправленную дисперсию, исправленное среднее квадратическое отклонение и коэффициент вариации; 3) с надежностью 0,9 указать доверительный интервал для генеральной средней.
- Частота событий и ее свойства
- § 6. Текст. Смысловые типы текстов
- Стилистическая дифференциация лексики русского языка. Лексика межстилевая. Лексика и фразеология книжных стилей. Научная, официально-деловая, газетно-публицистическая, поэтическая, церковная лексика. Использование в текстах средств массовой информации слов и фразеологизмов разных стилистических пластов.
- РЕНЕСАНС І СЛОВ'ЯНИ. СЛОВ'ЯНСЬКІ КУЛЬТУРНІ ЗДОБУТКИ У XV-XVI ст.