<<
>>

5.1. Ранг и частота слов в тексте

Я вдруг услышал словно шум потока; Который, светлый, падая с высот, Являя мощность своего истока.

Данте

Дж. К. Ципф в 1949 г. открыл закон, определяющий зависимость частоты повторяемости f какого-либо слова в тексте от его ранга r:

f (r) ^ 1 , (5.1)

r ln(1,78 R)

где R - общее число различных слов.

Под рангом слова понимается место, которое оно занимает в списке слов данного текста, расположенных в порядке убывания частоты их употребления.

Ципф получил этот закон, анализируя текст собственной книги «Человеческое поведение и принцип наименьшего усилия».

Рис. 5.1 иллюстрирует выполнение закона Ципфа для примитивного английского языка (basic English), используемого в средствах массовой информации, где R = 12000. Конечно, в любом языке существуют слова, которых трудно избежать. В английском это the, of, and. В русском - в, из, и. Даже у хорошего писателя с активным словарем в R = 100000 слов, примерно четвертую часть текста занимают около десятка наиболее часто употребляемых слов. У различных писателей слова эти могут быть разными, частоты их употребления могут отличаться, поэтому анализ произведений по методу Ципфа помогает выявить индивидуальные особенности языка автора, а при необходимости и само авторство.

Рис. 5.1. Частота слова как функция его ранга в basic English.

Обе величины отложены в логарифмическом масштабе

Да что писатели... Уже знакомый нам по второй главе Б. Ман- дельброт в 1961 г. показал, что обезьяна, барабанящая по клавишам пишущей машинки, также создает «язык», подчиняющийся закону Ципфа. Из-за того, что число клавиш ограничено, наборы букв, отделенные друг от друга пробелами, вынуждены иногда повторяться. Такой обезьяний «язык» оказывается удивительно многословным. Например, слово, встречающееся с вероятностью У, оказывается лишь на 1895761-м месте. Для сравнения: в типичной газетной статье такое слово оказывается приблизительно на 100-м месте.

Гиперболические законы, подобные (5.1), встречаются на только в языкознании. Как показал в конце XIX в. итальянский социолог В. Парето, относительное число людей с доходом, превышающим некоторую большую величину, подчиняется простому закону:

^ = *. (5.2)

N R

Здесь R - величина годового дохода, а - некоторая константа.

<< | >>
Источник: Браже Р.А.. Синергетика и творчество: Учебное пособие. - 2-е изд., испр. и доп. - Ульяновск: УлГТУ,2002. - 204 с.. 2002

Еще по теме 5.1. Ранг и частота слов в тексте:

  1. 30. Роль служебных слов в тексте. Синонимия предлогов, их нормативно-стилистическая характеристика. Роль частиц и модальных слов в выражении субъективной модальности текста.
  2. Методика перевода и понимания значения слов в тексте.
  3. Билет № 15 1. Относительная частота. Устойчивость относительной частоты
  4. Ранг матрицы.
  5. 35. Порядок слов и актуальное членение предложения. Коммуникативно-стилистическая функция порядка слов. Устранение ошибок, связанных с порядком слов в предложениях.
  6. «РАНГ» - ПОНЯТИЕ ПОВЕРХНОСТНОЙ СТРУКТУРЫ
  7. Задание 501–510. По данному интервальному ряду распределения случайной величины Хi с частотами ni требуется: 1) построить гистограмму плотности относительных частот по данному интервальному ряду распределения; 2) определить основные числовые характеристики распределения: среднюю, моду, медиану, исправленную дисперсию, исправленное среднее квадратическое отклонение и коэффициент вариации; 3) с надежностью 0,9 указать доверительный интервал для генеральной средней.
  8. Частота событий и ее свойства
  9. § 6. Текст. Смысловые типы текстов
  10. Стилистическая дифференциация лексики русского языка. Лексика межстилевая. Лексика и фразеология книжных стилей. Научная, официально-деловая, газетно-публицистическая, поэтическая, церковная лексика. Использование в текстах средств массовой информации слов и фразеологизмов разных стилистических пластов.
  11. РЕНЕСАНС І СЛОВ'ЯНИ. СЛОВ'ЯНСЬКІ КУЛЬТУРНІ ЗДОБУТКИ У XV-XVI ст.