<<
>>

БИНАРНЫЕ СИСТЕМЫ

Количество информации обычно измеряется в битах (этот тер­мин происходит от англ. binary digit ‘двоичный знак’). Всякая еди­ница с вероятностью появления у содержит один бит информации;

всякая единица с вероятностью у несет 2 бита информации, и так

далее.

Удобство такого измерения количества информации станет очевидным, если мы обратимся к практической задаче «кодирова­ния» множества единиц (сначала предположим, что вероятности их появления равны) группами двоичных знаков. В предыдущем разде­ле мы видели, что каждый элемент множества из восьми единиц мо­жет быть реализован отдельной группой из трех двоичных знаков (см. § 2.3.8). Это определяется связью между числом 2 (основанием двоичной системы исчисления) и 8 (количеством единиц, которые требуется различать): 8=23. В более общем виде, если N — это число единиц, которые следует различать, а т — это число позиций конт­раста в группах двоичных знаков, требуемых для их различения, то N=2т. Связь между числом парадигматических контрастов на «выс­шем» уровне (N) и синтагматической длиной групп элементов «низ­шего» уровня (т), таким образом, логарифмическая: m=log2 N. (Ло­гарифм числа есть степень, в которую следует возвести основание числовой системы, чтобы получить данное число. Если N=xm, тот= =logx N ‘если N равняется х в степени т, то т равняется логарифму N по основанию х\ Напомним, что в десятичной арифметике лога-

рифм 10 равен 1, логарифм 100 равен 2, логарифм 1000 равен 3 и т. д., т. е. log1010=l,log10100=2, log101000=3 и т. д. Если бы теория информации основывалась на десятичной, а не на двоичной системе измерения, то было бы удобнее определять единицу информации

в терминах вероятности Читателю должно быть ясно, что при­веденное здесь равенство N=xm — это частный случай равенства N=p1Xp2Xpo, ..

., рту введенного в § 2.3.8. Равенство N=xm спра­ведливо, если в каждой позиции синтагматической группы в пара­дигматическом контрасте находится одно и то же число элементов.

Количество информации измеряется обычно в битах, просто потому, что многие механические системы для хранения и передачи информации действуют на основе бинарного принципа: это системы с двумя состояниями. Например, информацию можно закодировать на магнитной ленте (для обработки с помощью цифровой ЭВМ) как последовательность намагниченных и ненамагниченных позиций (или групп позиций): каждая позиция находится в одном из двух возможных состояний и может, таким образом, нести один бит ин­формации. Кроме того, информацию можно передавать (как, напри­мер, в азбуке Морзе) в виде последовательности «импульсов», каж­дый из которых принимает одно из двух значений: короткий или длинный по продолжительности, положительный или отрицатель­ный по электрическому заряду и т. п. Всякая система, использую­щая «алфавит», состоящий более чем из двух элементов, может быть перекодирована в бинарную систему у источника передачи и снова перекодирована в первоначальный «алфавит», когда сообщение полу­чено по месту назначения. Это имеет место, например, при передаче сообщений по телеграфу. То, что информационное содержание долж­но измеряться с помощью логарифмов с основанием 2, а не логариф­мов с каким-либо другим числовым основанием, есть следствие того факта, что инженеры связи обычно работают с системами с двумя состояниями. Что касается вопроса об уместности применения прин­ципа двоичного «кодирования» именно при исследовании языка в нормальных условиях «передачи» от говорящего к слушающему, то он вызывает значительные разногласия среди лингвистов. Не подле­жит сомнению, что многие наиболее важные фонологические, грам­матические и семантические различия бинарны, как мы увидим в по­следующих главах; мы уже видели, что один из двух членов бинар­ной оппозиции может рассматриваться как положительный, или мар­кированный, а другой — как нейтральный, или немаркированный (см.

§ 2.3.7). Мы не будем вдаваться здесь в обсуждение вопроса, можно ли свести все лингвистические единицы к комплексам иерар­хически упорядоченных бинарных «выборов». Тот факт, что многие единицы (на всех уровнях языковой структуры) сводимы к ним, означает, что лингвисту следует приучиться мыслить в терминах бинарных систем. В то же время следует отдавать себе отчет в том, что фундаментальные идеи теории информации совершенно не зави­сят от частных предположений относительно бинарности.

Поскольку каждый двоичный знак несет только один бит инфор­мации, группа из т двоичных знаков может нести максимум т битов. До сих пор мы предполагали, что вероятности различаемых таким образом единиц высшего уровня равны. Теперь рассмотрим более интересный и более обычный случай, когда эти вероятности не рав­ны. Для простоты возьмем множество ИЗ трех единиц, а, Ь И Су со

следующими вероятностями: /%=у, рь=-j-> Рс=’Единица а

несет 1 бит, a b и с несут по 2 бита информации каждая. Их можно закодировать в двоичной системе реализации, как а : 00, b : 01 и с : 10 (оставив 11 незанятым). Но если бы знаки передавались в последовательности по некоторому каналу связи и передача и полу­чение каждого знака занимали бы один и тот же отрезок времени, было бы неразумным принимать столь неэффективное условие коди­рования. Ведь для а требовалась бы такая же мощность канала, как для b и для су хотя оно несло бы вдвое меньше информации. Более экономичным было бы закодировать а с помощью одного знака, ска­жем 1, и отличать & и с от а, закодировав их противоположным зна­ком—0—в первой позиции;Ьис тогда отличались бы друг от друга во второй позиции контраста (которая, конечно, пуста для а). Итак, а:1,Ь:00ив:01. Это второе соглашение более экономичным образом использует пропускную способность канала, так как оно увеличивает до предела количество информации, которое несет каждая группа в один или два знака. Поскольку на передачу а, которое встречается вдвое чаще, чем Ьис, тратится вдвое меньше времени, данное реше­ние позволило бы в кратчайшее время передать наибольшее число сообщений (исходя из предположения, что эти сообщения достаточно длинны или достаточно многочисленны, чтобы отражать средние частоты появления).

В действительности эта простая система пред­ставляет собой теоретический идеал: каждая из трех единиц а, & и с несет целое число битов информации и реализуется в субстанции именно этим числом различий.

2.4.5. ИЗБЫТОЧНОСТЬ И ШУМ

Этот теоретический идеал никогда не достигается на практике. Прежде всего вероятности появления единиц обыкновенно находятся

.1111 1 между величинами ряда 1, у, у, у, -у, . . а не соответ­ствуют им в точности. Например, вероятность появления отдельной единицы может быть равна у, поэтому она может передавать

log25— приблизительно 2,3 — бита информации. Но в субстанции не бывает различия, измеряемого числом 0,3; субстанциальные раз­личия абсолютны в поясненном выше смысле (см. §2.2.10). Если же мы используем три знака для отождествления единицы с вероят­ностью появления в у, мы тем самым введем избыточность в суб-

станциальную реализацию. (Среднюю избыточность системы можно сделать сколь угодно малой; математическая теория связи занимает­ся-главным образом этой задачей. Но нам здесь нет необходимости вдаваться в более специальные подробности.) Важным является то, что некоторая степень избыточности на самом деле желательна в любой системе связи. Причина состоит здесь в том, что, какая бы среда ни использовалась в целях передачи информации, она будет подвержена разнообразным непредсказуемым природным помехам, которые уничтожат или исказят часть сообщения и таким образом приведут к потере информации. Если бы система была свободна от избыточности, потеря информации была бы невосполнима. Инженеры связи обозначают случайные помехи в среде или канале связи терми­ном шумы. Оптимальная система для отдельного канала такова, что в ней ровно столько избыточности, сколько требуется, чтобы по­лучатель мог восстановить информацию, потерянную из-за шумов. Заметим, что термины «канал» и «шумы» следует толковать в самом общем смысле. Их применение не ограничивается акустическими системами и тем более системами, созданными инженерами (телефон, телевизор, телеграф и т.

п.). Искажения в почерке, получающиеся при письме в движущемся поезде, можно также причислить к «шу­мам»; сюда же относятся искажения, возникающие в речи при на­сморке, в состоянии опьянения, от рассеянности или ошибок памяти и т. п. (Опечатки — это одно из следствий воздействия шумов при «кодировании» письменного языка; читатель часто не замечает их, потому что избыточность, характерная для большей части письмен­ных предложений, достаточна для того, чтобы нейтрализовать иска­жающее влияние случайных ошибок. Опечатки более существенны в цепочке знаков, любая комбинация которых a priori возможна. С этим на практике считаются бухгалтеры, которые умышленно вводят в свои книги избыточную информацию, требуя баланса сумм в разных колонках. Обычай ставить сумму к выплате на чеках и прописью и цифрами позволяет банкам обнаружить, если не испра­вить, многие ошибки, вызванные шумами того или иного рода.) Что же касается устной речи, то термин «шум» включает любой ис­точник искажения или непонимания, относится ли он к недостаткам речевой деятельности говорящего и слушающего или к акустическим условиям физической среды, в которой производятся высказывания.

2.4.6.

<< | >>
Источник: Джон Лайонз. ВВЕДЕНИЕ В ТЕОРЕТИЧЕСКУЮ ЛИНГВИСТИКУ. Перевод с английского языка под редакцией и с предисловием В. А. ЗВЕГИНЦЕВА. Москва «ПРОГРЕСС» - 1978. 1978

Еще по теме БИНАРНЫЕ СИСТЕМЫ:

  1. Тема 4.6 Бинарные отношения и их свойства.
  2. 55. Модели бинарного выбора
  3. Свойства бинарных отношений.
  4. В настоящее время существуют две главные исторически сложившиеся уголовно-правовые системы: 1) романо-германская, или так называемая «континентальная» система права, и 2) англосаксонская, или система прецедентного права.
  5. § 4. Місце правової системи України серед правових систем світу
  6. Можно выделить следующие различия между системой права и системой законодательства.
  7. Поняття та загальна характеристика системи законодавства, її співвідношення із системою права
  8. 29. Поняття виборчої системи. Мажоритарна і пропорційна виборчі системи.
  9. ). Признаки системы: система источников - доминирующее положение занимают обычаи, традиции; они
  10. 20. Партійні системи. Види партійних систем зарубіжних держав.
  11. 2.3. Возможности систем управления базами данных при построении информационных систем
  12. 42 Система золотовалютного стандарта и Ямайская валютная система.
  13. 1.1.2 Определение взаимосвязей между входным и выходным сигналами системы через ИПХ (нахождение оператора системы)
  14. 2. Соотношение системы права и системы законодательства
  15. 4. Уравнение динамики линейной системы n-го порядка. Передаточные функции. Временные характеристики систем.
  16. 10.7 Соотношение системы права и системы законодательства
  17. Отдел IV. Доктрина и разум 349. Открытая система и замкнутая система
  18. 20. Материалы общей системы документации приказной системы делопроизводства как исторический источник по истории России XVI-XVII вв.