Формула вычисления информационного объема цифрового звукового файла. Кодирование звуковой информации

Кодирование звуковой информации

Звук – это распространяющиеся в воздухе, воде или другой среде волны с непрерывно меняющейся интенсивностью и частотой.

Чем больше амплитуда сигнала, тем он громче для человека; чем больше частота сигнала, тем выше тон.

Типичные значения громкости:

Оцифровка звука

Цифровой звук – это аналоговый звуковой сигнал, представленный посредством дискретных численных значений его амплитуды.

Оцифровка звука - технология преобразования аналогового звукового сигнала в цифровой вид.

Заключается в осуществлении замеров амплитуды сигнала с определенным временным шагом и последующей записи полученных значений в численном виде. Другое название оцифровки звука - аналогово-цифровое преобразование звука.

Частота дискретизации звука - это количество измерений громкости звука за одну секунду.

Частота дискретизации звука может лежать в диапазоне от 8000 до 48 000 измерений громкости звука за одну секунду.

Глубина кодирования звука - это количество информации, которое необходимо для кодирования дискретных уровней громкости цифрового звука.

Если известна глубина кодирования, то количество уровней громкости цифрового звука можно рассчитать по формуле N = 2 R . Пусть глубина кодирования звука составляет 16 битов, тогда количество уровней громкости звука равно:

N = 2 R = 2 16 = 65 536.

В процессе кодирования каждому уровню громкости звука присваивается свой 16-битовый двоичный код, наименьшему уровню звука будет соответствовать код 0000000000000000, а наибольшему - 1111111111111111.

Размер звукового файла

I=f×R×N×t , где

f - частота дискретизации (Гц)

R – глубина кодирования (разрядность)

N – количество каналов (1 – моно, 2 – стерео …)

t – время звучания (с)

Можно оценить информационный объем стереоаудиофайла длительностью 1 секунда при высоком качестве звука 16 бит, 48 кГц.

48000 Гц ×16 бит ×2×1=1536000бит=192000 байт=187,5 кБайт

Домашняя работа:

1. Производится одноканальная (моно) звукозапись с частотой дискретизации 22 кГц и глубиной кодирования 16 бит. Запись длится 2 минуты, ее результаты записываются в файл, сжатие данных не производится. Каков размер файла?

2. Двухканальная (стерео) звукозапись с частотой дискретизации 16 кГц и 32-битным разрешением велась в течение 5 минут. Сжатие данных не производилось. Каков размер полученного файла?

3. Производилась двухканальная (стерео) звукозапись с частотой дискретизации 64 кГц и 24-битным разрешением. В результате был получен файл размером 72 Мбайт, сжатие данных не производилось. Определите приблизительно, сколько времени (в минутах) проводилась запись. В качестве ответа укажите ближайшее к времени записи целое число.

Вариант 1

Лабораторная работа

«Кодирование и обработка звуковой информации»

Цели:

образовательная
воспитательная –
развивающая –

Ход работы:

Решите

Имя файла

f- частота дискретизации

k -глубина звука

t- время звучания

Тип файла

44,1 кГц

16 бит

1 мин

стерео

1.wav

8 кГц

8 бит

1 мин

моно

2 .wav

16 кГц

16 бит

1 мин

стерео

3 .wav

24 кГц

16 бит

1 мин

моно

4 .wav

32 кГц

16 бит

1 мин

стерео

для заданий 7-9

5.wav

Покажите заполненную частично таблицу учителю.

Запустите звуковой редактор Audacity .

Выполните обрезку звучания предложенного вам файла до 1 минуты, выделив нужный отрезок времени, выполните команду Правка - Обрезать по краям.

Конвертируйте wav .

В звуковом редактореAudacity Например

Сравните

Сдайте отчет учителю для проверки.

Вариант 2

Лабораторная работа

«Кодирование звуковой информации»

Цели:

образовательная - обеспечить формирование и использование учащимися знаний о кодировании звуковой информации с помощью компьютера, а также навыков по её обработке c использованием прикладного программного обеспечения;
воспитательная – воспитывать внимательность, аккуратность, самостоятельность;
развивающая – навыки использования прикладного программного обеспечения; умение решать информационные задачи.

Требования к оборудованию и ПО : наушники, звуковые файлы для учащихся, звуковой редактор Audacity , программа Звукозапись OC Windows .

Ход работы:

Решите задачи из приведенной таблицы.

Найдите объем звуковой информации по формуле V = f *k *t , где

f - частота дискретизации, k - глубина звука, t - время звучания

Решение задач представьте в виде таблицы.

В столбце «Расчетный объем звукового файла» самостоятельно запишите ответы решенных задач. Ответ дать в мегабайтах.

Имя файла

f- частота дискретизации

k -глубина звука

t- время звучания

Тип файла

Расчетный объем звукового файла

Реальный объем звукового файла

44,1 кГц

16 бит

45 с

стерео

1.wav

8 кГц

8 бит

45 с

стерео

2 .wav

1 1,025 кГц

16 бит

45 с

моно

3 .wav

24 кГц

Запустите звуковой редактор Audacity .

Выполните обрезку звучания предложенного вам файла до 45секунд, выделив нужный отрезок времени, выполните команду Правка - Обрезать по краям.

Конвертируйте предложенный вам файл в файл с расширением wav . Сохраните этот файл с этим же именем.

В звуковом редактореAudacity создайте эффекты для предложенного вам звукового файла. Например , последние 10 секунд файла сделать с затуханием

Разделите стереодорожку, а затем удалите одну из дорожек. Преобразуйте данный файл из стерео в моно. Сохраните данный файл с новым именем и расширением wav.

Сравните объемы файлов. Заполните таблицу данными.

Сдайте отчет учителю для проверки.

Основные понятия

Частота дискретизации(f) определяет количество отсчетов, запоминаемых за 1 секунду;

1 Гц (один герц) – это один отсчет в секунду,

а 8 кГц – это 8000 отсчетов в секунду

Глубина кодирования (b) – это количество бит, которое необходимо для кодирования 1 уровня громкости

Время звучания (t)

Объем памяти для хранения данных 1 канала (моно)

I=f·b·t

(для хранения информации о звуке длительностью t секунд, закодированном с частотой дискретизации f Гц и глубиной кодирования b бит требуется I бит памяти)

При двухканальной записи (стерео) объем памяти, необходимый для хранения данных одного канала, умножается на 2

I=f·b·t·2

Единицы измерения I - биты, b -биты, f - Герцы, t – секунды Частота дискретизации 44,1 кГц, 22,05 кГц, 11,025 кГц

Кодирование звуковой информации

Основные теоретические положения

Временная дискретизация звука. Для того чтобы компьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть преобразован в цифровую дискретную форму с помощью временной дискретизации. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки, для каждого такого участка устанавливается определенная величина интенсивности звука.

Таким образом, непрерывная зависимость громкости звука от времени A(t) заменяется на дискретную последовательность уровней громкости. На графике это выглядит как замена гладкой кривой на последовательность "ступенек".

Частота дискретизации. Для записи аналогового звука и его преобразования в цифровую форму используется микрофон, подключенный к звуковой плате. Качество полученного цифрового звука зависит от количества измерений уровня громкости звука в единицу времени, т.е. частоты дискретизации. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации), тем точнее "лесенка" цифрового звукового сигнала повторяет кривую аналогового сигнала.

Частота дискретизации звука - это количество измерений громкости звука за одну секунду, измеряется в герцах (Гц). Обозначим частоту дискретизации буквой f.

Частота дискретизации звука может лежать в диапазоне от 8000 до 48 000 измерений громкости звука за одну секунду. Для кодировки выбирают одну из трех частот: 44,1 КГц, 22,05 КГц, 11,025 КГц.

Глубина кодирования звука. Каждой "ступеньке" присваивается определенное значение уровня громкости звука. Уровни громкости звука можно рассматривать как набор возможных состояний N, для кодирования которых необходимо определенное количество информации b , которое называется глубиной кодирования звука

Глубина кодирования звука - это количество информации, которое необходимо для кодирования дискретных уровней громкости цифрового звука.

Если известна глубина кодирования, то количество уровней громкости цифрового звука можно рассчитать по формуле N = 2 b . Пусть глубина кодирования звука составляет 16 битов, тогда количество уровней громкости звука равно:

N = 2 b = 2 16 = 65 536.

Качество оцифрованного звука. Чем больше частота и глубина дискретизации звука, тем более качественным будет звучание оцифрованного звука. Самое низкое качество оцифрованного звука, соответствующее качеству телефонной связи, получается при частоте дискретизации 8000 раз в секунду, глубине дискретизации 8 битов и записи одной звуковой дорожки (режим "моно"). Самое высокое качество оцифрованного звука, соответствующее качеству аудио-CD, достигается при частоте дискретизации 48 000 раз в секунду, глубине дискретизации 16 битов и записи двух звуковых дорожек (режим "стерео").

Необходимо помнить, что чем выше качество цифрового звука, тем больше информационный объем звукового файла.

Задачи для самостоятельной подготовки .

1. Рассчитайте объём монофонического аудиофайла длительностью 10 с при 16-битном кодировании и частоте дискретизации 44,1 к Гц. (861 Кбайт)

2. Производится двухканальная (стерео) звукозапись с частотой дискретизации 48 кГц и 24-битным разрешением. Запись длится 1 минуту, ее результаты записываются в файл, сжатие данных не производится. Какое из приведенных ниже чисел наиболее близко к размеру полученного файла, выраженному в мегабайтах?

1)0,3 2) 4 3) 16 4) 132

3. Производится одноканальная (моно) звукозапись с частотой дискретизации 11 кГц и глубиной кодирования 24 бита. Запись длится 7 минут, ее результаты записываются в файл, сжатие данных не производится. Какое из приведенных ниже чисел наиболее близко к размеру полученного файла, выраженному в мегабайтах?

1) 11 2) 13 3) 15 4) 22

4. Производится двухканальная (стерео) звукозапись с частотой дискретизации 11 кГц и глубиной кодирования 16 бит. Запись длится 6 минут, ее результаты записываются в файл, сжатие данных не производится. Какое из приведенных ниже чисел наиболее близко к размеру полученного файла, выраженному в мегабайтах?

1) 11 2) 12 3) 13 4) 15

С меняющейся амплитудой и частотой. Чем выше амплитуда сигнала, тем он громче воспринимается человеком. Чем больше частота сигнала, тем выше его тон.

Рисунок 1. Амплитуда колебаний звуковых волн

Частота звуковой волны определяется количеством колебаний в одну секунду. Данная величина измеряется в герцах (Гц, Hz).

Ухо человека воспринимает звуки в диапазоне от $20$ Гц до $20$ кГц, данный диапазон называют звуковым . Количество бит, которое при этом отводится на один звуковой сигнал, называют глубиной кодирования звука . В современных звуковых картах обеспечивается $16-$, $32-$ или $64-$битная глубина кодирования звука. В процессе кодирования звуковой информации непрерывный сигнал заменяется дискретным , то есть преобразуется в последовательность электрических импульсов, состоящих из двоичных нулей и единиц.

Частота дискретизации звука

Одной из важных характеристик процесса кодирования звука является частота дискретизации, которая представляет собой количество измерений уровня сигнала за $1$ секунду:

одно измерение в одну секунду соответствует частоте $1$ гигагерц (ГГц);
$1000$ измерений в одну секунду соответствует частоте $1$ килогерц (кГц) .

Определение 2

Частота дискретизации звука - это количество измерений громкости звука за одну секунду.

Количество измерений может находиться в диапазоне от $8$ кГц до $48$ кГц, причем первая величина соответствует частоте радиотрансляции, а вторая - качеству звучания музыкальных носителей.

Замечание 1

Чем выше частота и глубина дискретизации звука, тем более качественно будет звучать оцифрованный звук. Самое низкое качество оцифрованного звука, которое соответствует качеству телефонной связи, получается, когда частота дискретизации равна 8000 раз в секунду, глубина дискретизации $8$ битов, что соответствует записи одной звуковой дорожки (режим «моно»). Самое высокое качество оцифрованного звука, которое соответствует качеству аудио -CD, достигается, когда частота дискретизации равна $48000$ раз в секунду, глубина дискретизации $16$ битов, что соответствует записи двух звуковых дорожек (режим «стерео»).

Информационный объем звукового файла

Следует отметить, что чем выше качество цифрового звука, тем больше информационный объем звукового файла .

Оценим информационный объём моноаудиофайла ($V$), это можно сделать, используя формулу:

$V = N \cdot f \cdot k$,

где $N$ - общая длительность звучания, выражаемая в секундах,

$f$ - частота дискретизации (Гц),

$k$ - глубина кодирования (бит).

Пример 1

Например, если длительность звучания равна $1$ минуте и имеем среднее качество звука, при котором частота дискретизации $24$ кГц, а глубина кодирования $16$ бит, то:

$V=60 \cdot 24000 \cdot 16 \ бит=23040000 \ бит=2880000 \ байт = 2812,5 \ Кбайт=2,75 \ Мбайт.$

При кодировании стереозвука процесс дискретизации производится отдельно и независимо для левого и правого каналов, что, соответственно, увеличивает объём звукового файла в два раза по сравнению с монозвуком.

Пример 2

Например, оценим информационный объём цифрового стереозвукового файла, у котрого длительность звучания равна $1$ секунде при среднем качестве звука ($16$ битов, $24000$ измерений в секунду). Для этого глубину кодирования умножим на количество измерений в $1$ секунду и умножить на $2$ (стереозвук):

$V=16 \ бит \cdot 24000 \cdot 2 = 768000 \ бит = 96000 \ байт = 93,75 \ Кбайт.$

Основные методы кодирования звуковой информации

Существуют различные методы кодирования звуковой информации двоичным кодом, среди которых выделяют два основных направления: метод FM и метод Wave-Table .

Метод FM (Frequency Modulation ) основан на том, что теоретически любой сложный звук можно разложить на последовательность простейших гармонических сигналов разных частот, каждый из которых будет представлять собой правильную синусоиду, а это значит, что его можно описать кодом. Процесс разложения звуковых сигналов в гармонические ряды и их представление в виде дискретных цифровых сигналов происходит в специальных устройствах, которые называют «аналогово-цифровые преобразователи» (АЦП).

Рисунок 2. Преобразование звукового сигнала в дискретный сигнал

На рисунке 2а изображен звуковой сигнал на входе АЦП, а на рисунке 2б изображен уже преобразованный дискретный сигнал на выходе АЦП.

Для обратного преобразования при воспроизведении звука, который представлен в виде числового кода, используют цифро-аналоговые преобразователи (ЦАП). Процесс преобразования звука изображен на рис. 3. Данный метод кодирования не даёт хорошего качества звучания, но обеспечивает компактный код.

Рисунок 3. Преобразование дискретного сигнала в звуковой сигнал

На рисунке 3а представлен дискретный сигнал, который мы имеем на входе ЦАП, а на рисунке 3б представлен звуковой сигнал на выходе ЦАП.

Таблично-волновой метод (Wave-Table ) основан на том, что в заранее подготовленных таблицах хранятся образцы звуков окружающего мира, музыкальных инструментов и т. д. Числовые коды выражают высоту тона, продолжительность и интенсивность звука и прочие параметры, характеризующие особенности звука. Поскольку в качестве образцов используются «реальные» звуки, качество звука, полученного в результате синтеза, получается очень высоким и приближается к качеству звучания реальных музыкальных инструментов.

Примеры форматов звуковых файлов

Звуковые файлы имеют несколько форматов. Наиболее популярные из них MIDI, WAV, МРЗ.

Формат MIDI (Musical Instrument Digital Interface) изначально был предназначен для управления музыкальными инструментами. В настоящее время используется в области электронных музыкальных инструментов и компьютерных модулей синтеза.

Формат аудиофайла WAV (waveform) представляет произвольный звук в виде цифрового представления исходного звукового колебания или звуковой волны. Все стандартные звуки Windows имеют расширение WAV.

Формат МРЗ (MPEG-1 Audio Layer 3) - один из цифровых форматов хранения звуковой информации. Он обеспечивает более высокое качество кодирования.

Человеческое ухо воспринимает звук с частотой от 20 колебаний в секунду (низкий звук) до 20 000 колебаний в секунду (высокий звук).

Человек может воспринимать звук в огромном диапазоне интенсивностей, в котором максимальная интенсивность больше минимальной в 10 14 раз (в сто тысяч миллиардов раз). Для измерения громкости звука применяется специальная единица "децибел" (дбл) (табл. 5.1). Уменьшение или увеличение громкости звука на 10 дбл соответствует уменьшению или увеличению интенсивности звука в 10 раз.

Рис. 1.2. Временная дискретизация звука

Частота дискретизации. Для записи аналогового звука и г го преобразования в цифровую форму используется микрофон, подключенный к звуковой плате. Качество полученного цифрового звука зависит от количества измерений уровня громкости звука в единицу времени, т. е. частоты дискретизации . Чем большее количество измерений производится за I секунду (чем больше частота дискретизации), тем точнее "лесенка" цифрового звукового сигнала повторяет кривую диалогового сигнала.

Частота дискретизации звука - это количество измерений громкости звука за одну секунду.

Частота дискретизации звука может лежать в диапазоне от 8000 до 48 000 измерений громкости звука за одну секунду.

Глубина кодирования звука. Каждой "ступеньке" присваивается определенное значение уровня громкости звука. Уровни громкости звука можно рассматривать как набор возможных состояний N, для кодирования которых необходимо определенное количество информации I, которое называется глубиной кодирования звука.

Если известна глубина кодирования, то количество уровней громкости цифрового звука можно рассчитать по формуле N = 2 I . Пусть глубина кодирования звука составляет 16 битов, тогда количество уровней громкости звука равно:

N = 2 I = 2 16 = 65 536.

Необходимо помнить, что чем выше качество цифрового звука, тем больше информационный объем звукового файла. Можно оценить информационный объем цифрового стереозвукового файла длительностью звучания 1 секунда при среднем качестве звука (16 битов, 24 000 измерений в секунду). Для этого глубину кодирования необходимо умножить на количество измерений в 1 секунду й умножить на 2 (стереозвук):

16 бит × 24 000 × 2 = 768 000 бит = 96 000 байт = 93,75 Кбайт.

Звуковые редакторы. Звуковые редакторы позволяют не только записывать и воспроизводить звук, но и редактировать его. Оцифрованный звук представляется в звуковых редакторах в наглядной форме, поэтому операции копирования, перемещения и удаления частей звуковой дорожки можно легко осуществлять с помощью мыши. Кроме того, можно накладывать звуковые дорожки друг на друга (микшировать звуки) и применять различные акустические эффекты (эхо, воспроизведение в обратном направлении и др.).

Звуковые редакторы позволяют изменять качество цифрового звука и объем звукового файла путем изменения частоты дискретизации и глубины кодирования. Оцифрованный звук можно сохранять без сжатия в звуковых файлах в универсальном формате WAV или в формате со сжатием МР3 .

При сохранении звука в форматах со сжатием отбрасываются "избыточные" для человеческого восприятия звуковые частоты с малой интенсивностью, совпадающие по времени со звуковыми частотами с большой интенсивностью. Применение такого формата позволяет сжимать звуковые файлы в десятки раз, однако приводит к необратимой потере информации (файлы не могут быть восстановлены в первоначальном виде).

Контрольные вопросы

1. Как частота дискретизации и глубина кодирования влияют на качество цифрового звука?

Задания для самостоятельного выполнения

1.22. Задание с выборочным ответом. Звуковая плата производит двоичное кодирование аналогового звукового сигнала. Какое количество информации необходимо для кодирования каждого из 65 536 возможных уровней интенсивности сигнала?
1) 16 битов; 2) 256 битов; 3) 1 бит; 4) 8 битов.

1.23. Задание с развернутым ответом. Оценить информационный объем цифровых звуковых файлов длительностью 10 секунд при глубине кодирования и частоте дискретизации звукового сигнала, обеспечивающих минимальное и максимальное качество звука:
а) моно, 8 битов, 8000 измерений в секунду;
б) стерео, 16 битов, 48 000 измерений в секунду.

1.24. Задание с развернутым ответом. Определить длительность звукового файла, который уместится на дискете 3,5" (учтите, что для хранения данных на такой дискете выделяется 2847 секторов объемом 512 байтов каждый):
а) при низком качестве звука: моно, 8 битов, 8000 измерений в секунду;
б) при высоком качестве звука: стерео, 16 битов, 48 000 измерений в секунду.

Возможно, будет полезно почитать: