MIDI встречается почти в каждой современной музыкальной студии. Через него клавиатуры управляют виртуальными синтезаторами, электронные барабаны передают динамику ударов в музыкальный редактор, секвенсор синхронизирует драм-машину с компьютером, а компактный контроллер переключает эффекты во время выступления. При этом MIDI не записывает звук и не заменяет аудиофайл. Он передаёт команды, которые описывают музыкальное исполнение и действия пользователя.

Именно эта особенность делает технологию универсальной. MIDI-партию можно сыграть один раз, а затем исправить отдельные ноты, изменить темп, заменить фортепиано синтезатором, перенести мелодию в другую тональность и отрегулировать силу каждого нажатия. Для работы с аудиозаписью такие изменения требуют сложного монтажа, а при редактировании MIDI выполняются за несколько минут.

Домашняя студия звукозаписи не начинается с покупки самого дорогого микрофона. Качественный результат появляется после последовательной сборки всей системы: тихое помещение, понятный тракт записи, подходящий аудиоинтерфейс, удобный мониторинг, стабильный компьютер, программа для работы со звуком, правильная коммутация и аккуратно организованное рабочее место.

Новичок часто концентрируется на одном устройстве. Кажется, что достаточно приобрести микрофон с подробным звучанием, подключить его к компьютеру и нажать кнопку записи. На практике чувствительный микрофон фиксирует не только голос или инструмент, но и гул системного блока, шум улицы, отражения от стен, дребезг стола, щелчки клавиатуры, работу вентиляции и эхо пустой комнаты. Поэтому оборудование для домашней студии следует рассматривать как единый комплекс.

Слово фонограмма часто связывают только с концертами, на которых артист не исполняет вокальную партию вживую. Такое толкование слишком узкое. Фонограммой называют зафиксированную звуковую запись: песню, инструментальный трек, дикторский голос, шум дождя, запись репетиции, концертный playback, звуковой архив, аудиоспектакль или подготовленную для вокалиста минусовку.

В музыкальной среде термин приобретает дополнительные значения. Исполнители обсуждают плюсовки и минусовки, звукорежиссёры работают со стереомиксами и многоканальными сессиями, продюсеры хранят мастер-файлы и stems, а организаторы концертов запрашивают заранее подготовленные версии композиций. Из-за этого одно слово используют для разных объектов: готовой песни, рабочего файла, музыкального сопровождения и даже способа выступления.

Синтез речи давно перестал быть экспериментом из лаборатории. Он работает в навигаторах, электронных книгах, голосовых помощниках, экранных дикторах, сервисах доставки, банковских автоинформаторах, образовательных курсах и видеороликах. Когда приложение читает статью вслух, сообщает время прибытия такси или формирует закадровую дорожку по сценарию, оно использует один и тот же базовый принцип: получает текст, анализирует его и создаёт звуковую волну с человеческой речью.

Современная технология TTS умеет работать не только с отдельными словами. Она распознаёт границы предложений, учитывает знаки препинания, преобразует числа в словесную форму, выбирает произношение сокращений, расставляет паузы и строит интонацию. Нейросетевые модели делают голос заметно естественнее прежних роботизированных дикторов. При этом итоговое качество зависит не только от выбранного сервиса. Большую роль играет подготовка сценария: длина фраз, расстановка пауз, проверка ударений и корректная запись имён, дат и обозначений.

Посторонний гул, комнатное эхо, шипение микрофона, резкие перепады громкости и неразборчивая речь встречаются даже в записях, сделанных на современный смартфон. Отдельную проблему создают ролики, снятые на улице, дистанционные интервью, лекции из большой аудитории и старые аудиофайлы с заметными дефектами. Ручная обработка каждого фрагмента занимает много времени, а неправильные настройки шумоподавления делают голос металлическим и неестественным.

Нейросеть для улучшения звука решает большую часть типовых задач автоматически. Одни инструменты отделяют речь от окружающего шума, другие уменьшают реверберацию, третьи выравнивают громкость и исправляют частотный баланс. Для видеороликов подходят редакторы со встроенной очисткой голосовой дорожки. Для звонков и трансляций нужны программы, которые работают в реальном времени. Для музыки применяются отдельные мастеринг-системы: они не удаляют шум микрофона, а подготавливают сведённый трек к публикации.

Даже удачно записанный вокал редко звучит завершённо сразу после записи. В необработанном дубле остаются неровные по громкости слова, дыхание, щелчки рта, фон комнаты, гул, резкие свистящие согласные и отдельные неточные ноты. На фоне инструментов эти недостатки становятся заметнее: голос то проваливается в аранжировку, то неожиданно выходит вперёд, то звучит слишком сухо и отдельно от музыки.

Обработка вокала нужна не для маскировки плохого исполнения, а для аккуратной подготовки исходной дорожки к миксу. Работа начинается с монтажа дублей и удаления явных дефектов. Затем выравниваются динамика и частотный баланс, корректируется интонация, смягчаются шипящие звуки, добавляются объём и глубина. Финальный результат оценивается вместе с минусовкой: вокальная партия должна оставаться разборчивой, но не звучать как отдельный слой поверх инструментала.

Тональность песни меняют не только во время профессиональной аранжировки. Такая обработка нужна вокалисту перед репетицией, музыканту при подготовке кавера, преподавателю для занятий с учеником, автору ремикса и любителю караоке. Готовая фонограмма часто звучит слишком высоко или слишком низко: припев приходится брать на пределе диапазона, нижние ноты теряют разборчивость, а голос быстро устаёт. Правильно выполненная транспозиция решает эту проблему без ускорения и замедления композиции.

Самая важная задача — отделить изменение высоты звука от изменения скорости воспроизведения. При обычном ускорении записи песня становится короче и выше, а при замедлении — длиннее и ниже. Для подстройки минусовки под голос нужен другой алгоритм: длительность трека сохраняется, а все ноты одновременно сдвигаются на заданное число полутонов или на выбранную частотную величину.