Как найти по звуку человека - Avtoru.top - решение различных проблем

Кто там? — Идентификация человека по голосу

Время на прочтение
6 мин

Количество просмотров 56K

Здравствуй, дорогой читатель!

Предлагаю твоему вниманию интересную и познавательную статью об отдельно взятом методе распознавания говорящего. Всего каких-то пару месяцев назад я наткнулся на статью о применении мел-кепстральных коэффициентов для распознавании речи. Она не нашла отклика, вероятно, из-за недостаточной структурированости, хотя материал в ней освещен очень интересный. Я возьму на себя ответственность донести этот материал в доступной форме и продолжить тему распознавания речи на Хабре.

Под катом я опишу весь процесс идентификации человека по голосу от записи и обработки звука до непосредственно определения личности говорящего.

Запись звука

Наша история начинается с записи аналогового сигнала с внешнего источника с помощью микрофона. В результате такой операции мы получим набор значений, которые соответствуют изменению амплитуды звука со временем. Такой принцип кодирования называется импульсно-кодовой модуляцией aka PCM (Pulse-code modulation). Как можно догадаться, «сырые» данные, полученные из аудио-потока, пока еще не годятся для наших целей. Первым делом нужно преобразовать непослушные биты в набор осмысленных значений — амплитуд сигнала. [1, с. 31] В качестве входных данных я буду использовать несжатый 16-битный знаковый (PCM-signed) wav-файл с частотой дискретизации 16 кГц.

double[] readAmplitudeValues(bool isBigEndian)
{
	int MSB, LSB; // старший и младший байты
	byte[] buffer = ReadDataFromExternalSource(); // читаем данные откуда-нибудь
	double[] data = new double[buffer.length / 2];

	for (int i = 0; i < buffer.length; i += 2)
	{
		if(isBigEndian) // задает порядок байтов во входном сигнале
		{
			// первым байтом будет MSB
			MSB = buffer[2 * i];
			// вторым байтом будет LSB
			LSB = buffer[2 * i + 1];
		}
		else
		{
			// наоборот
			LSB = buffer[2 * i];
			MSB = buffer[2 * i + 1];
		}
		// склеиваем два байта, чтобы получить 16-битное вещественное число
		// все значения делятся на максимально возможное - 2^15
		data[i] = ((MSB << 8) || LSB) / 32768;
	}
	
	return data;
}

Освежить знания про порядок байтов можно на википедии.

Обработка звука

Полученные значения амплитуд могут не совпадать даже для двух одинаковых записей из-за внешнего шума, разных громкостей входного сигнала и других факторов. Для приведения звуков к «общему знаменателю» используется нормализация. Идея пиковой нормализации проста: разделить все значения амплитуд на максимальную (в рамках данного звукового файла). Таким образом мы уравняли образцы речи, записанные с разной громкостью, уложив все в шкалу от -1 до 1. Важно, что после такой трансформации любой звук полностью заполняет заданный промежуток.

Нормализация, на мой взгляд, — самый простой и эффективный алгоритм предварительной обработки звука. Существуют также масса других: «отрезающие» частоты выше или ниже заданной, сглаживающие и др.

Разделяй и властвуй

Даже при работе со звуком с минимально достаточной частотой дискретизации (16 кГц) размер уникальных характеристик для секундного образца звука просто огромен — 16000 значений амплитуд. Производить сколь-нибудь сложные операции над такими объемами данных не представляется возможным. Кроме того, не совсем понятно, как сравнивать объекты с разным количеством уникальных черт.

Для начала снизим вычислительную сложность задачи, разбив ее на меньшие по сложности подзадачи. Этим ходом убиваем сразу двух зайцев, ведь установив фиксированный размер подзадачи и усреднив результаты вычислений по всем задачам, получим наперед заданное количество признаков для классификации.

На рисунке изображена «порезка» звукового сигнала на кадры длины N с половинным перекрытием. Необходимость в перекрытии вызвана искажением звука в случае, если бы кадры были расположены рядом. Хотя на практике этим приемом часто принебрегают для экономии вычислительных ресурсов. Следуя рекоммендациям [1, с. 28], выберем длину кадра равной 128 мс, как компромисс между точностью (длинные кадры) и скоростью (короткие кадры). Остаток речи, который не занимает полный кадр, можно заполнить нулями до желаемого размера или просто отбросить.

Для устранения нежелаетльных эффектов при дальнейшей обработке кадров, умножим каждый элемент кадра на особую весовую функцию («окно»). Результатом станет выделение центральной части кадра и плавное затухание амплитуд на его краях. Это необходимо для достижения лучших результатов при прогонке преобразования Фурье, поскольку оно ориентировано на бесконечно повторяющийся сигнал. Соответственно, наш кадр должен стыковаться сам с собой и как можно более плавно. Окон существует великое множество. Мы же будем использовать окно Хэмминга.

n — порядковый номер элемента в кадре, для которого вычисляется новое значение амплитуды
N — как и ранее, длина кадра (количество значений сигнала, измеренных за период)

Дискретное преобразование Фурье

Следующим шагом будет получение кратковременной спектрограммы каждого кадра в отдельности. Для этих целей используем дискретное преобразование Фурье.

N — как и ранее, длина кадра (количество значений сигнала, измеренных за период)
x_n — амплитуда n-го сигнала
X_k — N комплексных амплитуд синусоидальных сигналов, слагающих исходный сигнал

Кроме этого, возведем каждое значение X_k в квадрат для дальнейшего логарифмирования.

Переход к мел-шкале

На сегодняшний день наиболее успешными являются системи распознавания голоса, использующие знания об устройстве слухового аппарата. Несколько слов об этом есть и на Хабре. Если говорить вкратце, то ухо интерпретирует звуки не линейно, а в логарифмическом масштабе. До сих пор все операции мы проделывали над «герцами», теперь перейдем к «мелам». Наглядно представить зависимость поможет рисунок.

Как видно, мел-шкала ведет себя линейно до 1000 Гц, а после проявляет логарифмическую природу. Переход к новой шкале описывается несложной зависимостью.

m — частота в мелах
f — частота в герцах

Получение вектора признаков

Сейчас мы как никогда близко к нашей цели. Вектор признаков будет состоять из тех самых мел-кепстральных коэффициентов. Вычисляем их по формуле [2]

c_n — мел-кепстральный коэффициент под номером n
S_k — амплитуда k-го значения в кадре в мелах
K — наперед заданное количество мел-кепстральных коэффициэнтов
n ∈ [1, K]

Как правило, число K выбирают равным 20 и начинают отсчет с 1 из-за того, что коэффициент c₀ несет мало информации о говорящем, так как является, по сути, усреднением амплитуд входного сигнала. [2]

Так кто же все-таки говорил?

Последней стадией является классификация говорящего. Классификация производится вычислением меры схожести пробных данных и уже известных. Мера схожести выражается расстоянием от вектора признаков пробного сигнала до вектора признаков уже классифицированного. Нас будет интересовать наиболее простое решение — расстояние городских кварталов.

Такое решение больше подходит для векторов дискретной природы, в отличие от расстояния Евклида.

Внимательный читатель наверняка помнит, что автор в начале статьи упоминал про усреднение признаков речевых кадров. Итак, восполняя этот пробел, завершаю статью описанием алгоритма нахождения усредненного вектора признаков для нескольких кадров и нескольких образцов речи.

Кластеризация

Нахождение вектора признаков для одного образца не составит труда: такой вектор представляется как среднее арифметическое векторов, характеризующих отдельные кадры речи. Для повышения точности распознавания просто необходимо усреднять результаты не только между кадрами, но и учитывать показатели нескольких речевых образцов. Имея несколько записей голоса, разумно не усреднять показатели к одному вектору, а провести кластеризацию, например с помощью метода k-средних.

Итоги

Таким образом, я рассказал о простой но эффективной системе идентификации человека по голосу. Резюмируя, процесс распознавания построен следующим образом:

Собираем несколько тренировочных образцов речи, чем больше — тем лучше.
Находим для каждого из них характеристический вектор признаков.
Для образцов с известным автором проводим кластеризацию с одним центром (усреднение) или несколькими. Приемлемые результаты начинаются уже с использованием 4-х центров для каждого диктора. [2]
В режиме опознавания находим расстояние от пробного вектора до изученных во время тренировки центров кластеров. К какому кластеру пробная речь окажется ближе — к такому диктору и относим образец.
Можно экспериментально установить даже некоторый доверительный интервал — максимальное расстояние, на котором может находиться пробный образец от центра кластера. В случае превышения этого значения — классифицировать образец как неизвестный.

Я всегда рад полезным комментариям по поводу улучшения материала. Спасибо за внимание.

Литература:

Modular Audio Recognition Framework v.0.3.0.6 (0.3.0 ﬁnal) and its Applications
Speaker identification using mel frequency cepstral coefficients

Источник

Здравствуйте.

Вот так бывает: сидишь себе где-нибудь, проводишь приятно время — играет хорошая музыка. Хочешь скачать себе на ПК/телефон такую же — но не знаешь кто исполняет композицию, не узнаешь исполнителя. 😥

Также часто встречаются не подписанные треки (это если музыка уже загружена к вам на жесткий диск): «неизвестный исполнитель — трек 1». Как найти исполнителя — тоже загадка…

Однако, спешу обрадовать: сейчас есть специальные программы для телефона и компьютера, позволяющие автоматически и довольно быстро определить по звуку, кто исполняет данную песню. 😉

Конечно, пока вероятность определения у них не 100% — но очень близкая к этому значению (~95%). Ну а потом, уже зная кто и чего — найти композицию будет значительно проще!

Примечание!

В статье я рассмотрю несколько сервисов для компьютера, и несколько приложений для телефона на Андроид. Каждый из сервисов имеет свои отличительные черты (плюсы/минусы), поэтому предварительно см. описание.

Содержание статьи

1 Распознаем песню по звуку
- 1.1 Приложения
  - 1.1.1 Алиса от Яндекс (и др. ассистенты)
  - 1.1.2 Shazam (на Андроид)
  - 1.1.3 SoundHound (Windows 10/Андроид)
- 1.2 Онлайн-сервисы
  - 1.2.1 Midomi (по звуку через микрофон онлайн)
  - 1.2.2 AudioTag (для MP3-файлов, онлайн-радио и пр.)
- 1.3 Насчет музыки из фильмов (если приложения не находят информацию по исполнителю)

→ Задать вопрос | дополнить

Распознаем песню по звуку

Приложения

Пожалуй, они пользуются наибольшей популярностью на смартфонах, т.к. на любом из них есть микрофон (в отличие от ПК), а значит всегда, что слышно в округе — можно попытаться распознать.

Для полноценной работы данных приложений необходимо нормальное Интернет-соединение. Дело в том, что для сравнения текущего звука, который вы слышите, с большой базой песен — необходим достаточно мощный сервер, на который и передается слышимый звук телефоном (возможностей телефона для распознавания песни не хватит).

Алиса от Яндекс (и др. ассистенты)

Есть в приложениях: «Яндекс», «Яндекс-браузер

Ссылка на Play Market: https://play.google.com

Если у вас относительно новый смартфон и он локализован для нашей страны — большая вероятность, что в нем есть приложение «Яндекс» (либо «Яндекс-браузер»). И в том, и в другом ПО — есть встроенный ассистент Алиса (она умеет определять, находить и воспроизводить музыку).

Для ее запуска — достаточно кликнуть по характерному значку (белый треугольник в сиреневом круге). 👇

Предустановленное приложение «Яндекс» на телефоне / Android 10.0

Собственно, после запуска «Алисы» — просто скажите ей голосом «Алиса, что за музыка играет?».

Далее она немного послушает ее (5-10 сек.) — и с большой долей вероятности покажет вам название трека, и его исполнителя. Кроме этого, предложит прослушать этот трек 📌на Яндекс-музыке (вы сможете сразу же добавить его к себе в избранное!). Удобно!? 😉

Пример работы! || Приложение «Яндекс» на Android 10.0

Еще один пример

📌 Важно!

Есть и другие виртуальные ассистенты, которые могут решать аналогичную задачу (Ассистент Google, Маруся от mail.ru, Салют от Сбера и пр.). У меня на блоге есть отдельная заметка с их возможностями…

Shazam (на Андроид)

Сайт: https://www.shazam.com/ru

Ссылка на Google Play: https://play.google.com/

Примеры работы в Shazam

Еще одно довольно популярное приложение для смартфона на Андроид. Позволяет за считанные секунды воспроизведения звука (5-10 секунд!) — определить название композиции и ее исполнителя.

Всё, что потребуется от вас после установки приложения — это нажать одну кнопку «Автошазам» (см. скриншот выше — приложение отлично справилось с русскими и зарубежными исполнителями).

Плюсы:

быстрое распознавание: всего 5-10 сек.!
распознает как наших исполнителей, так и зарубежных;
поддерживается большинство смартфонов (приложение не требовательное к ресурсам);
найденные треки можно сразу же купить или прослушать (чтобы удостовериться тот ли трек);
приложение бесплатно и поддерживает русский язык;
есть функции поиска и общения с людьми, кому нравится эта песня (можно подружиться 👌).

Минусы:

Обилие рекламы;
Некоторые старые советские песни плохо распознаются;
Для качественного и точного определения мелодии необходимо включать приложение, когда слышится голос исполнителя, и желательно припев.

SoundHound (Windows 10/Андроид)

Сайт: https://soundhound.com/soundhound

Google Play: https://play.google.com

SoundHound: пример работы приложения

SoundHound — отличное приложение, работающее как на ПК под управлением Windows 10, так и на смартфонах под Андроид. Для того, чтобы определить и распознать играющую песню — достаточно нажать одну оранжевую кнопку и через 10 секунд вы увидите название композиции!

Плюсы:

хороший алгоритм определения исполнителя;
можно узнать не только саму композицию, но и посмотреть текст песни, узнать больше о любимом исполнителе;
можно искать песни просто напевая в приложение (такого нет в большинстве других аналогичных программ!);
есть история предыдущих поисков (т.е. если вы за вечер искали 5-10 композиций и вам было некогда их загружать к себе — то на следующий день сможете все их найти);
можно смотреть различные подборки: новые песни, хиты, рекомендации и пр.;
мгновенная покупка песен и целых альбомов.

Минусы:

есть проблемы с распознаванием некоторых российских исполнителей (которые сейчас не популярны).

Онлайн-сервисы

Midomi (по звуку через микрофон онлайн)

Официальный сайт: https://www.midomi.com/

Midomi — начать распознавать звук через микрофон

Очень мощный онлайн-сервис, позволяющий распознавать песню через микрофон (причем даже в тех случаях, когда вы сами ее напоете — т.е. сервис даже по этому звуку может найти мелодию!).

Все что требуется от пользователя, чтобы начать распознавание — это зайти на сайт, кликнуть мышкой по кнопке с микрофоном (скрин выше), разрешить сервису получить данные с вашего микрофона, и ву-а-ля — через 10-15 сек. вы узнаете песню!

Плюсы:

очень хороший алгоритм поиска;
возможность вести распознавание музыки в режиме онлайн через ваш микрофон (даже если вы сами будете петь!);
большая база исполнителей, композиций;
возможность вести поиск композиции по ее тексту;
есть вкладки с самыми «горячими» артистами и хитами за последнее время (можно быть в курсе всех тенденций и течений в музыке!).

Минусы:

обилие рекламы на ресурсе;
нет редких песен (особенно, касается малопопулярных российских исполнителей);
отсутствует русский язык (хотя, в принципе, на сайте и так можно легко со всем разобраться 👌).

Как пользоваться сервисом:

зайти на главную страничку сайта — кликнуть по кнопке поиска, расположена по центру экрана (рядом картинка с микрофоном — см. скриншот выше);
дать разрешение сервису на использование микрофона;

Разрешить получить звук с вашего микрофона
когда появиться таймер — просто напойте нужную песню (10-30 сек.);
далее через несколько секунд увидите результаты (если их не будет — сервис вам порекомендует проверить и настроить микрофон, после чего попробовать еще раз напеть песню).
кстати, по поводу подключения и настойки наушников и микрофона, у меня на блоге 👉 есть небольшая инструкция, рекомендую!

AudioTag (для MP3-файлов, онлайн-радио и пр.)

Официальный сайт: https://audiotag.info/

AudioTag — очень удобный инструмент для определения исполнителя трека (например, MP3-файла)

Наверное, один из лучших сервисов на который можно загрузить уже имеющийся в наличие трек (например, MP3-файл). Я думаю, что у кого на диске много различной музыки, не раз встречались не подписанные треки (к примеру, трек №1, трек №2 и т.д.). В этом случае — их достаточно загрузить на сервис и получить название композиции.

Кроме этого, сервис позволяет вставить ссылку на определенный трек или воспроизводимое онлайн-аудио (например, Интернет-радио). Очень удобно, услышав интересную песню — просто быстренько вставить ссылку и получить результат.

Плюсы:

точное распознавание музыки по файлу или URL-адресу исполнения онлайн-аудио;
получаете не только исполнителя, но и название трека, альбом, год выхода;
поддерживает несколько аудио-форматов;
поддерживает файлы разного качества;
сервис бесплатный (есть поддержка русского);
в результатах поиска, помимо найденной композиции, показываются похожие треки.

Минусы:

нельзя самостоятельно спеть и найти трек;
необходимо вводить капчу — иначе сервис считает вас за робота;
не распознает некоторые редкие треки;
на страницах обилие рекламы (хотя она и не агрессивна и не мешает работы с сайтом).

Для начала использования:

просто выберите трек на жестком диске (Кнопка «Обзор»). Скриншот приведен выше;
далее нажмите кнопку «Upload» (загрузить);
вводите капчу (обычно, решение простого примера);
получаете результат (скриншот с моим опытом работы с сервисом представлен ниже).

Нажми на кнопку — получишь результат! // AudioTag нашел исполнителя песни и название трека, год выхода композиции в свет…

Насчет музыки из фильмов (если приложения не находят информацию по исполнителю)

Бывает так, что в каком-нибудь фильме (сериале) услышишь интересную композицию (саундтрек), но приложения ее не находят. Как быть? 😥

📌Один из вариантов: зайти на сайт https://www.imdb.com/ и найти на нем нужный фильм (я в своем варианте взял «Один дома / Home alone»). В нижней части окна карточки фильма будет заветная ссылка «Soundtracks» (саундтреки). См. скрин ниже. 👇

Soundtracks

Далее перед вами предстанет список саундтреков с их оригинальным названием и исполнителем. Удобно?! 👌

Полный перечень композиций

Есть еще одна очень некогда популярная программа Tunatic — http://tunatic.ru/ (для Windows и MacOS) для распознавания музыки. Появилась в 2005г. и произвела некий фурор, но в последствии ее обошли конкуренты и на данный момент сервис не работает (хотя сайт в сети доступен). Возможно к прочтению вами статьи — он снова заработает?!

А на этом у меня пока всё, удачи!

👣

Первая публикация: 04.12.2017

Корректировка: 5.10.2021

donate

dzen-ya

Полезный софт:

Видео-Монтаж

Отличное ПО для создания своих первых видеороликов (все действия идут по шагам!).
Видео сделает даже новичок!

Ускоритель компьютера

Программа для очистки Windows от «мусора» (удаляет временные файлы, ускоряет систему, оптимизирует реестр).

Источник

Shazam

Пожалуй, самое популярное приложение для поиска музыки. С его помощью вы быстро узнаете, кто поёт песню и как она называется. Пользоваться им очень просто: откройте Shazam и нажмите кнопку прослушивания на главном экране. Чтобы приложение лучше распознало композицию, поднесите смартфон поближе к источнику звука или увеличьте громкость.

SoundHound

Похожее на Shazam приложение, которое позволяет распознать проигрываемый трек. Работает оно аналогичным образом: подносим смартфон к источнику звука, например к колонке, и нажимаем кнопку на главном экране.

Кстати, в SoundHound есть ещё одна полезная опция. Приложение показывает не только, что за песня играет и кто исполняет её, но и текст — можно слушать и подпевать.

Голосовой ассистент Google

Опция распознавания мелодии встроена в голосовой ассистент Google. Чтобы найти нужный вам трек:

Откройте голосовой помощник.
Произнесите Ok, Google.
Дайте голосовую команду: «Что за трек играет?»

Через несколько секунд ассистент выдаст результат.

Нашли нужный трек? Слушайте его, а также миллионы других отличных композиций, музыкальные подборки и подкасты в МТС Music. Для новых пользователей — первые 30 дней бесплатно.

Источник

15 Июня 2011 12:06
15 Июн 2011 12:06

Google объявил о нововведениях в своем поисковике на компьютерах и в мобильных устройствах.

Пользователям ноутбуков и настольных ПК стали доступны три новые функции: голосовой поиск (Google Voice Search), поиск по изображению (Search by Image) и функция мгновенной загрузки Instant Pages.

Голосовой поиск и поиск по изображению — функции, изначально появившиеся на мобильных устройствах. Для использования голосового поиска необходимо в веб-браузере Google Chrome 11 или более поздней версии перейти по адресу Google.com (выбрать в настройках поиска родной язык английский). Напротив строки для ввода запроса появится пиктограмма микрофона. Нажатие на кнопку активирует запись с подключенного или встроенного микрофона, далее поисковая система распознает произнесенное выражение.

В Google утверждают, что система учитывает 230 млрд комбинаций слов в различных устойчивых предложениях и способна распознавать не только слова и словосочетания, например, «bolognese sauce», но и стандартные фразы. Более того, благодаря интеграции с сервисом Google Translate система может обрабатывать и запросы на перевод, такие как «translate to spanish where can I buy a hamburger». Правда, функция работает только с английским языком.

На официальном сайте Google в системных требованиях указана только необходимость использования определенной версии Chrome, однако корреспонденту CNews не удалось вызвать пиктограмму микрофона при наличии встроенного микрофона ни в Windows XP, ни в Windows 7. Возможно, данная функция доступна пока только пользователям, территориально расположенным в США.

Для работы функции Voice Search используется интферсейс HTML Speech Input API и собственно технология распознавания. Она встроена в браузер и является закрытой. В компании не сообщили, смогут ли данной технологией воспользоваться разработчики сторонних браузеров. Впервые функция распознавания голоса в Chrome появилась в апреле с выходом одиннацатой версии браузера (с плоским логотипом).

Поиск Google по изображениям позволяет найти даже малоизвестные места

Для того чтобы воспользоваться поиском по изображению, необходимо открыть адрес images.google.com, и здесь уже не имеет значения, какой язык указан, и используется ли Chrome. При переходе по ссылке рядом с поисковой строкой появляется пиктограмма фотоаппарата. Кликнув на нее, пользователь может указать URL к изображению в интернете, по которому он желает выполнить поиск, либо загрузить картинку со своего компьютера. Функция работает в Chrome, Firefox и Safari, но не работает в Opera.

Безопасные коммуникации сотрудников: что важно знать

импортозамещение ucaas

В Google продемонстрировали, как с помощью Search by Image можно узнать название здания или любой другой достопримечательности. В частности, система смогла не только распознать изображение известной на весь мир «Саграды Фамилии» в Барселоне, но и церковь в малоизвестной деревушке Ойя в Греции (на изображении).

Наконец, функция Instant Pages является продолжением Google Instant («Живой поиск»). Работая в тандеме с существующей технологией, новая функция заранее подгружает страницы, расположенные по адресам наверху результатов мгновенного поиска. Таким образом, страницы открываются с минимальной задержкой — появляется возможность дополнительной экономии времени.

В компании утверждают, что в среднем пользователь вынужден ждать около 5 секунд, пока сайт, который он нашел в Google, загрузится. Поэтому при наличии Instant Pages он экономит это время — в дополнение к тем 2-5 секундам, которые, как утверждают в Google, помогает экономить Google Instant. Чтобы посмотреть, как работает новая функция, необходимо загрузить бета-версию Chrome с технологией пререндеринга.

Помимо нововведений в «настольном» поиске, компания улучшила поиск на устройствах под управлением iOS и Android. В частности, в мобильном приложении Google для указанных платформ появились пиктограммы наиболее популярных для текущего региона категорий запросов. Например, «Рестораны», «Кофейни», «Бары» и так далее. Данное нововведение призвано упростить поиск близлежащих заведений — нажатие на пиктограмму выдает информацию о ресторанах, кофейнях, барах и других местах, расположенных вблизи от текущего местоположения пользователя, а также указывает эти места на карте. Новая функция работает на iOS 4.0 и Android 2.2 и более поздних версиях платформ.

В каком ЦОД разместить оборудование Colocation? Найти ответ на ИТ-маркетплейсе Market.CNews

Источник

Знакомая ситуация: неопознанный трек крутится в голове и не дает уснуть. Хочется побыстрее его найти в интернете и скачать в свой плейлист. Можно поискать фрагменты текста в обычном поисковике. Но если слов не знаешь? Тогда на помощь приходят сервисы, которые определяют название песни по звуку.

Содержание

Источники звука для поиска музыки
Программы и онлайн-сервисы для распознавания музыки на ПК и телефоне
Через микрофон
Онлайн-сервис Midomi
Бот в Telegram
Приложение Яндекс.Музыка
Приложение SoundHound
Приложение Shazam
По файлу или ссылке
Онлайн-сервис AudioTag
Форум WatZatSong

Источники звука для поиска музыки

Чтобы распознать трек, нужно загрузить его в сервис или программу. Способов ввода несколько:

Аудиофайл, который уже есть на телефоне или ПК.
Ссылка на видео из YouTube и других площадок. Для этого и предыдущего метода подойдет сервис AudioTag.
Живое исполнение: приложение будет слушать трек с помощью микрофона. Включить композицию можно на ПК, телефоне, радио и т. д. Это может быть и то же самое устройство, на котором запускаете программу для поиска. Способ подходит для определения песен в кафе, транспорте и других местах. Если проиграть трек неоткуда, напойте его сами. Шанс, что сервис узнает песню, всегда есть.

Программы и онлайн-сервисы для распознавания музыки на ПК и телефоне

Онлайн-сервисы подходят и для компьютера, и для телефона. Но пользоваться ими удобнее с ПК. Для телефона используйте более комфортное решение – специальные мобильные приложения.

Через микрофон

Включите песню на любом устройстве и запустите распознавание в сервисе/приложении. Система прослушает композицию и выдаст ее название.

Онлайн-сервис Midomi

Простой и удобный сайт, даже при том, что интерфейс на английском языке. Ищет как зарубежную, так и отечественную музыку. Сразу предлагает площадки, где ее можно прослушать и скачать.

Наглядная инструкция, как работать в Midomi:

Перейдите на сайт сервиса. Включите музыку – на самом компьютере или на другом устройстве (телефон, радио и т. д.).
Нажмите на круглую желто-черную иконку, чтобы сервис приступил к прослушиванию. Если вам неоткуда воспроизвести песню, напойте ее сами.
Подождите, пока сервис попытается распознать мелодию. Это займет секунд 10. Результат может быть положительным или отрицательным. Если сайт ничего не нашел либо нашел, но не ту песню, вернитесь на главную страницу и снова включите поиск.

В результатах запроса вы увидите:

Название песни и имя исполнителя.
Ссылки на площадки, где вы можете прослушать запись, а затем скачать: Google Play, Apple Music, Spotify и т. д. Раздел «Open On» и кнопки сразу под названием.
Клип, текст трека и альбомы, в которых он присутствует.

Рекомендация: запускайте сервис, когда музыка сопровождается словами. Лучше всего это делать на припеве. Или хотя бы подождите, пока проиграется начало песни, так как вступление распознать тяжело.

Бот в Telegram

Владелец бота – Яндекс.Музыка. Функция распознавания песен есть только в мобильном приложении сервиса. На компьютере она недоступна (через веб-сайт Яндекс.Музыки). Альтернативой в таком случае может стать фирменный бот, так как мессенджер Telegram можно установить и на ПК. Для этого перейдите на официальный сайт программы и скачайте файл для инсталляции.

Как пользоваться ботом после установки Telegram:

Перейдите по ссылке. Нажмите «Открыть приложение».
В диалоге с ботом кликните «Запустить». Придет небольшая инструкция, как пользоваться сервисом.
Включите музыку на любом устройстве. Зажмите мышкой иконку микрофона в правом нижнем углу. Удерживайте ее в течение 5-10 секунд. Затем отпустите кнопку – аудиосообщение отправится автоматически.
Подождите несколько секунд, пока бот обработает запись с вашего микрофона. Отдельным сообщением он пришлет название песни, исполнителя, а также ссылку на прослушивание в Яндекс.Музыке.

Ход действий в мобильной версии Телеграм такой же: включаете музыку, записываете короткое аудиопослание, отправляете боту и ждете результата. Можно попробовать спеть и самому.

Приложение Яндекс.Музыка

Минус способа – нужно сразу оформлять подписку. Это платная программа. Стоит 199 рублей в месяц (данные на 2020 год). Однако отдавать деньги можно не сразу. Для этого включите бесплатный режим на 2 месяца. Банковскую карту при этом привязать все равно придется. С нее будут сниматься деньги за подписку спустя два месяца. Пробный режим можно отменить в любое время в течение двух месяцев до снятия первого взноса.

В Яндекс.Музыке доступны не только песни со всего мира, но и подкасты, аудиокниги. Также в подписку входит просмотр фильмов в КиноПоиске, даже без интернета.

Как запустить распознавание музыки в этом приложении:

Установите приложение через Google Play (для Android) или через App Store (для iOS).
Привяжите карту, следуя простой инструкции на экране.
Перейдите в раздел «Поиск» с помощью панели внизу.
Тапните по фиолетовому кругу внизу справа.
Разрешите приложению записывать звук с микрофона.
Дайте сервису несколько секунд, чтобы поймать мотив. Оцените результат поиска.

Может появиться сообщение о том, что песни нет в коллекции Яндекс.Музыки. Это случается, когда права на воспроизведение композиции отзывают. Нажмите в этом случае на крестик в правом верхнем углу. Название песни все равно появится – просто вы не сможете проиграть ее через Яндекс.Музыку.

Приложение SoundHound

Это фирменное приложение от онлайн-сервиса Midomi. Дизайн интерфейса и функции почти те же. Просто им комфортнее пользоваться с телефона – сайт в мобильном браузере может отображаться некорректно.

Кроме поиска музыки в программе есть:

Категории песен по жанрам, популярности.
Возможность слушать найденные треки и песни из коллекций.
Тексты песен.
Возможность просматривать историю поиска. Для этого нужно зарегистрироваться в сервисе.

В разделе «История» есть три вкладки: найденное, избранное и отложенное (сохранение неудачных поисковых запросов, которые можно повторить чуть позже).

Как пользоваться программой:

Установите приложение через Play Market или через App Store.
Запустите его. Разрешите использовать микрофон устройства.
Включите музыку.
В разделе «Поиск» тапните по центральной круглой кнопке.
Подождите, пока загрузятся данные, и оцените результат.

Приложение Shazam

Приложение, которое у всех на слуху. Поиск музыки – его основная функция. Но также здесь есть:

Библиотека найденных треков. Можно сохранять песни в плейлисты.
Тексты песен.
Клипы с YouTube и Apple Music.
Чарты Shazam (популярные песни, которые ищут пользователи).

Как пользоваться программой:

Установите приложение через Play Market или через App Store.
Запустите его. Включите музыку и нажмите на центральную кнопку. Разрешите приложению использовать микрофон.
Подождите, пока сервис прослушает кусок песни и выдаст результат.

По файлу или ссылке

Если у вас есть файл песни, загрузите его напрямую в онлайн-сервис AudioTag или на форум WatZatSong. Проигрывать композицию при этом не надо.

Онлайн-сервис AudioTag

Сервис распознает песни по аудиофайлам и ссылкам (видео из YouTube и других площадок).

Оптимальная длина аудиодорожки – 15-45 секунд, но можно загружать и более объемные файлы. Робот может анализировать песню вплоть до 2 минут.

Минус сервиса – английский интерфейс. Инструкции ниже помогут быстро в нем разобраться. Сначала покажем, как определить песню по аудиофайлу:

Перейдите на сайт сервиса. Нажмите «Select or drop file».
Найдите на ПК нужную запись, выделите ее левой кнопкой мыши, выберите «Открыть».
Подождите, пока файл загрузится.
Поставьте отметку «Я не робот». Выполните задание и кликните по Analyze.
Подождите, пока сервис распознает трек.

Теперь расскажем, как распознавать песню из видеоролика на YouTube:

Откройте нужное видео на видеохостинге. Скопируйте ссылку на видео из адресной строки браузера.
Перейдите на AudioTag и нажмите «Enter Link».
Вставьте ссылку в первом поле. Во втором поле укажите примерное время, где играет искомая песня. Робот проанализирует 60 секунд видеозаписи вокруг обозначенной временной точки. Можно и не указывать время – тогда сервис прослушает первые 120 секунд видео.
Нажмите Analyze URL. Подождите, пока робот загрузит видео.
Поставьте отметку «Я не робот». Выполните задание, чтобы доказать, что вы живой человек. Нажмите Analyze.
Подождите, пока завершится прослушивание. Оцените результат.

Форум WatZatSong

Если все предыдущие способы не сработали, воспользуйтесь форумом WatZatSong. Это не автоматический сервис поиска песен по звуку, как все предыдущие. Распознают музыку здесь сами пользователи. То есть люди друг другу помогают узнать, что за песня играет на записи. Вы и сами можете кому-то помочь, послушав несколько загруженных аудиофайлов.

Здесь есть шанс найти как иностранные композиции (английский, итальянский, французский, испанский, китайский и другие), так и песни на русском. Можно загрузить готовый аудиофайл либо сделать моментальную запись с помощью микрофона.

Очевидный минус – интерфейс на английском, но мы поможем в нем разобраться. Как загрузить на форум искомый трек:

Перейдите на сервис по ссылке. Зарегистрируйтесь. Анонимные пользователи здесь не могут оставлять комментарии и загружать песни. Для этого нажмите «Sign Up» в правом верхнем углу.
Введите логин на английском (так вас будут «звать» на сайте), адрес действующей электронной почты. Придумайте пароль, поставьте отметку «Accept General Conditions». Нажмите «Sign Up».
Откройте электронную почту, а в ней новое письмо от сервиса WatZatSong. Перейдите по ссылке, указанной в письме. Произойдет автоматический вход в созданный аккаунт. В дальнейшем вы можете заходить в личный кабинет с помощью логина и пароля, указанного при регистрации. Для этого нажмите Sing In и введите данные.
Кликните по кнопке «Post a Sample».
Разрешите браузеру использовать микрофон вашего устройства.
Выберите способ ввода песни: моментальная запись (Record) либо готовый аудиофайл (Upload). В первом случае включите песню на любом устройстве и нажмите красную кнопку Rec. Когда запись закончится, кликните по кнопке еще раз – запись загрузится на сайт. При желании прослушайте запись с помощью зеленой кнопки Play.
Во втором случае щелкните по «Выберите файл». Отыщите на компьютере готовый аудиофайл, выделите его и нажмите «Открыть». Подождите, пока он загрузится в сервис.
Укажите жанр (genre) и язык песни (language), если владеете этой информацией. Оставьте комментарий на английском языке (Comment), чтобы добавить каких-то деталей: где услышали песню и т. д. Возможно, это ускорит процесс распознания.
Нажмите «Confirm». Запись опубликуется на форуме.
Дождитесь, пока кто-то из пользователей напишет название и исполнителя трека. Количество прослушиваний будет отображаться на кнопке «Listen». Ответы сможете посмотреть через кнопку «Answer».

Если у вас есть готовая аудиозапись неизвестного происхождения, отправьте ее в сервис AudioTag. Он же подойдет для распознавания песен в YouTube-роликах. Либо запишите трек в режиме реального времени с помощью микрофона. Для этого подойдут такие программы и сервисы: Яндекс.Музыка, Shazam, SoundHound, Midomi. Если нет возможности включить трек, напойте его самостоятельно в микрофон. Система попробует найти композицию даже в этом случае.

Источник

Кто там? — Идентификация человека по голосу

Запись звука

Обработка звука

Разделяй и властвуй

Дискретное преобразование Фурье

Переход к мел-шкале

Получение вектора признаков

Так кто же все-таки говорил?

Кластеризация

Итоги

Литература:

Распознаем песню по звуку

Приложения

Алиса от Яндекс (и др. ассистенты)

Shazam (на Андроид)

SoundHound (Windows 10/Андроид)

Онлайн-сервисы

Midomi (по звуку через микрофон онлайн)

AudioTag (для MP3-файлов, онлайн-радио и пр.)

Насчет музыки из фильмов (если приложения не находят информацию по исполнителю)

Shazam

SoundHound

Голосовой ассистент Google

Источники звука для поиска музыки

Программы и онлайн-сервисы для распознавания музыки на ПК и телефоне

Через микрофон

Онлайн-сервис Midomi

Бот в Telegram

Приложение Яндекс.Музыка

Приложение SoundHound

Приложение Shazam

По файлу или ссылке

Онлайн-сервис AudioTag

Форум WatZatSong

Не пропустите также: