Автоматизація розшифровки (транскрібаціі) аудіо
Отже, в згаданих статтях сайту ми говорили про можливість набору тексту за допомогою голосового введення. Незважаючи на постійне вдосконалення технологій розпізнавання людської мови, все одно, друзі, поки що в цій справі маємо ще далекий від ідеалу інструментарій. Частково він обумовлений складністю самого російської мови. Мови з більш простим побудовою мовної моделі (з меншою кількістю словоформ) - наприклад, англійська, іспанська, італійська - штучним інтелектом розуміються більш коректно. І, відповідно, розпізнаються з меншим числом помилок. Так що який би інструмент голосового введення російською (або на іншому слов'янською мовою) ні використовувався, в його результуючої формі все одно доведеться щось правити - коригувати закінчення або навіть слова цілком, ставити розділові знаки і т.п. І при великих обсягах набору тексту голосом це стає проблемою. Не кожен зможе в єдиному процесі і диктувати свої думки, і тут же попутно вносити в розпізнаний текст правки. Альтернатива в такому випадку - розбивка процесу на два етапи: спочатку вільний виклад думок на диктофон, а потім подальша розшифровка аудіозапису за допомогою тих же інструментів розпізнавання людської мови. Ну і, природно, попутна правка тексту в результуючої формі.
Розшифровка відео і аудіо з текстовою фіксацією розмов учасників записів називається транскрібаціей. Транскрібація - ручний, дуже трудомісткий процес. Транскрібатору необхідно поетапно запам'ятовувати уривки запису, призупиняти відтворення і друкують запомненное в текстовому редакторі. Це монотонна робота, яка вимагає максимальної концентрації уваги. Особливо якщо якість відео- або аудіоісходніка залишає бажати кращого. Але це якщо працювати з розшифровкою розмов інших людей, записаних з перешкодами, трісками, слабким сигналом і т.п. З транскрібаціей власних диктувань, якщо вони будуть належної якості запису, і якщо левову частку роботи по розшифровці покласти на штучний інтелект, справи будуть простіше. З ручної роботи залишиться тільки корекція тексту.
Як зробити якісну аудіозапис? І як її потім транскрибувати в текст за допомогою технологій розпізнавання мовлення?
запис диктування
Щоб оцифрувати свої думки, не вдаючись до активної друку на клавіатурі, потрібно надиктувати їх в мікрофон або проговорити на відеокамеру. Для цього можна використовувати свій смартфон, а потім перенести файл аудіо- чи відеозапису на комп'ютер. Аудіозапис диктування також можна доручити будь-якого пристрою на базі Windows з вбудованим або підключеним мікрофоном. У числі штатних засобів Windows 7 для цих цілей є утиліта «Звукозапис».
А на борту Windows 10 - штатний універсальне додаток «Запис голосу».
У «Десятці» ще можна записувати і прослуховувати голосові замітки всередині програми OneNote.
У будь-якій з версій системи можна скористатися сторонніми програмами для запису звуку з мікрофону, наприклад, функціональним аудіоредактора Audacity.
Не має значення, який інструмент записи голосу ви, друзі, виберете. Це навіть може бути не аудіозапис, а відео, записане на веб-камеру або захоплене з екрану монітора. Аби таке відео було зі звуком. Важливо інше - щоб звук на виході був більш-менш чистим, без шумів і з прийнятним рівнем сигналу. Для цього перед аудіо- або відеозапис необхідно протестувати мікрофон, зокрема, щоб знайти прийнятне відстань від рота. При необхідності можна посилити чутливість мікрофона: на комп'ютері це робиться або в програмі, за допомогою якої здійснюється аудіозапис або захоплення екрану монітора, або в системних настройках звуку. В останньому випадку в області завдань Windows натискаємо правою клавішею миші на піктограму гучності і вибираємо «Записуючі пристрої».
Далі робимо подвійний клік по мікрофону.
У віконці його властивостей переходимо на вкладку «Рівні». Перетягуючи повзунок графи «Посилення мікрофона», додаємо дБ, тиснемо «Ок» і тестуємо звукозапис.
Спочатку підсилюємо на 10 дБ. Якщо сигнал як і раніше слабкий, можна довести його до 20 дБ. Більше додавати не потрібно, при посиленні до 30 дБ зазвичай з'являються шуми.
Записуємо диктовку і зберігаємо її.
Налаштування стереомікшера
Для транскрібаціі записаної диктування необхідно обдурити інструмент розпізнавання людської мови і підставити йому замість звуку з мікрофона звучання аудіо- чи відеозапису - тобто системний звук, той, що ми чуємо з динаміків нашого комп'ютера. Зробити це можна за допомогою стереомікшера. Як і під час налаштування мікрофону, викликаємо контекстне меню на піктограму гучності в області завдань Windows. І вибираємо «Записуючі пристрої».
Далі контекстне меню викликаємо на мікрофоні і відключаємо його.
А стереомікшер, навпаки, включаємо. Тиснемо «Ок» внизу віконця.
Що робити, якщо стереомікшера серед записуючих пристроїв системи немає? Необхідно перевстановити аудіодрайвер. Windows при автоматичній установці драйверів часто забезпечує тільки базові функції звучання. І оновлення або перевстановлення аудіодрайвер за допомогою системного диспетчера пристроїв зазвичай нічого не дає в цьому плані. Потрібно спочатку видалити аудіодрайвер. А потім відправитися на сайт материнської плати, ноутбука або дискретної аудіокарти, скачати інсталятор аудіодрайвер і встановити його.
В крайньому випадку можна вдатися до універсальної утиліти High Definition Audio Codecs від Realtek. Йдемо на сайт Realtek:
http://www.realtek.com.tw/downloads
Кількома назву утиліти.
Погоджуємося з тим, що ми розуміємо, що завантажувати будемо НЕ аудіодрайвер конкретно для нашого комп'ютера, а універсальну утиліту для всіх пристроїв поспіль. Тиснемо «Next».
Вибираємо 32- або 64-бітну редакцію утиліти, викачуємо її.
Встановлюємо в систему, перезавантажуємо комп'ютер.
Транскрібація аудіо
Отже, в системних настройках звуку мікрофон відключений, а стереомікшер включений. Далі запускаємо інструмент розпізнавання мови, наприклад, веб-сервіс Speechpad.Ru ( «Голосовий блокнот») і тиснемо кнопку «Включити запис».
Потім в будь-якому плеєрі запускаємо відтворення записаного на попередньому етапі аудіо або відео. Все - процес пішов. Готовий текст будемо спостерігати в результуючої формі. Відтворення диктування необхідно періодично припиняти, щоб коригувати окремі блоки розпізнаного тексту.
У Speechpad.Ru, до речі, є альтернатива з більш вдалою реалізацією результуючої форми розпізнаного тексту. Це розширення для Chromium-браузерів «Войснот II».
Воно реалізує в середовищі Windows окреме Chrome-додаток за типом текстового редактора з підтримкою голосового введення. У цьому додатку можна зберігати розпізнаний текст в якості нотаток, формувати словники для автозаміни значень, налаштувати форматування тексту результуючої форми та ін. Активація розпізнавання голосу (або, як в нашому випадку, системного звучання) в цьому Chrome-додатку здійснюється кнопкою зі значком мікрофона.
Як зробити якісну аудіозапис?І як її потім транскрибувати в текст за допомогою технологій розпізнавання мовлення?
Що робити, якщо стереомікшера серед записуючих пристроїв системи немає?