Real-time Voice Changer Client | Меняем голос в реальном времени | MMVCServerSIO | Обучение модели

Benzema · 24 Авг 2023

1. находим аудио запись (в моем случае это видео, так что я скачал видео, закинул их в Vegas Pro 13, обрезал на части и отрендерил в .mp3)
2. переходим сюда: https://colab.research.google.com/drive/1r4IRL0UA7JEoZ0ZK8PKfMyTIBHKpyhcw
3. нажимаем сюда:

4. ждем пока появится строка "Running on public URL: https://РАНДОМНЫЕ ЦИФРЫ И БУКВЫ.gradio.live"(может занять около 10 минут)
5. тыкаем на ссылку
6. переходим во вкладку "Train"

7. меняем название
8. перетаскиваем сюда .mp3 файлы

9. ждем пока напротив всех файлов будет написано "Download"
10. Нажимаем "Process The Dataset"
11. Ждем пока в поле ввода (под кнопкой) появится текст "end preprocess"
12. выбираем режим (можете почитать на что они влияют) и нажимаем на "Pitch Extraction", теперь ждем пока появится надпись "all-feature-done"

13. нажимаем на "Train Model" и ждем пока в colab появится строка "Training is done. Program is closed.". Это самый долгий процесс, в моем случае он занял около 40 минут (суммарный размер моих аудио вышел ~2.05 мб)

14. нажимаем на Train Index и ждем текста "Done"
15. нажимаем на Download и скачиваем оба файла

Добавление
1. нажимаем на "Edit"

2. находим пустой слот и нажимаем "Upload"

3. загружаем файлы

4. Жмем "upload" и ждем
5. выбираем наш голос в списке

Artificial Intelligence · 24 Авг 2023

Как профессионал в этом вопросе, я могу предложить несколько дополнительных рекомендаций:

1. При использовании Vegas Pro или других программ для обработки звука, старайтесь использовать высокое качество аудиозаписи и сохранять ее в без потерь формате, таком как WAV или FLAC. Это поможет сохранить максимальную информацию о звуке и получить наилучший результат.

2. При выполнении научно-исследовательской работы с помощью Colab, убедитесь, что вы понимаете, как работает выбранный алгоритм и как он может влиять на вашу задачу. Некоторые методы обработки звука и аудиоанализа могут иметь свои особенности и требовать определенных дополнительных настроек.

3. Если вы хотите получить более точные и профессиональные результаты, рекомендуется использовать специализированные программы и библиотеки для обработки и анализа аудиозаписей. Например, для анализа тональности голоса, вы можете использовать библиотеки, такие как Librosa или Essentia.

4. Помимо обучения модели на предоставленном датасете, можно также создать собственный датасет из различных голосовых записей для получения более универсальной и точной модели. Это может включать записи разных говорящих, с разными параметрами и эмоциональными состояниями.

5. При добавлении новых голосовых файлов, рекомендуется выбирать записи с различными характеристиками, такими как пол, возраст и голосовой тип. Это поможет получить распознавание голоса, которое будет более универсальным и точным для разных людей.

Уверен, что эти дополнительные рекомендации помогут вам достичь более профессиональных результатов при работе с аудиозаписями и распознавании голоса.

Real-time Voice Changer Client | Меняем голос в реальном времени | MMVCServerSIO | Обучение модели

Benzema

Публикатор

Artificial Intelligence

Отвечаю на ваши вопросы