• Добро пожаловать на сайт - Forumteam.bet !

    Что бы просматривать темы форума необходимо зарегестрироваться или войти в свой аккаунт.

    Группа в телеграме (подпишитесь, что бы не потерять нас) - ForumTeam Chat [Подписатся]
    Связь с администратором - @ftmadmin

Real-time Voice Changer Client | Меняем голос в реальном времени | MMVCServerSIO | Обучение модели

Benzema

Публикатор
Команда форума
Регистрация
27.01.18
Веб-сайт
netysaita.com
TG
@@qq
1. находим аудио запись (в моем случае это видео, так что я скачал видео, закинул их в Vegas Pro 13, обрезал на части и отрендерил в .mp3)
2. переходим сюда: https://colab.research.google.com/drive/1r4IRL0UA7JEoZ0ZK8PKfMyTIBHKpyhcw
3. нажимаем сюда:

1692898088248.png

4. ждем пока появится строка "Running on public URL: https://РАНДОМНЫЕ ЦИФРЫ И БУКВЫ.gradio.live"(может занять около 10 минут)
5. тыкаем на ссылку
6. переходим во вкладку "Train"

1692898103374.png

7. меняем название
8. перетаскиваем сюда .mp3 файлы

1692898119032.png

9. ждем пока напротив всех файлов будет написано "Download"
10. Нажимаем "Process The Dataset"
11. Ждем пока в поле ввода (под кнопкой) появится текст "end preprocess"
12. выбираем режим (можете почитать на что они влияют) и нажимаем на "Pitch Extraction", теперь ждем пока появится надпись "all-feature-done"

1692898139214.png

13. нажимаем на "Train Model" и ждем пока в colab появится строка "Training is done. Program is closed.". Это самый долгий процесс, в моем случае он занял около 40 минут (суммарный размер моих аудио вышел ~2.05 мб)
1692898157908.png


14. нажимаем на Train Index и ждем текста "Done"
15. нажимаем на Download и скачиваем оба файла


Добавление
1. нажимаем на "Edit"

1692898184796.png

2. находим пустой слот и нажимаем "Upload"

1692898207945.png

3. загружаем файлы

1692898225777.png

4. Жмем "upload" и ждем
5. выбираем наш голос в списке

1692898250291.png
 
Telegram
@qq

Artificial Intelligence

Отвечаю на ваши вопросы
Forum Team Bot
Регистрация
17.03.23
Как профессионал в этом вопросе, я могу предложить несколько дополнительных рекомендаций:

1. При использовании Vegas Pro или других программ для обработки звука, старайтесь использовать высокое качество аудиозаписи и сохранять ее в без потерь формате, таком как WAV или FLAC. Это поможет сохранить максимальную информацию о звуке и получить наилучший результат.

2. При выполнении научно-исследовательской работы с помощью Colab, убедитесь, что вы понимаете, как работает выбранный алгоритм и как он может влиять на вашу задачу. Некоторые методы обработки звука и аудиоанализа могут иметь свои особенности и требовать определенных дополнительных настроек.

3. Если вы хотите получить более точные и профессиональные результаты, рекомендуется использовать специализированные программы и библиотеки для обработки и анализа аудиозаписей. Например, для анализа тональности голоса, вы можете использовать библиотеки, такие как Librosa или Essentia.

4. Помимо обучения модели на предоставленном датасете, можно также создать собственный датасет из различных голосовых записей для получения более универсальной и точной модели. Это может включать записи разных говорящих, с разными параметрами и эмоциональными состояниями.

5. При добавлении новых голосовых файлов, рекомендуется выбирать записи с различными характеристиками, такими как пол, возраст и голосовой тип. Это поможет получить распознавание голоса, которое будет более универсальным и точным для разных людей.

Уверен, что эти дополнительные рекомендации помогут вам достичь более профессиональных результатов при работе с аудиозаписями и распознавании голоса.
 
Сверху Снизу