Le son

Préparation des fichiers sonores

Etiquetage, analyses

  • Scripts : le langage de scripts intégré à Praat facilite de nombreuses tâches. Il est basé sur les commandes de l'interface graphique. Toutefois l'interface utilisateur et le langage sont spécifiques à Praat. Il est toutefois très simple d'extraire des données des fichiers TextGrid résultant de l'étiquetage des sons pour des traitements par d'autres programmes comme R (pour les durées par exemple). C'est ce que nous avons fait pour PPMC. Pour trouver des scripts :
    http://www.helsinki.fi/~lennes/praat-scripts/
    http://ed268.univ-paris3.fr/lpp/pages/EQUIPE/gendrot/page_web/scripts.htm
  • AKUSTYK pour Praat. Akustyk est un paquet de logiciels complet d'analyse de voyelles. Il s'installe comme un greffon sur le logiciel Praat. Il a été conçu pour faciliter l'analyse acoustique de grands ensembles de données. Akustyk permet de préparer les fichiers audio pour l'analyse et de produire des images et des graphiques de haute qualité. Akustyk est particulièrement utile aux chercheurs travaillant dans le domaine de la sociophonétique, mais il peut être utilisée avec succès dans d'autres domaines. Akustyk est utilisé pour la recherche et comme outil d'enseignement.
    Akustyk est gratuit et open-source. http://bartus.org/akustyk/
  • Wavesurfer : un outil d'analyse, annotation et transcription des sons. Il permet la création de bases de données au format HTK (et MLF), TIMIT, ESPS/Waves+, et Phondat. http://www.speech.kth.se/wavesurfer/
  • WinSnoori : http://www.loria.fr/~laprie/WinSnoori/ Logiciel libre pour l'analyse de la parole. Il fonctionne avec Windows™ mais une version JAVA™semble en préparation qui devrait lui permettre de fonctionner sur tout système supportant une machine virtuelle JAVA™ et même en réseau sur internet.
  • EMU, EMU est une collection d'outils logiciels pour la création, manipulation et analyse de bases de données de sons de parole. EMU est un moteur de recherche qui comprend une étiqueteuse interactive permettant d'afficher des spectrogrammes et les formes d'onde du discours en vue de la création, du classements hiérarchiques et/ou séquentiels des étiquettes pour la prononciation.
    EMU s'interface avec Splus™ et R.
    Emu-R est un ensemble de programmes en langage R pour l'analyse des discours de toute base de données pouvant être lue par le système EMU.
  • Matching Pursuit : MPTK est au coeur de notre méthode d'analyse des sons PMPC.
    Guimauve est un petit programme pour s'initier à Matching Pursuit et faire de belles images. Il nécessite de convertir les sons en ASCII avec Sox par exemple.
    LastWave est un autre programme de Matching Pursuit.
    TFTB est une collection de plus de 100 scripts pour GNU Octave et Matlab®, pour l'analyse en temps-fréquence des signaux non-stationnaires. Elle est destinée aux chercheurs, ingénieurs et étudiants.

Synthèse/reconnaissance de la parole

Synthèse

Reconnaissance vocale

  • CMU Sphinx est certainement le système gratuit et open source le plus développé actuellement. Il dispose de nombreux outils pour créer des bases de reconnaissance et il est utilisable pour la Recherche comme en production.
  • Boite à outils NICO réservé aux programmeurs

Lecture et diffusion de fichiers sonores et video

  • VLC : lecteur multiformats pour le son et la vidéo http://www.videolan.org/vlc/. VLC permet également de diffuser sons et vidéos en réseau.
 
son.txt · Dernière modification: 28/01/2012 19:17 par cege
 
Sauf mention contraire, le contenu de ce wiki est placé sous la licence suivante :GNU Free Documentation License 1.3
Recent changes RSS feed Donate Powered by PHP Valid XHTML 1.0 Valid CSS Driven by DokuWiki