procesamiento de audio (intro)
TRANSCRIPT
-
7/26/2019 Procesamiento de Audio (Intro)
1/14
Procesamiento de
audioHelenca Duxans BarrobsMarta Ruiz Costa-juss
PID_00154788
-
7/26/2019 Procesamiento de Audio (Intro)
2/14
CC-BY-NC-ND PID_00154788 Procesamiento de audio
Helenca Duxans Barrobs Marta Ruiz Costa-juss
El encargo y la creacin de este material docente han sido coordinadospor el profesor: David Garca Solrzano (2012)
Primera edicin: febrero 2012 Helenca Duxans Barrobs, Marta Ruiz Costa-jussTodos los derechos reservados de esta edicin, FUOC, 2012Av. Tibidabo, 39-43, 08035 BarcelonaDiseo: Manel AndreuRealizacin editorial: Eureca Media, SLDepsito legal: B-3.154-2012
Los textos e imgenes publicados en esta obra estn sujetos excepto que se indique lo contrario a una licencia deReconocimiento-NoComercial-SinObraDerivada (BY-NC-ND) v.3.0 Espaa de Creative Commons. Podis copiarlos, distribuirlosy transmitirlos pblicamente siempre que citis el autor y la fuente (FUOC. Fundacin para la Universitat Oberta de Catalunya),no hagis de ellos un uso comercial y ni obra derivada. La licencia completa se puede consultar en http://creativecommons.org/licenses/by-nc-nd/3.0/es/legalcode.es
http://creativecommons.org/licenses/by-nc-nd/3.0/es/legalcode.es -
7/26/2019 Procesamiento de Audio (Intro)
3/14
CC-BY-NC-ND PID_00154788 3 Procesamiento de audio
Introduccin
Esta asignatura es una continuacin de Seales y sistemas I y II, y al mismo tiem-po se presenta como un complemento perfecto de la asignaturaProcesamiento
de imagen, por lo que dota a los estudiantes de unos conocimientos transver-
sales del mbito del procesamiento de la seal. Por lo tanto, una asignatura
como esta es fundamental para cualquier ingeniero del itinerario de Audiovi-
suales del grado de Tecnologas de Telecomunicacin, y que, probablemente,
utilizar el conocimiento adquirido en esta asignatura en algn momento de
su vida profesional.
El procesamiento de audio incluye diferentes aplicaciones tecnolgicas, como
la reproduccin de msica en alta fidelidad, el reconocimiento del habla o la
sntesis del habla. Esta asignatura, en concreto, pretende combinar una expli-
cacin terica de los principales conceptos del procesamiento de audio y ver
sus aplicaciones ms relevantes, con una vertiente prctica que permita lograr
mejor algunos de los conceptos expuestos.
Finalmente, hemos de comentar que esta asignatura es una de las tres de au-
dio que hay en el itinerario de Audiovisuales, junto a las deAcsticay Elec-
troacstica. Por lo tanto, al acabar el grado, el estudiante tendr un amplio
conocimiento del mbito del audio, que ir desde tratar la seal de audio (loveremos en esta asignatura) y condicionar espacios (Acstica) hasta conocer el
funcionamiento de varios dispositivos de captacin y transmisin de la seal
acstica (Electroacstica).
Estos apuntes pretenden ser una introduccin experimental al procesamiento
de audio. Estn organizados en tres bloques principales y cada bloque est
dividido en mdulos. Cada mdulo contiene teora, ejemplos, resmenes y
ejercicios. Asimismo, os presentamos continuamente bibliografa de referencia
por si queris ampliar conocimientos.
El primer bloque presenta, en el primer mdulo, conceptos ya vistos sobre
seales y sistemas, y en el segundo mdulo, explica el diseo de filtros.
El primer mdulohace un repaso de los principales conceptos de seales y
sistemas que usaremos en esta asignatura. Bsicamente incluye los contenidos
siguientes: la definicin y clasificacin de seal y sistema; la caracterizacin
de seales y sistemas mediante la transformada de Fourier y la transformada
Z; as como la conversin entre el dominio analgico y discreto.
El segundo mduloexplica el diseo de filtros. El objetivo principal del m-
dulo es explicar la teora bsica de diseo de filtros digitales y analgicos.
Concretamente, se pretende dar al estudiante la capacidad de aprender a utili-
-
7/26/2019 Procesamiento de Audio (Intro)
4/14
CC-BY-NC-ND PID_00154788 4 Procesamiento de audio
zar cualquier softwarede diseo de filtros y que as pueda disear sus propios
filtros dadas unas especificaciones concretas. Asimismo, se combina la teora
y la prctica del diseo de filtros con el estudio de diferentes utilidades de los
filtros digitales y analgicos en el rea de procesamiento de la seal de audio.
A continuacin, entramos en el bloque 2, que se centra en desarrollar con-ceptos de audio. Por lo tanto, es el bloque ms largo de los tres. Este bloque
incluye los mdulos 3, 4 y 5.
El tercer mdulolleva a cabo una introduccin a la acstica. Se desarrollan
en l conceptos como qu es el sonido y cmo lo percibimos, medimos, se
genera y se propaga. Concretamente, estudiaremos cmo funciona la acstica
fisiolgica, es decir, de qu modo percibe el sonido el odo humano, cmo
emite el sonido el sistema de fonacin humana y cul es la directividad de
la voz humana. Dentro de las herramientas de percepcin del sonido defini-
remos las curvas isofnicas, los filtros de ponderacin y el nivel de ruido de
fondo, y dentro de la medicin del sonido veremos el sonmetro. Tambin
analizaremos la tipologa de fuentes sonoras existentes y el comportamiento
que tienen en diferentes tipos de recintos. Por ltimo, veremos cmo se pro-
paga el sonido y qu son la reverberacin y la inteligibilidad del sonido.
El cuarto mdulopresenta el proceso de codificacin que sigue la seal de
audio para almacenarse o transmitirse digitalmente. Veremos la cuantificacin
digital y algunos conceptos que estn relacionados, como el sobremuestreo,
el tramado (dithering) y la conformacin del ruido (noise shaping). Tambinconoceremos las codificaciones principales que actualmente se utilizan para
el audio y distinguiremos entre codificadores de audio generalistas y codifica-
dores especficos para la voz. En este mdulo veremos cmo se utiliza la psi-
coacstica, es decir, las caractersticas de la percepcin del sonido en el odo
humano, para mejorar la eficiencia de los codificadores. Finalmente, la ltima
parte del cuarto mdulo est dedicada a presentar los formatos de ficheros de
audio ms utilizados en el mundo digital, para almacenamiento o transmisin,
sobre todo en el mbito de redes IP, como Internet.
En el quinto mduloconoceremos un ejemplo real del modo como se aplica lateora vista en los mdulos anteriores en el campo del procesamiento de audio:
la creacin de efectos sonoros. Despus de presentar qu es un efecto digital de
audio haremos una pequea introduccin a los efectos digitales de audio ms
habituales, sobre todo en el mundo de la produccin musical, proporcionando
junto a las bases tericas del procesamiento digital de la seal de los sistemas
que los generan ejemplos y referenciando creaciones musicales que puedan
resultaros fciles de encontrar.
El tercer bloque de la asignatura presenta dos aplicaciones de procesamiento
de audio, pero centradas en el mbito del habla: el reconocimiento y la sntesis
del habla. Este bloque est formado por los mdulos 6, 7 y 8.
-
7/26/2019 Procesamiento de Audio (Intro)
5/14
CC-BY-NC-ND PID_00154788 5 Procesamiento de audio
El sexto mduloes un mdulo introductorio a las caractersticas del habla que
nos permitir tener los conocimientos bsicos para entender los fundamentos
de las tcnicas presentadas en los mdulos siguientes. Antes de nada, veremos
cmo se produce la voz en el sistema fonador humano y cules son las carac-
tersticas acsticas de la voz. Por ltimo, haremos el paso entre la acstica y
la fontica para presentar cmo se clasifican fonticamente todos los sonidosque somos capaces de articular.
En el sptimo mdulointroducimos el concepto de reconocimiento autom-
tico del habla y haremos un repaso de las tcnicas ms importantes. Concre-
tamente, analizaremos dos de las etapas de los reconocedores: la extraccin
de caractersticas acsticas sobre las que se basar el reconocimiento y el al-
goritmo de reconocimiento. Veremos cmo se puede transformar el reconoci-
miento en un problema de bsqueda, utilizando modelos acsticos y modelos
de lenguaje valorados previamente para reducir su complejidad. Por ltimo,
conoceremos las herramientas que nos permiten medir el grado de bueno
de un reconocedor.
El octavo mduloest dedicado a la sntesis del habla. Concretamente, ve-
remos los convertidores de texto a voz, cuya finalidad es transformar en voz
cualquier texto escrito. Dentro de todas las tcnicas que hay para sintetizar
voz, este mdulo focaliza el tema en los sistemas de sntesis por concatena-
cin, resaltando la importancia que tiene el corpus (o base de datos), tanto
en la seleccin de los segmentos que se deben concatenar como en la calidad
final de la voz sintetizada. Como en el mdulo sptimo, proporcionaremosherramientas para medir la calidad de los convertidores de texto a voz para
poderlos comparar entre s.
-
7/26/2019 Procesamiento de Audio (Intro)
6/14
CC-BY-NC-ND PID_00154788 6 Procesamiento de audio
Actividades
Conceptos de seales y sistemas
1.Dibujad una seal analgica, una seal discreta en tiempo y una seal digital.
2.Qu puede ayudar a mejorar la reconstruccin ideal, si nos fijamos en el convertidor A/D?
Diseo y anlisis de filtros en procesamiento de audio
3.Cul es la respuesta impulsional del filtro paso bajo ideal? Razonad por qu no es realizableun filtro paso bajo ideal.
4.Haced un filtro paso bajo de orden 2 siguiendo el esquema del ejemplo [SLPF], con coefi-ciente . Qu se obtiene?
5.Hemos visto el diseo de dos grandes tipos de filtros: FIR e IIR. En esta actividad queremoscomparar estas dos variantes de filtros. La comparativa la llevaremos a cabo mediante laherramienta del FDAtool ayudndonos del ejemplo del apartado 5.2.2.
En primer lugar, se pide que diseis con FDAtool un filtro paso banda con banda de pasoentre 4 kHz y 8 kHz, y atenuacin de 6 dB en las frecuencias de 2 kHz y 10 kHz. Comparad
diferentes mtodos FIR e IIR. Cul es el mtodo que requiere un orden ms bajo para cumplirlas especificaciones? Cul en este orden? Visualizad la resposta impulsional.
En segundo lugar, se pide que definis unas especificaciones para un filtro paso alto. Uti-lizad nuevamente FDAtool para disear un filtro IIR. Experimentad qu aproximacin(Butterworth,Txebyxev, inversa de Txebyxev o Cauer) cumple las especificaciones con el m-nimo orden y por qu.
6.Demostrad que la respuesta impulsional de un filtro IIR tiene un nmero infinito de mues-tras diferentes de cero.
Introduccin a la acstica
7.En el diseo acstico de teatros, auditorios o cines, es muy importante tener en cuenta loscoeficientes de absorcin de los materiales (como butacas, cortinas o moqueta) que se ponen
en las salas. Buscad en sengpielaudio.comy poned un ejemplo de material muy absorbente(con un ), un material medianamente absorbente ( ) y un material pocoabsorbente ( ). Considerad como frecuencia 1 kHz.
8.Los fenmenos de reververacin y eco dependen del solapamiento del sonido directo y re-flejado. Vamos a analizar estos conceptos con un ejemplo prctico. Si la velocidad del sonidoes de 350 m/s y el objeto reflector introduce un camino extra de 10 m respecto al caminodirecto, qu retraso tendr la seal reflejada respecto a la seal directa? Se puede considerareco o ser reverberacin? Qu sucede si el objeto reflector se encuentra a 50 m de la fuente?Realizad la comprobacin con Audacity.
9.Sabemos que hay diferentes formas de calcular el tiempo de reverberacin. Vamos a ana-lizarlas y compararlas con un ejemplo prctico.Tenemos una sala rectangular de 3 4 5 m(altura anchura profundidad). El techo es de madera; las paredes, de vidrio, y el suelo,de parqu. Calculad el tiempo de reverberacin para las frecuencias de 125 Hz, 250 Hz y 500Hz, segn Sabine, Eyring y Millington. Comentad si los tiempos que se obtienen son igualeso diferentes y por qu.
La tabla siguiente muestra los coeficientes de absorcin de los diferentes materiales utilizados:
Coeficientede absorcin
125 Hz 250 Hz 500 Hz
Madera 0,15 0,11 0,10
Vidrio 0,18 0,06 0,04
Parqu 0,04 0,04 0,07
Codificacin del audio
http://www.sengpielaudio.com/calculator-rt60coeff.htmhttp://www.sengpielaudio.com/calculator-rt60coeff.htm -
7/26/2019 Procesamiento de Audio (Intro)
7/14
CC-BY-NC-ND PID_00154788 7 Procesamiento de audio
10.Escribid la secuencia de 0 y 1 de la seal codificada de la siguiente figura:
11.Qu cambios introduce la cuantificacin logartmica en un cuantificador uniforme paraque este cuantificador uniforme sea no uniforme?
12.Pensad cmo afecta aumentar el nmero de bits por muestra y la frecuencia de muestreoen la cantidad de memoria necesaria para almacenar el audio codificado. Haced estas compa-raciones para calidad CD (16 bits por muestra y 44,1 kHz) y para 24 bits por muestra y 96 kHz:
a)30 minutos de msica estreo.
b)Y si lo guardbamos en formato MP3, con una tasa de bits de 128 kbps, cul sera el factor
de compresin?
Efectos digitales de la seal de audio
13.Identificad los efectos siguientes:
Audio original Audio con efecto Tipo de efecto
1 1
2 2
3 3
14.Cul es el diagrama de bloques de un sistema digital que introduce tres ecos en un audiooriginal y que aplica un trmolo solo al audio original?
15.Cread un efecto sonoro con Audacity. Abrid Audacity y grabad una palabra cualquiera.Seleccionad la seal grabada y aadid el efecto eco. Podis jugar con el factor de atenuacin(inverso de la ganancia) y el tiempo de retraso (siempre mayor de 50 milisegundos) para vercmo se modifica la seal. Ahora aadid un eco con un retraso de menos de 50 milisegundos.Notis alguna diferencia?
Reconocimiento automtico del habla
16.Los reconocedores de palabras clave, denominados tambin word spotting, se disean paradetectar solo las palabras que el usuario indica al sistema, y por lo tanto ignora el resto dela voz. Entre las posibles implementaciones de estos reconocedores existe toda una familia
que se basa en hacer modelos HMM de toda la palabra clave que se ha de detectar. Estosmodelos, junto con modelos fillero garbage, que modelan el resto de la voz que no es unapalabra clave, se utilizan en el bloque de descodificacin para encontrar una transcripcindel tipo siguiente: palabra clave, filler+ palabra clave, filler+ palabra clave + fillero palabra
http://localhost/var/www/apps/conversion/img/exercici_original1.mp3http://localhost/var/www/apps/conversion/img/exercici_efecte1.mp3http://localhost/var/www/apps/conversion/img/exercici_original2.mp3http://localhost/var/www/apps/conversion/img/exercici_efecte2.mp3http://localhost/var/www/apps/conversion/img/exercici_original3.mp3http://localhost/var/www/apps/conversion/img/exercici_efecte3.mp3http://localhost/var/www/apps/conversion/img/exercici_efecte3.mp3http://localhost/var/www/apps/conversion/img/exercici_original3.mp3http://localhost/var/www/apps/conversion/img/exercici_efecte2.mp3http://localhost/var/www/apps/conversion/img/exercici_original2.mp3http://localhost/var/www/apps/conversion/img/exercici_efecte1.mp3http://localhost/var/www/apps/conversion/img/exercici_original1.mp3 -
7/26/2019 Procesamiento de Audio (Intro)
8/14
CC-BY-NC-ND PID_00154788 8 Procesamiento de audio
clave + filler. Indicad los pasos necesarios para introducir una palabra clave nueva en estetipo de sistemas.
17.Calculad el porcentaje de error de insercin, sustitucin y eliminacin para la transcrip-cin siguiente. Cul es el valor de la WER?
Transcripcin de referencia: a la reunin asistieron diez personas. Transcripcin automtica: en la reunin dijeron s diez personas.
18.Buscad dos reconocedores del habla que incluyan el castellano entre los idiomas quereconocen.
Sntesis del habla
19.Identificad qu bloques de un TTS basado en concatenacin acstica hay que modificarpara introducir una voz en un idioma nuevo. Y si se quiere introducir una voz nueva, peroen un idioma de los que ya existen?
20.Buscad los puntos de sntesis y la secuencia de ventanas que se han de concatenar parala seal de voz siguiente, si se quiere hacer una modificacin de velocidad constante de 1,4(es decir, una modificacin de duracin de 1/1,4) y una modificacin de altura tonal de 1,1.
Instantes de anlisis: 300 ms, 309 ms, 318 ms, 327 ms, 335,5 ms, 344 ms, 352 ms, 360 msy 368 ms.
-
7/26/2019 Procesamiento de Audio (Intro)
9/14
CC-BY-NC-ND PID_00154788 9 Procesamiento de audio
Solucionario
Conceptos de seales y sistemas
2.Por ejemplo, utilizar un cuantificador de ms bits.
Diseo y anlisis de filtros en procesamiento de audio
3.Es una sinc centrada en su origen. No es realizable porque la respuesta impulsional esinfinita.
4.y[n] = {1,3,6,9,12,15,18,21,24,27} (v(n) = [0;0], b = [1,1,1], M = 2)]
5.IIR elptico de orden 4.
6.Cauer requiere el mnimo orden porque tiene un comportamiento con rizado de amplitudconstante en las bandas de paso y atenuada.
Introduccin a la acstica
7.Material muy absorbente: fibra de vidrio.
Material medianamente absorbente: alfombra sobre cemento.
Material poco absorbente: mrmol.
8.En el primer caso, el retraso es de 28 ms; por lo tanto, se considera reverberacin.
En el segundo caso, el retraso es de 142 ms; por lo tanto, se considera eco.
9.
TR (s) 125 250 500
Sabine 0,77 1,64 1,82
Eyring 0,73 1,58 1,76
Millington 0,71 1,57 1,75
Codificacin del audio
10.
0111 1001 1011 1100 1101 1110 1110 1111 1111 1111 1110 1110 1101 1100 1010 1001 01110110 0101 0011 0010 0001 0000 0000 0000 0000 0000 0001 0001 0010 0011 0101 0110
11.El cuantificador logartmico incorpora previamente al cuantificador uniforme una etapa
de compresin y a la salida del cuantificador uniforme aade una expansin logartmica quemodifica la seal.
12.
a)Calidad CD: 2.540.160.000 bits; para la otra codificacin: 4.147.200.000 bits.
b)230.400.000 bits, factor de compresin para calidad CD 11,025; para la otra codificacin:18.
Efectos digitales de la seal de audio
13.Wah-wah, trmolo, eco.
14.
-
7/26/2019 Procesamiento de Audio (Intro)
10/14
CC-BY-NC-ND PID_00154788 10 Procesamiento de audio
15.Cuando el tiempo de retraso es ms pequeo de 50 milisegundos, el efecto que se percibees una reverberacin.
Reconocimiento automtico del habla
16.
1.Generar la transcripcin fontica de la palabra clave.
2.Incluir la palabra clave en el diccionario del modelo de lenguaje.
3.Generar el HMM de la palabra clave. Si podemos hacer grabaciones nuevas: hacer mlti-ples grabaciones con diferentes usuarios de la palabra clave, procesar el audio y extraer losMFCC y entrenar un nico HMM. Si no podemos hacer grabaciones nuevas: generar el HMMconcatenando los HMM de los trifonemas que forman la palabra clave.
4.Incluir el HMM generado en el modelo acstico del reconocedor de palabras clave.
5.Opcionalmente, volver a valorar el HMM fillero los HMM filler.
Todos los cambios en el reconocedor de palabras clave se llevan a cabo en la fase de entrena-miento. La fase de ejecucin del sistema contina igual.
17.
Porcentaje de error de insercin: 1/7 * 100 = 14,29%
Porcentaje de error de sustitucin: 1/7 * 100 = 14,29%
Porcentaje de error de omisin: 1/7 * 100 = 14,29%
WER = 42,86%
18.
Veamos algn ejemplo:
Nuance
Loquendo
Microsoft
IBM
Verbio
Sntesis del habla
19.Para una voz nueva en un idioma nuevo:
Todo el mdulo de procesamiento de lenguaje natural: el analizador morfosintctico, el trans-criptor fontico y el generador prosdico. El corpus de unidades acsticas (diseo del corpus+ grabacin + etiquetado).
http://shop.nuance.es/drhm/store?Action=DisplayCategoryProductListPage&SiteID=nuanceeu&Locale=se_SE&Env=BASE&categoryID=13534600http://www.loquendo.com/en/technology/asr_specifications.htmhttp://www.microsoft.com/enable/products/windowsvista/speech.aspxhttp://www-01.ibm.com/software/pervasive/embedded_viavoice/about/http://www.verbio.com/webverbio3/html/productes.php?id=2#http://www.verbio.com/webverbio3/html/productes.php?id=2#http://www-01.ibm.com/software/pervasive/embedded_viavoice/about/http://www.microsoft.com/enable/products/windowsvista/speech.aspxhttp://www.loquendo.com/en/technology/asr_specifications.htmhttp://shop.nuance.es/drhm/store?Action=DisplayCategoryProductListPage&SiteID=nuanceeu&Locale=se_SE&Env=BASE&categoryID=13534600 -
7/26/2019 Procesamiento de Audio (Intro)
11/14
CC-BY-NC-ND PID_00154788 11 Procesamiento de audio
Para una voz nueva en un idioma que ya existe:
El corpus de unidades acsticas (grabacin + etiquetado).
20.Primer instante de sntesis: 300 ms.
Primera ventana: 0.
Segundo instante de sntesis: 300 ms + (309 300)/1,1 = 308,18 ms.
Instante virtual central de la segunda ventana: 308,18 + (308,18 300) * 1,4 = 311,45 ms.
Segunda ventana: 1 (ventana con instante central ms cercano a 311,45 ms).
Tercer instante de sntesis: 308,18 + (318 309)/1,1 = 316,36 ms.
Instante virtual central de la tercera ventana: 316,36 + (316,36 308,18) * 1,4 = 327,81 ms.
Tercera ventana: 3 (ventana con instante central ms cercano a 327,81 ms).
Cuarto instante de sntesis: 316,36 + (335,5 327)/1,1 = 324,09 ms.
Instante virtual central de la cuarta ventana: 324,09 + (324,09 316,36) * 1,4 = 334,91 ms.
Cuarta ventana: 4 (ventana con instante central ms cercano a 334,91 ms).
Quinto instante de sntesis: 324,09 + (344 335,5)/1,1 = 331,82 ms.
Instante virtual central de la quinta ventana: 331,82 + (331,82 324,09) * 1,4 = 342,64 ms.
Quinta ventana: 5 (ventana con instante central ms cercano a 342,64 ms).
Sexto instante de sntesis: 331,82 + (352 344)/1,1 = 339,09 ms.
Instante virtual central de la sexta ventana: 339,09 + (339,09 331,82) * 1,4 = 349,27 ms.
Sexta ventana: 6 (ventana con instante central ms cercano a 349,27 ms).
Sptimo instante de sntesis: 339,09 + (360 352)/1,1 = 346,36 ms.
Instante virtual central de la sptima ventana: 346,36 + (346,36 339,09) * 1,4 = 356,54 ms.
Sptima ventana: 7 (ventana con instante central ms cercano a 356,54 ms).
-
7/26/2019 Procesamiento de Audio (Intro)
12/14
CC-BY-NC-ND PID_00154788 12 Procesamiento de audio
Contenidos
Mdulo didctico 1Conceptos de seales y sistemas
Marta Ruiz Costa-juss y Helenca Duxans Barrobs
1. Seales y sistemas
2. Transformacin del dominio temporal al dominio frecuencial
Mdulo didctico 2
Diseo y anlisis de filtros en procesamiento de audio
Marta Ruiz Costa-juss y Helenca Duxans Barrobs
1. Concepto y tipos de filtros. Por qu se debe aprender cmo funciona
un filtro?2. Conceptos bsicos para el diseo de filtros digitales
3. Filtros reales: plantilla de especificacin de un filtro
4. Diseo de filtros digitales
5. De la teora a la prctica
Mdulo didctico 3
Introduccin a la acstica
Marta Ruiz Costa-juss y Helenca Duxans Barrobs
1. Definicin y caracterizacin del sonido y del ruido
2. Percepcin humana del sonido. Fenmenos sonoros3. Fuentes sonoras y propagacin del sonido
Mdulo didctico 4
Codificacin del audio
Marta Ruiz Costa-juss y Helenca Duxans Barrobs
1. Introduccin al audio digital
2. Cuantificacin
3. Cuantificacin inversa
4. Procesos del audio digital
5. Clasificacin de los codificadores de audio6. Codificadores de forma de onda
7. Codificadores perceptivos
8. Codificaciones especficas para voz
9. Formatos de ficheros de audio
Mdulo didctico 5
Efectos digitales de la seal de audio
Helenca Duxans Barrobs y Marta Ruiz Costa-juss
1. Introduccin y clasificacin de los efectos digitales de audio
2. Efectos sonoros basados en retardadores
3. Efectos sonoros basados en moduladores
4. Efectos sonoros basados en sistemas lineales
-
7/26/2019 Procesamiento de Audio (Intro)
13/14
CC-BY-NC-ND PID_00154788 13 Procesamiento de audio
5. Efectos sonoros basados en sistemas no lineales
6. Otros tipos de efectos
Mdulo didctico 6
Introduccin al habla
Helenca Duxans Barrobs y Marta Ruiz Costa-juss1. Introduccin a las tecnologas del habla
2. La produccin de la voz en tres pasos
3. Propiedades acsticas de la seal de voz
4. Clasificacin fontica de los sonidos
5. Unidades acsticas utilizadas en las tecnologas del habla
Mdulo didctico 7
Reconocimiento automtico del habla
Helenca Duxans Barrobs y Marta Ruiz Costa-juss
1. Introduccin al reconocimiento automtico del habla2. Aplicaciones de los reconocedores automticos del habla
3. Funcionamiento bsico de los reconocedores
4. El mdulo de extraccin de caractersticas
5. El mdulo de descodificacin
6. Tcnicas de adaptacin
7. Evaluacin de la transcripcin automtica
Mdulo didctico 8
Sntesis del habla
Helenca Duxans Barrobs y Marta Ruiz Costa-juss1. Introduccin a la sntesis del habla
2. Aplicaciones de los convertidores de texto a voz
3. Los convertidores de texto a voz
4. Sntesis por concatenacin
5. Modificaciones prosdicas
6. Medidas de calidad de la voz sintetizada
-
7/26/2019 Procesamiento de Audio (Intro)
14/14
CC-BY-NC-ND PID_00154788 14 Procesamiento de audio
Bibliografa
Carrin Isbert, A. (1998).Diseo acstico de espacios arquitectnicos. Barce-
lona: Edicions UPC.
Cremer, L.; Muller, H. A. (1982). Principles and Applications of Room
Acoustics(vol. 1). Londres: Applied Science Publishers.
ETSI SE 202 050 V1.1.1(2002-2010). Speech processing, transmission and
quality aspects (STQ); distributed speech recognition; advanced frente-end
feature extraction algorithm; compression algorithms (ref. DES/STQ-00008)
Franco Contadini, M. (2010). Oversampling with averaging to increase
ADC resolution.
Gonzlez, M. D. (2006). Comparacin de filtros FIR de fase lineal, por M-
todo ptimo y de Ventanas.
Iosu, D. (1999). Anlisis de Fourier.
Irizar Picn, A.(2002). Tratamiento Digital de Seal.
Kompis, M.; Dillier, N. (1993). Simulating transfer functions in a reverbe-
rant room including source directivity and head-shadow effects.JASA(nm.
93, pg. 2779-2787).
Lamba, D.(2010). Audio Signal Filtering.
Mario, J. B. y otros(1999). Tratamiento digital de la seal: una introduccin
experimental. Barcelona: Edicions UPC.
McClellan, J. H.; Parks, T. W. (2005). A personal history of the Parks-
McClellan algorithm. Signal Processing Magazine, IEEE(vol. 22, nm. 2, marzo,
pg. 82-86). Atlanta, GA, EE. UU.: Georgia Institute of Technology.
Molina, R.(2008). Cuantificacin Escalar.
Moreno, A.(2003). Cuantificacin. Universitat Politcnica de Catalunya.
Wagner, B.; Barr, M.(2007). Filtres FIR i IIR.
Proakis, J. G.; Manolakis, D. G.(2007). Tratamiento digital de seales. Ma-
drid: Pearson Prentice Hall.
Smith, J. O. (2008, octubre). Spectral Audio Signal Processing.
Smith, J. O.(2011). . Amplitude response.
wikipedia.org(2012). Filtros analgicos.
Zawistowski, Th.; Shah, P.(2005). An Introduction to Sampling Theory.
http://www.eetimes.com/design/industrial-control/4008894/oversampling-with-averaging-to-increase-adc-resolution?pageNumber=1http://www.eetimes.com/design/industrial-control/4008894/oversampling-with-averaging-to-increase-adc-resolution?pageNumber=1http://ewh.ieee.org/sb/argentina/comahue/ed2/trabajos/rate06_05.pdfhttp://ewh.ieee.org/sb/argentina/comahue/ed2/trabajos/rate06_05.pdfhttp://www.euskalnet.net/iosus/speech/fourier.htmlhttp://www.tecnun.es/asignaturas/tratamiento%20digital/tds5.htmlhttps://kiwi.ecn.purdue.edu/rhea/index.php/audio_Signal_Filteringhttp://ieeexplore.ieee.org/xpl/recentissue.jsp?punumber=79http://decsai.ugr.es/ccd/transparencias/07%20cuantificacion_escalar.pdfhttp://gps-tsc.upc.es/veu/personal/asuncion/curso.php3http://www.netrino.com/Embedded-Systems/How-To/Digital-Filters-FIR-IIRhttp://ccrma.stanford.edu/jos/sasphttps://ccrma.stanford.edu/~jos/filters/Amplitude_Response_I_I.htmlhttp://en.wikipedia.org/wiki/file:Electronic_linear_filters.svghttp://www2.egr.uh.edu/glover/applets/Sampling/Sampling.htmlhttp://www2.egr.uh.edu/glover/applets/Sampling/Sampling.htmlhttp://en.wikipedia.org/wiki/file:Electronic_linear_filters.svghttps://ccrma.stanford.edu/~jos/filters/Amplitude_Response_I_I.htmlhttp://ccrma.stanford.edu/jos/sasphttp://www.netrino.com/Embedded-Systems/How-To/Digital-Filters-FIR-IIRhttp://gps-tsc.upc.es/veu/personal/asuncion/curso.php3http://decsai.ugr.es/ccd/transparencias/07%20cuantificacion_escalar.pdfhttp://ieeexplore.ieee.org/xpl/recentissue.jsp?punumber=79https://kiwi.ecn.purdue.edu/rhea/index.php/audio_Signal_Filteringhttp://www.tecnun.es/asignaturas/tratamiento%20digital/tds5.htmlhttp://www.euskalnet.net/iosus/speech/fourier.htmlhttp://ewh.ieee.org/sb/argentina/comahue/ed2/trabajos/rate06_05.pdfhttp://ewh.ieee.org/sb/argentina/comahue/ed2/trabajos/rate06_05.pdfhttp://www.eetimes.com/design/industrial-control/4008894/oversampling-with-averaging-to-increase-adc-resolution?pageNumber=1http://www.eetimes.com/design/industrial-control/4008894/oversampling-with-averaging-to-increase-adc-resolution?pageNumber=1