procesamiento de audio (intro)

Download Procesamiento de Audio (Intro)

If you can't read please download the document

Upload: llancho12345

Post on 13-Apr-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/26/2019 Procesamiento de Audio (Intro)

    1/14

    Procesamiento de

    audioHelenca Duxans BarrobsMarta Ruiz Costa-juss

    PID_00154788

  • 7/26/2019 Procesamiento de Audio (Intro)

    2/14

    CC-BY-NC-ND PID_00154788 Procesamiento de audio

    Helenca Duxans Barrobs Marta Ruiz Costa-juss

    El encargo y la creacin de este material docente han sido coordinadospor el profesor: David Garca Solrzano (2012)

    Primera edicin: febrero 2012 Helenca Duxans Barrobs, Marta Ruiz Costa-jussTodos los derechos reservados de esta edicin, FUOC, 2012Av. Tibidabo, 39-43, 08035 BarcelonaDiseo: Manel AndreuRealizacin editorial: Eureca Media, SLDepsito legal: B-3.154-2012

    Los textos e imgenes publicados en esta obra estn sujetos excepto que se indique lo contrario a una licencia deReconocimiento-NoComercial-SinObraDerivada (BY-NC-ND) v.3.0 Espaa de Creative Commons. Podis copiarlos, distribuirlosy transmitirlos pblicamente siempre que citis el autor y la fuente (FUOC. Fundacin para la Universitat Oberta de Catalunya),no hagis de ellos un uso comercial y ni obra derivada. La licencia completa se puede consultar en http://creativecommons.org/licenses/by-nc-nd/3.0/es/legalcode.es

    http://creativecommons.org/licenses/by-nc-nd/3.0/es/legalcode.es
  • 7/26/2019 Procesamiento de Audio (Intro)

    3/14

    CC-BY-NC-ND PID_00154788 3 Procesamiento de audio

    Introduccin

    Esta asignatura es una continuacin de Seales y sistemas I y II, y al mismo tiem-po se presenta como un complemento perfecto de la asignaturaProcesamiento

    de imagen, por lo que dota a los estudiantes de unos conocimientos transver-

    sales del mbito del procesamiento de la seal. Por lo tanto, una asignatura

    como esta es fundamental para cualquier ingeniero del itinerario de Audiovi-

    suales del grado de Tecnologas de Telecomunicacin, y que, probablemente,

    utilizar el conocimiento adquirido en esta asignatura en algn momento de

    su vida profesional.

    El procesamiento de audio incluye diferentes aplicaciones tecnolgicas, como

    la reproduccin de msica en alta fidelidad, el reconocimiento del habla o la

    sntesis del habla. Esta asignatura, en concreto, pretende combinar una expli-

    cacin terica de los principales conceptos del procesamiento de audio y ver

    sus aplicaciones ms relevantes, con una vertiente prctica que permita lograr

    mejor algunos de los conceptos expuestos.

    Finalmente, hemos de comentar que esta asignatura es una de las tres de au-

    dio que hay en el itinerario de Audiovisuales, junto a las deAcsticay Elec-

    troacstica. Por lo tanto, al acabar el grado, el estudiante tendr un amplio

    conocimiento del mbito del audio, que ir desde tratar la seal de audio (loveremos en esta asignatura) y condicionar espacios (Acstica) hasta conocer el

    funcionamiento de varios dispositivos de captacin y transmisin de la seal

    acstica (Electroacstica).

    Estos apuntes pretenden ser una introduccin experimental al procesamiento

    de audio. Estn organizados en tres bloques principales y cada bloque est

    dividido en mdulos. Cada mdulo contiene teora, ejemplos, resmenes y

    ejercicios. Asimismo, os presentamos continuamente bibliografa de referencia

    por si queris ampliar conocimientos.

    El primer bloque presenta, en el primer mdulo, conceptos ya vistos sobre

    seales y sistemas, y en el segundo mdulo, explica el diseo de filtros.

    El primer mdulohace un repaso de los principales conceptos de seales y

    sistemas que usaremos en esta asignatura. Bsicamente incluye los contenidos

    siguientes: la definicin y clasificacin de seal y sistema; la caracterizacin

    de seales y sistemas mediante la transformada de Fourier y la transformada

    Z; as como la conversin entre el dominio analgico y discreto.

    El segundo mduloexplica el diseo de filtros. El objetivo principal del m-

    dulo es explicar la teora bsica de diseo de filtros digitales y analgicos.

    Concretamente, se pretende dar al estudiante la capacidad de aprender a utili-

  • 7/26/2019 Procesamiento de Audio (Intro)

    4/14

    CC-BY-NC-ND PID_00154788 4 Procesamiento de audio

    zar cualquier softwarede diseo de filtros y que as pueda disear sus propios

    filtros dadas unas especificaciones concretas. Asimismo, se combina la teora

    y la prctica del diseo de filtros con el estudio de diferentes utilidades de los

    filtros digitales y analgicos en el rea de procesamiento de la seal de audio.

    A continuacin, entramos en el bloque 2, que se centra en desarrollar con-ceptos de audio. Por lo tanto, es el bloque ms largo de los tres. Este bloque

    incluye los mdulos 3, 4 y 5.

    El tercer mdulolleva a cabo una introduccin a la acstica. Se desarrollan

    en l conceptos como qu es el sonido y cmo lo percibimos, medimos, se

    genera y se propaga. Concretamente, estudiaremos cmo funciona la acstica

    fisiolgica, es decir, de qu modo percibe el sonido el odo humano, cmo

    emite el sonido el sistema de fonacin humana y cul es la directividad de

    la voz humana. Dentro de las herramientas de percepcin del sonido defini-

    remos las curvas isofnicas, los filtros de ponderacin y el nivel de ruido de

    fondo, y dentro de la medicin del sonido veremos el sonmetro. Tambin

    analizaremos la tipologa de fuentes sonoras existentes y el comportamiento

    que tienen en diferentes tipos de recintos. Por ltimo, veremos cmo se pro-

    paga el sonido y qu son la reverberacin y la inteligibilidad del sonido.

    El cuarto mdulopresenta el proceso de codificacin que sigue la seal de

    audio para almacenarse o transmitirse digitalmente. Veremos la cuantificacin

    digital y algunos conceptos que estn relacionados, como el sobremuestreo,

    el tramado (dithering) y la conformacin del ruido (noise shaping). Tambinconoceremos las codificaciones principales que actualmente se utilizan para

    el audio y distinguiremos entre codificadores de audio generalistas y codifica-

    dores especficos para la voz. En este mdulo veremos cmo se utiliza la psi-

    coacstica, es decir, las caractersticas de la percepcin del sonido en el odo

    humano, para mejorar la eficiencia de los codificadores. Finalmente, la ltima

    parte del cuarto mdulo est dedicada a presentar los formatos de ficheros de

    audio ms utilizados en el mundo digital, para almacenamiento o transmisin,

    sobre todo en el mbito de redes IP, como Internet.

    En el quinto mduloconoceremos un ejemplo real del modo como se aplica lateora vista en los mdulos anteriores en el campo del procesamiento de audio:

    la creacin de efectos sonoros. Despus de presentar qu es un efecto digital de

    audio haremos una pequea introduccin a los efectos digitales de audio ms

    habituales, sobre todo en el mundo de la produccin musical, proporcionando

    junto a las bases tericas del procesamiento digital de la seal de los sistemas

    que los generan ejemplos y referenciando creaciones musicales que puedan

    resultaros fciles de encontrar.

    El tercer bloque de la asignatura presenta dos aplicaciones de procesamiento

    de audio, pero centradas en el mbito del habla: el reconocimiento y la sntesis

    del habla. Este bloque est formado por los mdulos 6, 7 y 8.

  • 7/26/2019 Procesamiento de Audio (Intro)

    5/14

    CC-BY-NC-ND PID_00154788 5 Procesamiento de audio

    El sexto mduloes un mdulo introductorio a las caractersticas del habla que

    nos permitir tener los conocimientos bsicos para entender los fundamentos

    de las tcnicas presentadas en los mdulos siguientes. Antes de nada, veremos

    cmo se produce la voz en el sistema fonador humano y cules son las carac-

    tersticas acsticas de la voz. Por ltimo, haremos el paso entre la acstica y

    la fontica para presentar cmo se clasifican fonticamente todos los sonidosque somos capaces de articular.

    En el sptimo mdulointroducimos el concepto de reconocimiento autom-

    tico del habla y haremos un repaso de las tcnicas ms importantes. Concre-

    tamente, analizaremos dos de las etapas de los reconocedores: la extraccin

    de caractersticas acsticas sobre las que se basar el reconocimiento y el al-

    goritmo de reconocimiento. Veremos cmo se puede transformar el reconoci-

    miento en un problema de bsqueda, utilizando modelos acsticos y modelos

    de lenguaje valorados previamente para reducir su complejidad. Por ltimo,

    conoceremos las herramientas que nos permiten medir el grado de bueno

    de un reconocedor.

    El octavo mduloest dedicado a la sntesis del habla. Concretamente, ve-

    remos los convertidores de texto a voz, cuya finalidad es transformar en voz

    cualquier texto escrito. Dentro de todas las tcnicas que hay para sintetizar

    voz, este mdulo focaliza el tema en los sistemas de sntesis por concatena-

    cin, resaltando la importancia que tiene el corpus (o base de datos), tanto

    en la seleccin de los segmentos que se deben concatenar como en la calidad

    final de la voz sintetizada. Como en el mdulo sptimo, proporcionaremosherramientas para medir la calidad de los convertidores de texto a voz para

    poderlos comparar entre s.

  • 7/26/2019 Procesamiento de Audio (Intro)

    6/14

    CC-BY-NC-ND PID_00154788 6 Procesamiento de audio

    Actividades

    Conceptos de seales y sistemas

    1.Dibujad una seal analgica, una seal discreta en tiempo y una seal digital.

    2.Qu puede ayudar a mejorar la reconstruccin ideal, si nos fijamos en el convertidor A/D?

    Diseo y anlisis de filtros en procesamiento de audio

    3.Cul es la respuesta impulsional del filtro paso bajo ideal? Razonad por qu no es realizableun filtro paso bajo ideal.

    4.Haced un filtro paso bajo de orden 2 siguiendo el esquema del ejemplo [SLPF], con coefi-ciente . Qu se obtiene?

    5.Hemos visto el diseo de dos grandes tipos de filtros: FIR e IIR. En esta actividad queremoscomparar estas dos variantes de filtros. La comparativa la llevaremos a cabo mediante laherramienta del FDAtool ayudndonos del ejemplo del apartado 5.2.2.

    En primer lugar, se pide que diseis con FDAtool un filtro paso banda con banda de pasoentre 4 kHz y 8 kHz, y atenuacin de 6 dB en las frecuencias de 2 kHz y 10 kHz. Comparad

    diferentes mtodos FIR e IIR. Cul es el mtodo que requiere un orden ms bajo para cumplirlas especificaciones? Cul en este orden? Visualizad la resposta impulsional.

    En segundo lugar, se pide que definis unas especificaciones para un filtro paso alto. Uti-lizad nuevamente FDAtool para disear un filtro IIR. Experimentad qu aproximacin(Butterworth,Txebyxev, inversa de Txebyxev o Cauer) cumple las especificaciones con el m-nimo orden y por qu.

    6.Demostrad que la respuesta impulsional de un filtro IIR tiene un nmero infinito de mues-tras diferentes de cero.

    Introduccin a la acstica

    7.En el diseo acstico de teatros, auditorios o cines, es muy importante tener en cuenta loscoeficientes de absorcin de los materiales (como butacas, cortinas o moqueta) que se ponen

    en las salas. Buscad en sengpielaudio.comy poned un ejemplo de material muy absorbente(con un ), un material medianamente absorbente ( ) y un material pocoabsorbente ( ). Considerad como frecuencia 1 kHz.

    8.Los fenmenos de reververacin y eco dependen del solapamiento del sonido directo y re-flejado. Vamos a analizar estos conceptos con un ejemplo prctico. Si la velocidad del sonidoes de 350 m/s y el objeto reflector introduce un camino extra de 10 m respecto al caminodirecto, qu retraso tendr la seal reflejada respecto a la seal directa? Se puede considerareco o ser reverberacin? Qu sucede si el objeto reflector se encuentra a 50 m de la fuente?Realizad la comprobacin con Audacity.

    9.Sabemos que hay diferentes formas de calcular el tiempo de reverberacin. Vamos a ana-lizarlas y compararlas con un ejemplo prctico.Tenemos una sala rectangular de 3 4 5 m(altura anchura profundidad). El techo es de madera; las paredes, de vidrio, y el suelo,de parqu. Calculad el tiempo de reverberacin para las frecuencias de 125 Hz, 250 Hz y 500Hz, segn Sabine, Eyring y Millington. Comentad si los tiempos que se obtienen son igualeso diferentes y por qu.

    La tabla siguiente muestra los coeficientes de absorcin de los diferentes materiales utilizados:

    Coeficientede absorcin

    125 Hz 250 Hz 500 Hz

    Madera 0,15 0,11 0,10

    Vidrio 0,18 0,06 0,04

    Parqu 0,04 0,04 0,07

    Codificacin del audio

    http://www.sengpielaudio.com/calculator-rt60coeff.htmhttp://www.sengpielaudio.com/calculator-rt60coeff.htm
  • 7/26/2019 Procesamiento de Audio (Intro)

    7/14

    CC-BY-NC-ND PID_00154788 7 Procesamiento de audio

    10.Escribid la secuencia de 0 y 1 de la seal codificada de la siguiente figura:

    11.Qu cambios introduce la cuantificacin logartmica en un cuantificador uniforme paraque este cuantificador uniforme sea no uniforme?

    12.Pensad cmo afecta aumentar el nmero de bits por muestra y la frecuencia de muestreoen la cantidad de memoria necesaria para almacenar el audio codificado. Haced estas compa-raciones para calidad CD (16 bits por muestra y 44,1 kHz) y para 24 bits por muestra y 96 kHz:

    a)30 minutos de msica estreo.

    b)Y si lo guardbamos en formato MP3, con una tasa de bits de 128 kbps, cul sera el factor

    de compresin?

    Efectos digitales de la seal de audio

    13.Identificad los efectos siguientes:

    Audio original Audio con efecto Tipo de efecto

    1 1

    2 2

    3 3

    14.Cul es el diagrama de bloques de un sistema digital que introduce tres ecos en un audiooriginal y que aplica un trmolo solo al audio original?

    15.Cread un efecto sonoro con Audacity. Abrid Audacity y grabad una palabra cualquiera.Seleccionad la seal grabada y aadid el efecto eco. Podis jugar con el factor de atenuacin(inverso de la ganancia) y el tiempo de retraso (siempre mayor de 50 milisegundos) para vercmo se modifica la seal. Ahora aadid un eco con un retraso de menos de 50 milisegundos.Notis alguna diferencia?

    Reconocimiento automtico del habla

    16.Los reconocedores de palabras clave, denominados tambin word spotting, se disean paradetectar solo las palabras que el usuario indica al sistema, y por lo tanto ignora el resto dela voz. Entre las posibles implementaciones de estos reconocedores existe toda una familia

    que se basa en hacer modelos HMM de toda la palabra clave que se ha de detectar. Estosmodelos, junto con modelos fillero garbage, que modelan el resto de la voz que no es unapalabra clave, se utilizan en el bloque de descodificacin para encontrar una transcripcindel tipo siguiente: palabra clave, filler+ palabra clave, filler+ palabra clave + fillero palabra

    http://localhost/var/www/apps/conversion/img/exercici_original1.mp3http://localhost/var/www/apps/conversion/img/exercici_efecte1.mp3http://localhost/var/www/apps/conversion/img/exercici_original2.mp3http://localhost/var/www/apps/conversion/img/exercici_efecte2.mp3http://localhost/var/www/apps/conversion/img/exercici_original3.mp3http://localhost/var/www/apps/conversion/img/exercici_efecte3.mp3http://localhost/var/www/apps/conversion/img/exercici_efecte3.mp3http://localhost/var/www/apps/conversion/img/exercici_original3.mp3http://localhost/var/www/apps/conversion/img/exercici_efecte2.mp3http://localhost/var/www/apps/conversion/img/exercici_original2.mp3http://localhost/var/www/apps/conversion/img/exercici_efecte1.mp3http://localhost/var/www/apps/conversion/img/exercici_original1.mp3
  • 7/26/2019 Procesamiento de Audio (Intro)

    8/14

    CC-BY-NC-ND PID_00154788 8 Procesamiento de audio

    clave + filler. Indicad los pasos necesarios para introducir una palabra clave nueva en estetipo de sistemas.

    17.Calculad el porcentaje de error de insercin, sustitucin y eliminacin para la transcrip-cin siguiente. Cul es el valor de la WER?

    Transcripcin de referencia: a la reunin asistieron diez personas. Transcripcin automtica: en la reunin dijeron s diez personas.

    18.Buscad dos reconocedores del habla que incluyan el castellano entre los idiomas quereconocen.

    Sntesis del habla

    19.Identificad qu bloques de un TTS basado en concatenacin acstica hay que modificarpara introducir una voz en un idioma nuevo. Y si se quiere introducir una voz nueva, peroen un idioma de los que ya existen?

    20.Buscad los puntos de sntesis y la secuencia de ventanas que se han de concatenar parala seal de voz siguiente, si se quiere hacer una modificacin de velocidad constante de 1,4(es decir, una modificacin de duracin de 1/1,4) y una modificacin de altura tonal de 1,1.

    Instantes de anlisis: 300 ms, 309 ms, 318 ms, 327 ms, 335,5 ms, 344 ms, 352 ms, 360 msy 368 ms.

  • 7/26/2019 Procesamiento de Audio (Intro)

    9/14

    CC-BY-NC-ND PID_00154788 9 Procesamiento de audio

    Solucionario

    Conceptos de seales y sistemas

    2.Por ejemplo, utilizar un cuantificador de ms bits.

    Diseo y anlisis de filtros en procesamiento de audio

    3.Es una sinc centrada en su origen. No es realizable porque la respuesta impulsional esinfinita.

    4.y[n] = {1,3,6,9,12,15,18,21,24,27} (v(n) = [0;0], b = [1,1,1], M = 2)]

    5.IIR elptico de orden 4.

    6.Cauer requiere el mnimo orden porque tiene un comportamiento con rizado de amplitudconstante en las bandas de paso y atenuada.

    Introduccin a la acstica

    7.Material muy absorbente: fibra de vidrio.

    Material medianamente absorbente: alfombra sobre cemento.

    Material poco absorbente: mrmol.

    8.En el primer caso, el retraso es de 28 ms; por lo tanto, se considera reverberacin.

    En el segundo caso, el retraso es de 142 ms; por lo tanto, se considera eco.

    9.

    TR (s) 125 250 500

    Sabine 0,77 1,64 1,82

    Eyring 0,73 1,58 1,76

    Millington 0,71 1,57 1,75

    Codificacin del audio

    10.

    0111 1001 1011 1100 1101 1110 1110 1111 1111 1111 1110 1110 1101 1100 1010 1001 01110110 0101 0011 0010 0001 0000 0000 0000 0000 0000 0001 0001 0010 0011 0101 0110

    11.El cuantificador logartmico incorpora previamente al cuantificador uniforme una etapa

    de compresin y a la salida del cuantificador uniforme aade una expansin logartmica quemodifica la seal.

    12.

    a)Calidad CD: 2.540.160.000 bits; para la otra codificacin: 4.147.200.000 bits.

    b)230.400.000 bits, factor de compresin para calidad CD 11,025; para la otra codificacin:18.

    Efectos digitales de la seal de audio

    13.Wah-wah, trmolo, eco.

    14.

  • 7/26/2019 Procesamiento de Audio (Intro)

    10/14

    CC-BY-NC-ND PID_00154788 10 Procesamiento de audio

    15.Cuando el tiempo de retraso es ms pequeo de 50 milisegundos, el efecto que se percibees una reverberacin.

    Reconocimiento automtico del habla

    16.

    1.Generar la transcripcin fontica de la palabra clave.

    2.Incluir la palabra clave en el diccionario del modelo de lenguaje.

    3.Generar el HMM de la palabra clave. Si podemos hacer grabaciones nuevas: hacer mlti-ples grabaciones con diferentes usuarios de la palabra clave, procesar el audio y extraer losMFCC y entrenar un nico HMM. Si no podemos hacer grabaciones nuevas: generar el HMMconcatenando los HMM de los trifonemas que forman la palabra clave.

    4.Incluir el HMM generado en el modelo acstico del reconocedor de palabras clave.

    5.Opcionalmente, volver a valorar el HMM fillero los HMM filler.

    Todos los cambios en el reconocedor de palabras clave se llevan a cabo en la fase de entrena-miento. La fase de ejecucin del sistema contina igual.

    17.

    Porcentaje de error de insercin: 1/7 * 100 = 14,29%

    Porcentaje de error de sustitucin: 1/7 * 100 = 14,29%

    Porcentaje de error de omisin: 1/7 * 100 = 14,29%

    WER = 42,86%

    18.

    Veamos algn ejemplo:

    Nuance

    Loquendo

    Microsoft

    IBM

    Verbio

    Sntesis del habla

    19.Para una voz nueva en un idioma nuevo:

    Todo el mdulo de procesamiento de lenguaje natural: el analizador morfosintctico, el trans-criptor fontico y el generador prosdico. El corpus de unidades acsticas (diseo del corpus+ grabacin + etiquetado).

    http://shop.nuance.es/drhm/store?Action=DisplayCategoryProductListPage&SiteID=nuanceeu&Locale=se_SE&Env=BASE&categoryID=13534600http://www.loquendo.com/en/technology/asr_specifications.htmhttp://www.microsoft.com/enable/products/windowsvista/speech.aspxhttp://www-01.ibm.com/software/pervasive/embedded_viavoice/about/http://www.verbio.com/webverbio3/html/productes.php?id=2#http://www.verbio.com/webverbio3/html/productes.php?id=2#http://www-01.ibm.com/software/pervasive/embedded_viavoice/about/http://www.microsoft.com/enable/products/windowsvista/speech.aspxhttp://www.loquendo.com/en/technology/asr_specifications.htmhttp://shop.nuance.es/drhm/store?Action=DisplayCategoryProductListPage&SiteID=nuanceeu&Locale=se_SE&Env=BASE&categoryID=13534600
  • 7/26/2019 Procesamiento de Audio (Intro)

    11/14

    CC-BY-NC-ND PID_00154788 11 Procesamiento de audio

    Para una voz nueva en un idioma que ya existe:

    El corpus de unidades acsticas (grabacin + etiquetado).

    20.Primer instante de sntesis: 300 ms.

    Primera ventana: 0.

    Segundo instante de sntesis: 300 ms + (309 300)/1,1 = 308,18 ms.

    Instante virtual central de la segunda ventana: 308,18 + (308,18 300) * 1,4 = 311,45 ms.

    Segunda ventana: 1 (ventana con instante central ms cercano a 311,45 ms).

    Tercer instante de sntesis: 308,18 + (318 309)/1,1 = 316,36 ms.

    Instante virtual central de la tercera ventana: 316,36 + (316,36 308,18) * 1,4 = 327,81 ms.

    Tercera ventana: 3 (ventana con instante central ms cercano a 327,81 ms).

    Cuarto instante de sntesis: 316,36 + (335,5 327)/1,1 = 324,09 ms.

    Instante virtual central de la cuarta ventana: 324,09 + (324,09 316,36) * 1,4 = 334,91 ms.

    Cuarta ventana: 4 (ventana con instante central ms cercano a 334,91 ms).

    Quinto instante de sntesis: 324,09 + (344 335,5)/1,1 = 331,82 ms.

    Instante virtual central de la quinta ventana: 331,82 + (331,82 324,09) * 1,4 = 342,64 ms.

    Quinta ventana: 5 (ventana con instante central ms cercano a 342,64 ms).

    Sexto instante de sntesis: 331,82 + (352 344)/1,1 = 339,09 ms.

    Instante virtual central de la sexta ventana: 339,09 + (339,09 331,82) * 1,4 = 349,27 ms.

    Sexta ventana: 6 (ventana con instante central ms cercano a 349,27 ms).

    Sptimo instante de sntesis: 339,09 + (360 352)/1,1 = 346,36 ms.

    Instante virtual central de la sptima ventana: 346,36 + (346,36 339,09) * 1,4 = 356,54 ms.

    Sptima ventana: 7 (ventana con instante central ms cercano a 356,54 ms).

  • 7/26/2019 Procesamiento de Audio (Intro)

    12/14

    CC-BY-NC-ND PID_00154788 12 Procesamiento de audio

    Contenidos

    Mdulo didctico 1Conceptos de seales y sistemas

    Marta Ruiz Costa-juss y Helenca Duxans Barrobs

    1. Seales y sistemas

    2. Transformacin del dominio temporal al dominio frecuencial

    Mdulo didctico 2

    Diseo y anlisis de filtros en procesamiento de audio

    Marta Ruiz Costa-juss y Helenca Duxans Barrobs

    1. Concepto y tipos de filtros. Por qu se debe aprender cmo funciona

    un filtro?2. Conceptos bsicos para el diseo de filtros digitales

    3. Filtros reales: plantilla de especificacin de un filtro

    4. Diseo de filtros digitales

    5. De la teora a la prctica

    Mdulo didctico 3

    Introduccin a la acstica

    Marta Ruiz Costa-juss y Helenca Duxans Barrobs

    1. Definicin y caracterizacin del sonido y del ruido

    2. Percepcin humana del sonido. Fenmenos sonoros3. Fuentes sonoras y propagacin del sonido

    Mdulo didctico 4

    Codificacin del audio

    Marta Ruiz Costa-juss y Helenca Duxans Barrobs

    1. Introduccin al audio digital

    2. Cuantificacin

    3. Cuantificacin inversa

    4. Procesos del audio digital

    5. Clasificacin de los codificadores de audio6. Codificadores de forma de onda

    7. Codificadores perceptivos

    8. Codificaciones especficas para voz

    9. Formatos de ficheros de audio

    Mdulo didctico 5

    Efectos digitales de la seal de audio

    Helenca Duxans Barrobs y Marta Ruiz Costa-juss

    1. Introduccin y clasificacin de los efectos digitales de audio

    2. Efectos sonoros basados en retardadores

    3. Efectos sonoros basados en moduladores

    4. Efectos sonoros basados en sistemas lineales

  • 7/26/2019 Procesamiento de Audio (Intro)

    13/14

    CC-BY-NC-ND PID_00154788 13 Procesamiento de audio

    5. Efectos sonoros basados en sistemas no lineales

    6. Otros tipos de efectos

    Mdulo didctico 6

    Introduccin al habla

    Helenca Duxans Barrobs y Marta Ruiz Costa-juss1. Introduccin a las tecnologas del habla

    2. La produccin de la voz en tres pasos

    3. Propiedades acsticas de la seal de voz

    4. Clasificacin fontica de los sonidos

    5. Unidades acsticas utilizadas en las tecnologas del habla

    Mdulo didctico 7

    Reconocimiento automtico del habla

    Helenca Duxans Barrobs y Marta Ruiz Costa-juss

    1. Introduccin al reconocimiento automtico del habla2. Aplicaciones de los reconocedores automticos del habla

    3. Funcionamiento bsico de los reconocedores

    4. El mdulo de extraccin de caractersticas

    5. El mdulo de descodificacin

    6. Tcnicas de adaptacin

    7. Evaluacin de la transcripcin automtica

    Mdulo didctico 8

    Sntesis del habla

    Helenca Duxans Barrobs y Marta Ruiz Costa-juss1. Introduccin a la sntesis del habla

    2. Aplicaciones de los convertidores de texto a voz

    3. Los convertidores de texto a voz

    4. Sntesis por concatenacin

    5. Modificaciones prosdicas

    6. Medidas de calidad de la voz sintetizada

  • 7/26/2019 Procesamiento de Audio (Intro)

    14/14

    CC-BY-NC-ND PID_00154788 14 Procesamiento de audio

    Bibliografa

    Carrin Isbert, A. (1998).Diseo acstico de espacios arquitectnicos. Barce-

    lona: Edicions UPC.

    Cremer, L.; Muller, H. A. (1982). Principles and Applications of Room

    Acoustics(vol. 1). Londres: Applied Science Publishers.

    ETSI SE 202 050 V1.1.1(2002-2010). Speech processing, transmission and

    quality aspects (STQ); distributed speech recognition; advanced frente-end

    feature extraction algorithm; compression algorithms (ref. DES/STQ-00008)

    Franco Contadini, M. (2010). Oversampling with averaging to increase

    ADC resolution.

    Gonzlez, M. D. (2006). Comparacin de filtros FIR de fase lineal, por M-

    todo ptimo y de Ventanas.

    Iosu, D. (1999). Anlisis de Fourier.

    Irizar Picn, A.(2002). Tratamiento Digital de Seal.

    Kompis, M.; Dillier, N. (1993). Simulating transfer functions in a reverbe-

    rant room including source directivity and head-shadow effects.JASA(nm.

    93, pg. 2779-2787).

    Lamba, D.(2010). Audio Signal Filtering.

    Mario, J. B. y otros(1999). Tratamiento digital de la seal: una introduccin

    experimental. Barcelona: Edicions UPC.

    McClellan, J. H.; Parks, T. W. (2005). A personal history of the Parks-

    McClellan algorithm. Signal Processing Magazine, IEEE(vol. 22, nm. 2, marzo,

    pg. 82-86). Atlanta, GA, EE. UU.: Georgia Institute of Technology.

    Molina, R.(2008). Cuantificacin Escalar.

    Moreno, A.(2003). Cuantificacin. Universitat Politcnica de Catalunya.

    Wagner, B.; Barr, M.(2007). Filtres FIR i IIR.

    Proakis, J. G.; Manolakis, D. G.(2007). Tratamiento digital de seales. Ma-

    drid: Pearson Prentice Hall.

    Smith, J. O. (2008, octubre). Spectral Audio Signal Processing.

    Smith, J. O.(2011). . Amplitude response.

    wikipedia.org(2012). Filtros analgicos.

    Zawistowski, Th.; Shah, P.(2005). An Introduction to Sampling Theory.

    http://www.eetimes.com/design/industrial-control/4008894/oversampling-with-averaging-to-increase-adc-resolution?pageNumber=1http://www.eetimes.com/design/industrial-control/4008894/oversampling-with-averaging-to-increase-adc-resolution?pageNumber=1http://ewh.ieee.org/sb/argentina/comahue/ed2/trabajos/rate06_05.pdfhttp://ewh.ieee.org/sb/argentina/comahue/ed2/trabajos/rate06_05.pdfhttp://www.euskalnet.net/iosus/speech/fourier.htmlhttp://www.tecnun.es/asignaturas/tratamiento%20digital/tds5.htmlhttps://kiwi.ecn.purdue.edu/rhea/index.php/audio_Signal_Filteringhttp://ieeexplore.ieee.org/xpl/recentissue.jsp?punumber=79http://decsai.ugr.es/ccd/transparencias/07%20cuantificacion_escalar.pdfhttp://gps-tsc.upc.es/veu/personal/asuncion/curso.php3http://www.netrino.com/Embedded-Systems/How-To/Digital-Filters-FIR-IIRhttp://ccrma.stanford.edu/jos/sasphttps://ccrma.stanford.edu/~jos/filters/Amplitude_Response_I_I.htmlhttp://en.wikipedia.org/wiki/file:Electronic_linear_filters.svghttp://www2.egr.uh.edu/glover/applets/Sampling/Sampling.htmlhttp://www2.egr.uh.edu/glover/applets/Sampling/Sampling.htmlhttp://en.wikipedia.org/wiki/file:Electronic_linear_filters.svghttps://ccrma.stanford.edu/~jos/filters/Amplitude_Response_I_I.htmlhttp://ccrma.stanford.edu/jos/sasphttp://www.netrino.com/Embedded-Systems/How-To/Digital-Filters-FIR-IIRhttp://gps-tsc.upc.es/veu/personal/asuncion/curso.php3http://decsai.ugr.es/ccd/transparencias/07%20cuantificacion_escalar.pdfhttp://ieeexplore.ieee.org/xpl/recentissue.jsp?punumber=79https://kiwi.ecn.purdue.edu/rhea/index.php/audio_Signal_Filteringhttp://www.tecnun.es/asignaturas/tratamiento%20digital/tds5.htmlhttp://www.euskalnet.net/iosus/speech/fourier.htmlhttp://ewh.ieee.org/sb/argentina/comahue/ed2/trabajos/rate06_05.pdfhttp://ewh.ieee.org/sb/argentina/comahue/ed2/trabajos/rate06_05.pdfhttp://www.eetimes.com/design/industrial-control/4008894/oversampling-with-averaging-to-increase-adc-resolution?pageNumber=1http://www.eetimes.com/design/industrial-control/4008894/oversampling-with-averaging-to-increase-adc-resolution?pageNumber=1