Subscribe to Updates

    Get the latest creative news from FooBar about art, design and business.

    What's Hot

    Inteligencia Artificial generativa revoluciona el servicio al cliente

    27 mayo, 2023

    Continúa el reto de los salarios competitivos en México

    27 mayo, 2023

    NEW STATE MOBILE tendrá remake de «Bounty Royale»

    26 mayo, 2023
    Facebook Twitter Instagram
    • El Blog de Yes
    • Shock Visual
    • Conociendo a mi Perro
    • SaludyVida.tips
    • AnimeCollectorMX
    Comunidad BloggerComunidad Blogger
    Subscribe
    • Bloggers
      • Vblog
        • Cómo hacer un videoblog
        • Subir un videoblog a Youtube
        • Subir un video a Vimeo
      • Tipos de blogs
        • ¿Qué es ser un blogger?
        • Código de ética de los bloggers
        • Regulaciones morales de los blogueros
        • Bloguear: Hobby o profesión
        • Blogsfera
      • Podcast
        • ¿Cómo se hace un podcast?
        • ¿Cómo subir un podcast a iTunes?
        • ¿Cómo subir un podcast a iVoox?
    • Internet
      • Apps
      • Redes Sociales
      • Marketing
      • SEO
      • streaming
    • casinos
    • Gaming
    • Servicios Financieros
    • Noticias
      • Mundo Tec
      • Marketing
      • Comunidad Blogger
      • Productos
      • Educación
      • Emprendedores
      • Empresas
      • Regulaciones
      • Fotografia
      • cultura geek
      • Salud
      • Tecnologia
    • Aviso de Privacidad
    • Contacto
    Comunidad BloggerComunidad Blogger
    Home»Noticias»Habla artificial más expresiva, natural y controlable
    Noticias

    Habla artificial más expresiva, natural y controlable

    Yesica FloresBy Yesica Flores29 abril, 2021Updated:29 abril, 2021No hay comentarios4 Mins Read
    Share
    Facebook Twitter LinkedIn Pinterest Email

    ¿Dijiste que querías reservar un vuelo a Austin… o Boston?

    Incluso un ser humano a veces tendría dificultades para diferenciar los nombres de estas dos ciudades; suenan bastante similares. Una IA en un diálogo con un usuario también podría fallar fácilmente.

    La tecnología de síntesis de habla en los asistentes de voz podría ayudar, al emular el tipo de expresividad que los humanos despliegan naturalmente en la comunicación cara a cara. En un reciente artículo de IBM Research[1], el equipo describe un sistema que puede enfatizar o resaltar ciertas palabras para mejorar la expresividad de una oración como “¡Esa es una excelente idea!” o ayudar con la ambigüedad del contexto en un escenario como el de “Austin versus Boston”.

    Esa es solo una de las innovaciones en la síntesis de secuencia a secuencia. Como parte de una colaboración entre el equipo de IBM Research de Inteligencia Artificial Text-to-Speech (Texto a Habla) e IBM Watson, el objetivo es llevar esta funcionalidad de expresividad al servicio IBM Watson Text to Speech (TSS, por sus siglas en inglés). En los últimos años, TTS ha logrado un rendimiento de vanguardia con la introducción de arquitecturas secuencia a secuencia neuronales profundas que proporcionan resultados de alta calidad que se acercan a la propiedad perceptual del habla natural.

    La idea principal es simple: alejarse de un enfoque clásico que une varios módulos desarrollados de forma independiente en un solo modelo que entrena todos los componentes de un extremo a otro. Esta elección es efectiva pero tiene un costo. Dado que los diferentes componentes ya no son responsables de una función específica, es difícil intervenir en el proceso de síntesis para controlar un aspecto particular de la salida.

    Para resolver este problema, el equipo de IBM propone utilizar una variante de la arquitectura Tacotron-2 de múltiples altavoces[2], que consta de un codificador y un decodificador mediado por un mecanismo de atención. Este modelo base toma una representación de entrada del texto, más algunos conocimientos sobre la identidad del hablante y los codifica mediante una combinación de redes recurrentes convolucionales y bidireccionales. Luego, la secuencia codificada se envía al decodificador espectral que consulta con el módulo de atención para averiguar cómo alinear la entrada codificada con las características acústicas de la forma de onda de salida.

    El enfoque del equipo para introducir controlabilidad en el sistema es simple. Sabemos que para resaltar algunas palabras, los hablantes tienden a desviarse del resto de la oración en términos de propiedades prosódicas acústicas como la velocidad del habla y la frecuencia fundamental.

    Tomemos, por ejemplo, la oración que podría surgir en un diálogo con un asistente: «No entendí del todo bien. ¿Dijiste que tu nombre era Greg o Craig?”. Si se tratara de un diálogo entre humanos, el hablante podría transmitir la incertidumbre de la situación al aumentar el volumen y el tono de las palabras resaltadas, articulándolas más clara y lentamente, y quizás agregar antes algunas pausas breves, pero perceptibles.

    Para que el sistema de síntesis de habla haga lo mismo, el equipo expuso el modelo durante el entrenamiento a una serie de parámetros acústicos-prosódicos extraídos de las formas de onda de entrenamiento de salida[3]. Esto le dio al sistema la oportunidad de asociar estas entradas prosódicas con un énfasis en la salida. Durante la inferencia, cuando estas medidas no estaban disponibles, un predictor entrenado por separado las completó. Para igualar el nivel de énfasis deseado, el valor de estos controles prosódicos podría incrementarse por defecto o por compensaciones aditivas proporcionadas por el usuario.

    Equipar a los asistentes de voz con tales capacidades expresivas podría ayudar a hacerlos “más humanos”, y también proporcionar un mecanismo más eficiente para la interacción y una experiencia de usuario más agradable.

    *Si quiere conocer más sobre el entrenamiento y trabajo de los investigadores, puede encontrar más detalle y ejemplos aquí.


    [1]“Enfoques supervisados y no supervisados para controlar el léxico estrecho en la síntesis del habla secuencia a secuencia”,

    [2] Descrita en “Natural TTS synthesis by conditioning Wavenet on MEL spectrogram predictions”. J. Shen, R. R. Pang, R.J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerry-Ryan, R.A. Saurous, Y. Agiomyrgiannakis, and Y. Wu, “Natural TTS synthesis by conditioning Wavenet on MEL spectrogram predictions,” in Proc. ICASSP, Calgary, Canada, 2018, pp. 4779–4783.

    [3] S.  Shechtman, R. Fernandez, and D. Haws “Supervised and Unsupervised Approaches for Controlling Narrow Lexical Focus in Sequence-to-Sequence Speech Synthesis,” https://arxiv.org/abs/2101.09940

    IBM Research
    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    Yesica Flores
    • Website

    Soy Yes, blogger desde hace más de 5 años. Me he especializado en el viejo y olvidado arte de divagar. Contacto [email protected]

    Related Posts

    5 pasos esenciales para hacer compras seguras durante HOT SALE 2023

    26 mayo, 2023

    Por doce años consecutivos Alsea recibe el distintivo ESR por su compromiso, labor y resultados

    25 mayo, 2023

    Recomendaciones para que los negocios triunfen durante esta temporada de ofertas con los métodos de pago online y tarjetas

    25 mayo, 2023
    Add A Comment

    Deja un comentario Cancelar respuesta

    Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

    Entradas recientes
    • Inteligencia Artificial generativa revoluciona el servicio al cliente
    • Continúa el reto de los salarios competitivos en México
    • NEW STATE MOBILE tendrá remake de «Bounty Royale»
    • 5 pasos esenciales para hacer compras seguras durante HOT SALE 2023
    • Por doce años consecutivos Alsea recibe el distintivo ESR por su compromiso, labor y resultados
    Advertisement
    About Us
    About Us

    Your source for the lifestyle news. This demo is crafted specifically to exhibit the use of the theme as a lifestyle site. Visit our main page for more demos.

    We're accepting new partnerships right now.

    Email Us: [email protected]
    Contact: +1-320-0123-451

    Our Picks
    New Comments
    • Jose Luis Franco en TikTok llega de forma nativa a izzi
    • Jacob en 5 recomendaciones para llegar a la audiencia correcta en Semana Santa
    • Yessica en En analítica de datos, las mujeres ganan terreno
    • Iluminación Coben en ¿Cuál es la iluminación correcta para tu oficina en casa?
    Comunidad Blogger
    Pinterest
    • Home
    • Buy Now
    © 2023 Derechos Reservados, Comunidadblogger.net

    Type above and press Enter to search. Press Esc to cancel.