Preface Documents

Launch PDF Program and Abstract Book

Fri-Keynote-1 : Keynote 1: ISCA Medalist: John Makhoul

Loading Session Data ...

Fri-O-1-1 : Neural Networks in Speech Recognition

Loading Session Data ...

Fri-O-1-2 : Special Session: Auditory-Visual Expressive Speech and Gesture in Humans and Machines

Loading Session Data ...

Fri-O-1-3 : Prosody

Loading Session Data ...

Fri-O-1-4 : Speech and Language Processing for Clinical Health Applications

Loading Session Data ...

Fri-O-1-5 : Speech Coding and Audio Processing for Noise Reduction

Loading Session Data ...

Fri-O-1-6 : Speech Analysis

Loading Session Data ...

Fri-P-1-1 : First and Second Language Acquisition

Loading Session Data ...

Fri-P-1-2 : Speech and Hearing Disorders & Perception

Loading Session Data ...

Fri-P-1-3 : Speech Synthesis Poster

Loading Session Data ...

Fri-P-1-4 : Topics in Speech Processing

Loading Session Data ...

Fri-S&T-1 : Show & Tell Session 1

Loading Session Data ...

Fri-O-2-1 : New Trends in Neural Networks for Speech Recognition

Loading Session Data ...

Fri-O-2-2 : Special Session: The RedDots Challenge: Towards Characterizing Speakers from Short Utterances

Loading Session Data ...

Fri-O-2-3 : Articulatory Measurements and Analysis

Loading Session Data ...

Fri-O-2-4 : Automatic Assessment of Emotions

Loading Session Data ...

Fri-O-2-5 : Acoustic and Articulatory Phonetics

Loading Session Data ...

Fri-O-2-6 : Source Separation and Spatial Audio

Loading Session Data ...

Fri-P-2-1 : Special Session: Auditory-Visual Expressive Speech and Gesture in Humans and Machines

Loading Session Data ...

Fri-P-2-2 : Special Session: Intelligibility Under the Microscope

Loading Session Data ...

Fri-P-2-3 : Spoken Documents, Spoken Understanding and Semantic Analysis

Loading Session Data ...

Fri-P-2-4 : Spoken Term Detection

Loading Session Data ...

Fri-S&T-2 : Show & Tell Session 2

Loading Session Data ...

Fri-O-3-1 : Feature Extraction and Acoustic Modeling Using Neural Networks for ASR

Loading Session Data ...

Fri-O-3-2 : Special Session: The Speakers in the Wild (SITW) Speaker Recognition Challenge

Loading Session Data ...

Fri-O-3-3 : Non-Native Speech Perception

Loading Session Data ...

Fri-O-3-4 : Behavioral Signal Processing and Speaker State and Traits Analytics

Loading Session Data ...

Fri-O-3-5 : Spoken Term Detection

Loading Session Data ...

Fri-O-3-6 : Co-Inference of Production and Acoustics

Loading Session Data ...

Fri-P-3-1 : Acoustic and Articulatory Phonetics

Loading Session Data ...

Fri-P-3-2 : Prosody, Phonation and Voice Quality

Loading Session Data ...

Fri-P-3-3 : Speech Production Analysis and Modeling

Loading Session Data ...

Fri-P-3-4 : Spoken Dialogue Systems

Loading Session Data ...

Fri-S&T-3 : Show & Tell Session 3

Loading Session Data ...

Sat-SE-1 : Special Event: Mindfulness

Loading Session Data ...

Sat-Keynote-2 : Keynote 2: Edward Chang

Loading Session Data ...

Sat-SE-2 : Special Event: Speaker Comparison for Forensic and Investigative Applications II

Loading Session Data ...

Sat-O-4-2 : Special Session: Clinical and Neuroscience-Inspired Vocal Biomarkers of Neurological and Psychiatric Disorders

Loading Session Data ...

Sat-O-4-3 : Special Session: Singing Synthesis Challenge: Fill-In the Gap

Loading Session Data ...

Sat-O-4-4 : Conversation and Interaction

Loading Session Data ...

Sat-O-4-5 : Automatic Learning of Representations

Loading Session Data ...

Sat-O-4-6 : Language Modeling for Conversational Speech and Confidence Measures

Loading Session Data ...

Sat-P-4-1 : Topics in Speech Perception

Loading Session Data ...

Sat-P-4-2 : Behavioral Signal Processing and Speaker State and Traits Analytics

Loading Session Data ...

Sat-P-4-3 : Speech Synthesis Poster

Loading Session Data ...

Sat-P-4-4 : Resources and Annotation of Resources

Loading Session Data ...

Sat-S&T-4 : Show & Tell Session 4

Loading Session Data ...

Sat-O-5-1 : Acoustic Model Adaptation

Loading Session Data ...

Sat-O-5-2 : Special Session: Sharing Research and Education Resources for Understanding Speech Processing

Loading Session Data ...

Sat-O-5-3 : Special Session: Voice Conversion Challenge

Loading Session Data ...

Sat-O-5-4 : Intelligibility and Masking

Loading Session Data ...

Sat-O-5-5 : Robust Speaker Recognition and Anti-Spoofing

Loading Session Data ...

Sat-O-5-6 : Speech Enhancement and Applications

Loading Session Data ...

Sat-P-5-1 : Speech Analysis

Loading Session Data ...

Sat-P-5-2 : Speaker Recognition

Loading Session Data ...

Sat-P-5-3 : Decoding, System Combination

Loading Session Data ...

Sat-P-5-4 : Special Session: Clinical and Neuroscience-Inspired Vocal Biomarkers of Neurological and Psychiatric Disorders

Loading Session Data ...

Sat-S&T-5 : Show & Tell Session 5

Loading Session Data ...

Sun-Keynote-3 : Keynote 3: Anne Fernald

Loading Session Data ...

Sun-O-6-1 : Far-Field Speech Processing

Loading Session Data ...

Sun-O-6-2 : Special Session: Interspeech 2016 Computational Paralinguistics Challenge (ComParE): Deception, Sincerity & Native Language

Loading Session Data ...

Sun-O-6-3 : Special Session: Speech, Audio, and Language Processing Techniques Applied to Bird and Animal Vocalizations

Loading Session Data ...

Sun-O-6-4 : Dialogue Systems and Analysis of Dialogue

Loading Session Data ...

Sun-O-6-5 : Interaction between Speech Production and Perception

Loading Session Data ...

Sun-O-6-6 : Multimodal Processing

Loading Session Data ...

Sun-P-6-1 : Pitch, Tone, and Music

Loading Session Data ...

Sun-P-6-2 : Speaker Diarization and Recognition

Loading Session Data ...

Sun-P-6-3 : Speech Synthesis Poster

Loading Session Data ...

Sun-P-6-4 : Language Model Adaptation

Loading Session Data ...

Sun-S&T-6 : Show & Tell Session 6

Loading Session Data ...

Sun-O-7-1 : Robustness in Speech Processing

Loading Session Data ...

Sun-O-7-2 : Special Session: Interspeech 2016 Computational Paralinguistics Challenge (ComParE): Deception, Sincerity & Native Language

Loading Session Data ...

Sun-O-7-3 : Acoustic and Articulatory Phonetics

Loading Session Data ...

Sun-O-7-4 : Speech Synthesis Oral I: Neural Networks

Loading Session Data ...

Sun-O-7-5 : Speech Quality & Intelligibility

Loading Session Data ...

Sun-O-7-6 : Speech Translation and Metadata for Linguistic/Discourse Structure

Loading Session Data ...

Sun-P-7-1 : Speech Coding and Audio Processing for Noise Reduction

Loading Session Data ...

Sun-P-7-2 : Special Session: Speech, Audio, and Language Processing Techniques Applied to Bird and Animal Vocalizations

Loading Session Data ...

Sun-P-7-3 : Learning, Education and Different Speech

Loading Session Data ...

Sun-P-7-4 : Dialogue Systems and Analysis of Dialogue

Loading Session Data ...

Sun-O-8-1 : Topics in Speech Recognition

Loading Session Data ...

Sun-O-8-2 : Special Session: Realism in Robust Speech Processing

Loading Session Data ...

Sun-O-8-3 : Spoken Word Recognition

Loading Session Data ...

Sun-O-8-4 : Speech Synthesis Oral: High Level Linguistic Features

Loading Session Data ...

Sun-O-8-5 : Speech Enhancement

Loading Session Data ...

Sun-O-8-6 : Dialogue: Backchannels and Turntaking

Loading Session Data ...

Sun-P-8-1 : Language Recognition

Loading Session Data ...

Sun-P-8-2 : Speech and Audio Segmentation and Classification

Loading Session Data ...

Sun-P-8-3 : New Products and Services

Loading Session Data ...

Sun-P-8-4 : Low Resource Speech Recognition

Loading Session Data ...

Mon-Keynote-4 : Keynote 4: Dan Jurafsky

Loading Session Data ...

Mon-SE-3 : Special Event: Speech Ventures

Loading Session Data ...

Mon-O-9-2 : Special Session: Speech and Language Technologies for Human-Machine Conversation-Based Language Education

Loading Session Data ...

Mon-O-9-3 : Phonation and Voice Quality

Loading Session Data ...

Mon-O-9-4 : Speech Synthesis Oral: Prosody and Expressive Speech

Loading Session Data ...

Mon-O-9-5 : Language Recognition

Loading Session Data ...

Mon-O-9-6 : Spoken Language Understanding Systems

Loading Session Data ...

Mon-P-9-1 : Language Recognition

Loading Session Data ...

Mon-P-9-2 : Music, Audio, and Source Separation

Loading Session Data ...

Mon-P-9-3 : Acoustic Modeling with Neural Networks

Loading Session Data ...

Mon-P-9-4 : Robustness and Adaptation

Loading Session Data ...

Mon-SE-4 : Special Event: Computational Approaches to Linguistic Code Switching

Loading Session Data ...

Mon-O-10-1 : Neural Networks for Language Modeling

Loading Session Data ...

Mon-O-10-2 : Special Session: Sub-Saharan African Languages: From Speech Fundamentals to Applications

Loading Session Data ...

Mon-O-10-3 : Speech Production Models

Loading Session Data ...

Mon-O-10-4 : Speaker States and Traits

Loading Session Data ...

Mon-O-10-5 : Speaker Recognition

Loading Session Data ...

Mon-O-10-6 : VAD and Audio Events

Loading Session Data ...

Mon-P-10-1 : Spoken Term Detection

Loading Session Data ...

Mon-P-10-2 : Speech Enhancement and Noise Reduction

Loading Session Data ...

Mon-P-10-3 : Far-Field, Robustness and Adaptation

Loading Session Data ...

Mon-P-10-4 : Low Resource Speech Recognition

Loading Session Data ...

Title List

Loading Paper Title Data ...

Code	Title
Fri-Keynote-1	A 50-Year Retrospective on Speech and Language Processing
Fri-O-1-1-1	Improving English Conversational Telephone Speech Recognition
Fri-O-1-1-2	The IBM 2016 English Conversational Telephone Speech Recognition System
Fri-O-1-1-3	Small-Footprint Deep Neural Networks with Highway Connections for Speech Recognition
Fri-O-1-1-4	Deep Convolutional Neural Networks with Layer-Wise Context Expansion and Attention
Fri-O-1-1-5	Lower Frame Rate Neural Network Acoustic Models
Fri-O-1-1-6	Improved Neural Network Initialization by Grouping Context-Dependent Targets for Acoustic Modeling
Fri-O-1-2-1	Automatic Scoring of Monologue Video Interviews Using Multimodal Cues
Fri-O-1-2-2	The Sound of Disgust: How Facial Expression May Influence Speech Production
Fri-O-1-2-3	Analyzing Temporal Dynamics of Dyadic Synchrony in Affective Interactions
Fri-O-1-2-4	Audiovisual Speech Scene Analysis in the Context of Competing Sources
Fri-O-1-2-5	Head Motion Generation with Synthetic Speech: A Data Driven Approach
Fri-O-1-2-6	The Consistency and Stability of Acoustic and Visual Cues for Different Prosodic Attitudes
Fri-O-1-2-7	Introduction to Poster Presentation of Part II
Fri-O-1-3-1	The Unit of Speech Encoding: The Case of Romanian
Fri-O-1-3-2	The Perceptual Effect of L1 Prosody Transplantation on L2 Speech: The Case of French Accented German
Fri-O-1-3-3	Organizing Syllables into Sandhi Domains — Evidence from F0 and Duration Patterns in Shanghai Chinese
Fri-O-1-3-4	Automatic Analysis of Phonetic Speech Style Dimensions
Fri-O-1-3-5	The Acoustic Manifestation of Prominence in Stressless Languages
Fri-O-1-3-6	The Rhythmic Constraint on Prosodic Boundaries in Mandarin Chinese Based on Corpora of Silent Reading and Speech Perception
Fri-O-1-4-1	Toward Development and Evaluation of Pain Level-Rating Scale for Emergency Triage based on Vocal Characteristics and Facial Expressions
Fri-O-1-4-2	Predicting Severity of Voice Disorder from DNN-HMM Acoustic Posteriors
Fri-O-1-4-3	Long-Term Stability of Tracheoesophageal Voices
Fri-O-1-4-4	Detecting Mild Cognitive Impairment from Spontaneous Speech by Correlation-Based Phonetic Feature Selection
Fri-O-1-4-5	Towards an Automated Screening Tool for Developmental Speech and Language Impairments
Fri-O-1-4-6	Spectral Enhancement of Cleft Lip and Palate Speech
Fri-O-1-5-1	Assessing Level-Dependent Segmental Contribution to the Intelligibility of Speech Processed by Single-Channel Noise-Suppression Algorithms
Fri-O-1-5-2	Effectiveness of Near-End Speech Enhancement Under Equal-Loudness and Equal-Level Constraints
Fri-O-1-5-3	Speech Synthesis in Noisy Environment by Enhancing Strength of Excitation and Formant Prominence
Fri-O-1-5-4	Relative Contributions of Amplitude and Phase to the Intelligibility Advantage of Ideal Binary Masked Sentences
Fri-O-1-5-5	Predicting Binaural Speech Intelligibility from Signals Estimated by a Blind Source Separation Algorithm
Fri-O-1-5-6	Automated Pause Insertion for Improved Intelligibility Under Reverberation
Fri-O-1-6-1	Automatic Classification of Phonation Modes in Singing Voice: Towards Singing Style Characterisation and Application to Ethnomusicological Recordings
Fri-O-1-6-2	Novel Nonlinear Prediction Based Features for Spoofed Speech Detection
Fri-O-1-6-3	Robust Vowel Landmark Detection Using Epoch-Based Features
Fri-O-1-6-4	Sensitivity of Quantitative RT-MRI Metrics of Vocal Tract Dynamics to Image Reconstruction Settings
Fri-O-1-6-5	Sound Pattern Matching for Automatic Prosodic Event Detection
Fri-O-1-6-6	Automatic Classification of Lexical Stress in English and Arabic Languages Using Deep Learning
Fri-P-1-1-1	Development of Mandarin Onset-Rime Detection in Relation to Age and Pinyin Instruction
Fri-P-1-1-2	Joint Effect of Dialect and Mandarin on English Vowel Production: A Case Study in Changsha EFL Learners
Fri-P-1-1-3	Effects of L1 Phonotactic Constraints on L2 Word Segmentation Strategies
Fri-P-1-1-4	Putting German [ʃ] and [ç] in Two Different Boxes: Native German vs L2 German of French Learners
Fri-P-1-1-5	Naturalness Judgement of L2 English Through Dubbing Practice
Fri-P-1-1-6	Audiovisual Training Effects for Japanese Children Learning English /r/-/l/
Fri-P-1-1-7	L2 Acquisition and Production of the English Rhotic Pharyngeal Gesture
Fri-P-1-2-1	Auditory-Visual Perception of VCVs Produced by People with Down Syndrome: Preliminary Results
Fri-P-1-2-2	Combining Non-Pathological Data of Different Language Varieties to Improve DNN-HMM Performance on Pathological Speech
Fri-P-1-2-3	Evaluation of a Phone-Based Anomaly Detection Approach for Dysarthric Speech
Fri-P-1-2-4	Recognition of Dysarthric Speech Using Voice Parameters for Speaker Adaptation and Multi-Taper Spectral Estimation
Fri-P-1-2-5	Impaired Categorical Perception of Mandarin Tones and its Relationship to Language Ability in Autism Spectrum Disorders
Fri-P-1-2-6	Perceived Naturalness of Electrolaryngeal Speech Produced Using sEMG-Controlled vs. Manual Pitch Modulation
Fri-P-1-2-7	Identifying Hearing Loss from Learned Speech Kernels
Fri-P-1-2-8	Differential Effects of Velopharyngeal Dysfunction on Speech Intelligibility During Early and Late Stages of Amyotrophic Lateral Sclerosis
Fri-P-1-2-9	The Production of Intervocalic Glides in Non Dysarthric Parkinsonian Speech
Fri-P-1-2-10	Auditory Processing Impairments Under Background Noise in Children with Non-Syndromic Cleft Lip and/or Palate
Fri-P-1-2-11	Modulation Spectral Features for Predicting Vocal Emotion Recognition by Simulated Cochlear Implants
Fri-P-1-2-12	Automatic Discrimination of Soft Voice Onset Using Acoustic Features of Breathy Voicing
Fri-P-1-2-13	Effect of Noise on Lexical Tone Perception in Cantonese-Speaking Amusics
Fri-P-1-2-14	Audio-Visual Speech Recognition Using Bimodal-Trained Bottleneck Features for a Person with Severe Hearing Loss
Fri-P-1-2-15	Perception of Tone in Whispered Mandarin Sentences: The Case for Singapore Mandarin
Fri-P-1-3-1	A KL Divergence and DNN-Based Approach to Voice Conversion without Parallel Training Sentences
Fri-P-1-3-2	Parallel Dictionary Learning for Voice Conversion Using Discriminative Graph-Embedded Non-Negative Matrix Factorization
Fri-P-1-3-3	Speech Bandwidth Extension Using Bottleneck Features and Deep Recurrent Neural Networks
Fri-P-1-3-4	Voice Conversion Based on Matrix Variate Gaussian Mixture Model Using Multiple Frame Features
Fri-P-1-3-5	Voice Conversion Based on Trajectory Model Training of Neural Networks Considering Global Variance
Fri-P-1-3-6	Comparing Articulatory and Acoustic Strategies for Reducing Non-Native Accents
Fri-P-1-3-7	Cross-Lingual Speaker Adaptation for Statistical Speech Synthesis Using Limited Data
Fri-P-1-3-8	Personalized, Cross-Lingual TTS Using Phonetic Posteriorgrams
Fri-P-1-3-9	Acoustic Analysis of Syllables Across Indian Languages
Fri-P-1-3-10	Objective Evaluation Methods for Chinese Text-To-Speech Systems
Fri-P-1-3-11	Objective Evaluation Using Association Between Dimensions Within Spectral Features for Statistical Parametric Speech Synthesis
Fri-P-1-3-12	A Hierarchical Predictor of Synthetic Speech Naturalness Using Neural Networks
Fri-P-1-3-13	Text-to-Speech for Individuals with Vision Loss: A User Study
Fri-P-1-3-14	Speech Enhancement for a Noise-Robust Text-to-Speech Synthesis System Using Deep Recurrent Neural Networks
Fri-P-1-3-15	Data Selection and Adaptation for Naturalness in HMM-Based Speech Synthesis
Fri-P-1-4-1	A Portable Automatic PA-TA-KA Syllable Detection System to Derive Biomarkers for Neurological Disorders
Fri-P-1-4-2	Deep Neural Networks for i-Vector Language Identification of Short Utterances in Cars
Fri-P-1-4-3	Improving i-Vector and PLDA Based Speaker Clustering with Long-Term Features
Fri-S&T-1-1	Open Language Interface for Voice Exploitation (OLIVE)
Fri-S&T-1-2	A Multimodal Dialogue System for Air Traffic Control Trainees Based on Discrete-Event Simulation
Fri-S&T-1-3	Lig-Aikuma: A Mobile App to Collect Parallel Speech for Under-Resourced Language Studies
Fri-S&T-1-4	ARET — Automatic Reading of Educational Texts for Visually Impaired Students
Fri-O-2-1-1	Segmental Recurrent Neural Networks for End-to-End Speech Recognition
Fri-O-2-1-2	Acoustic Modeling Using Bidirectional Gated Recurrent Convolutional Units
Fri-O-2-1-3	Exploiting Depth and Highway Connections in Convolutional Recurrent Deep Neural Networks for Speech Recognition
Fri-O-2-1-4	Stimulated Deep Neural Network for Speech Recognition
Fri-O-2-1-5	Phonetic Context Embeddings for DNN-HMM Phone Recognition
Fri-O-2-1-6	Towards End-to-End Speech Recognition with Deep Convolutional Neural Networks
Fri-O-2-2-1	Joint Speaker and Lexical Modeling for Short-Term Characterization of Speaker
Fri-O-2-2-2	Tandem Features for Text-Dependent Speaker Verification on the RedDots Corpus
Fri-O-2-2-3	Text Dependent Speaker Verification Using Un-Supervised HMM-UBM and Temporal GMM-UBM
Fri-O-2-2-4	Utterance Verification for Text-Dependent Speaker Recognition: A Comparative Assessment Using the RedDots Corpus
Fri-O-2-2-5	Parallel Speaker and Content Modelling for Text-Dependent Speaker Verification
Fri-O-2-2-6	i-Vector/HMM Based Text-Dependent Speaker Verification System for RedDots Challenge
Fri-O-2-2-7	Exploring Session Variability and Template Aging in Speaker Verification for Fixed Phrase Short Utterances
Fri-O-2-3-1	Prediction of the Articulatory Movements of Unseen Phonemes of a Speaker Using the Speech Structure of Another Speaker
Fri-O-2-3-2	Vocal Tract Length Normalization for Speaker Independent Acoustic-to-Articulatory Speech Inversion
Fri-O-2-3-3	Investigation of Speed-Accuracy Tradeoffs in Speech Production Using Real-Time Magnetic Resonance Imaging
Fri-O-2-3-4	Characterizing Vocal Tract Dynamics Across Speakers Using Real-Time MRI
Fri-O-2-3-5	Tracking Contours of Orofacial Articulators from Real-Time MRI of Speech
Fri-O-2-3-6	State-of-the-Art MRI Protocol for Comprehensive Assessment of Vocal Tract Structure and Function
Fri-O-2-4-1	DBN-ivector Framework for Acoustic Emotion Recognition
Fri-O-2-4-2	An Investigation of Emotional Speech in Depression Classification
Fri-O-2-4-3	Retrieving Categorical Emotions Using a Probabilistic Framework to Define Preference Learning Samples
Fri-O-2-4-4	At the Border of Acoustics and Linguistics: Bag-of-Audio-Words for the Recognition of Emotions in Speech
Fri-O-2-4-5	Speech Emotion Recognition Using Affective Saliency
Fri-O-2-4-6	Laughter Valence Prediction in Motivational Interviewing Based on Lexical and Acoustic Cues
Fri-O-2-5-1	Respiratory Belts and Whistles: A Preliminary Study of Breathing Acoustics for Turn-Taking
Fri-O-2-5-2	/r/ as Language Marker in Bilingual Speech Production and Perception
Fri-O-2-5-3	Evaluation of Phonatory Behavior of German and French Speakers in Native and Non-Native Speech
Fri-O-2-5-4	Today’s Most Frequently Used F₀ Estimation Methods, and Their Accuracy in Estimating Male and Female Pitch in Clean Speech
Fri-O-2-5-5	A Praat-Based Algorithm to Extract the Amplitude Envelope and Temporal Fine Structure Using the Hilbert Transform
Fri-O-2-5-6	Likelihood Ratio Calculation in Acoustic-Phonetic Forensic Voice Comparison: Comparison of Three Statistical Modelling Approaches
Fri-O-2-6-1	A Sparse Spherical Harmonic-Based Model in Subbands for Head-Related Transfer Functions
Fri-O-2-6-2	Single-Channel Multi-Speaker Separation Using Deep Clustering
Fri-O-2-6-3	Jointly Optimizing Activation Coefficients of Convolutive NMF Using DNN for Speech Separation
Fri-O-2-6-4	A Feature Study for Masking-Based Reverberant Speech Separation
Fri-O-2-6-5	Discriminative Layered Nonnegative Matrix Factorization for Speech Separation
Fri-O-2-6-6	On Discriminative Framework for Single Channel Audio Source Separation
Fri-P-2-1-1	Generating Natural Video Descriptions via Multimodal Processing
Fri-P-2-1-2	Feature-Level Decision Fusion for Audio-Visual Word Prominence Detection
Fri-P-2-1-3	Acoustic and Visual Analysis of Expressive Speech: A Case Study of French Acted Speech
Fri-P-2-1-4	Characterization of Audiovisual Dramatic Attitudes
Fri-P-2-1-5	Conversational Engagement Recognition Using Auditory and Visual Cues
Fri-P-2-1-6	An Acoustic Analysis of Child-Child and Child-Robot Interactions for Understanding Engagement during Speech-Controlled Computer Games
Fri-P-2-1-7	Auditory-Visual Lexical Tone Perception in Thai Elderly Listeners with and without Hearing Impairment
Fri-P-2-1-8	Use of Agreement/Disagreement Classification in Dyadic Interactions for Continuous Emotion Recognition
Fri-P-2-2-1	Microscopic Multilingual Matrix Test Predictions Using an ASR-Based Speech Recognition Model
Fri-P-2-2-2	DNN-Based Automatic Speech Recognition as a Model for Human Phoneme Perception
Fri-P-2-2-3	Undoing Misperceptions: A Microscopic Analysis of Consistent Confusions Through Signal Modifications
Fri-P-2-2-4	Blind Non-Intrusive Speech Intelligibility Prediction Using Twin-HMMs
Fri-P-2-2-5	Misperceptions Arising from Speech-in-Babble Interactions
Fri-P-2-2-6	Introducing Temporal Rate Coding for Speech in Cochlear Implants: A Microscopic Evaluation in Humans and Models
Fri-P-2-2-7	Language Effects in Noise-Induced Word Misperceptions
Fri-P-2-2-8	Speech Reductions Cause a De-Weighting of Secondary Acoustic Cues
Fri-P-2-2-9	Using Phonologically Weighted Levenshtein Distances for the Prediction of Microscopic Intelligibility
Fri-P-2-2-10	The Impact of Manner of Articulation on the Intelligibility of Voicing Contrast in Noise: Cross-Linguistic Implications
Fri-P-2-2-11	Directly Comparing the Listening Strategies of Humans and Machines
Fri-P-2-3-1	LSTM-Based NeuroCRFs for Named Entity Recognition
Fri-P-2-3-2	Exploring Word Mover’s Distance and Semantic-Aware Embedding Techniques for Extractive Broadcast News Summarization
Fri-P-2-3-3	Improved Neural Bag-of-Words Model to Retrieve Out-of-Vocabulary Words in Speech Recognition
Fri-P-2-3-4	Beyond Utterance Extraction: Summary Recombination for Speech Summarization
Fri-P-2-3-5	Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling
Fri-P-2-3-6	Domain Adaptation of Recurrent Neural Networks for Natural Language Understanding
Fri-P-2-3-7	LatticeRnn: Recurrent Neural Networks Over Lattices
Fri-P-2-3-8	Learning Document Representations Using Subspace Multinomial Model
Fri-P-2-3-9	Attention-Based Convolutional Neural Networks for Sentence Classification
Fri-P-2-3-10	Spoken Language Understanding in a Latent Topic-Based Subspace
Fri-P-2-3-11	Multi-Domain Joint Semantic Frame Parsing Using Bi-Directional RNN-LSTM
Fri-P-2-3-12	Deep Stacked Autoencoders for Spoken Language Understanding
Fri-P-2-3-13	Labeled Data Generation with Encoder-Decoder LSTM for Semantic Slot Filling
Fri-P-2-3-14	Exploring the Correlation of Pitch Accents and Semantic Slots for Spoken Language Understanding
Fri-P-2-3-15	Analysis on Gated Recurrent Unit Based Question Detection Approach
Fri-P-2-4-1	Combining State-Level Spotting and Posterior-Based Acoustic Match for Improved Query-by-Example Spoken Term Detection
Fri-P-2-4-2	A Novel Discriminative Score Calibration Method for Keyword Search
Fri-P-2-4-3	Segmented Dynamic Time Warping for Spoken Query-by-Example Search
Fri-P-2-4-4	Generating Complementary Acoustic Model Spaces in DNN-Based Sequence-to-Frame DTW Scheme for Out-of-Vocabulary Spoken Term Detection
Fri-P-2-4-5	Multi-Task Learning and Weighted Cross-Entropy for DNN-Based Keyword Spotting
Fri-P-2-4-6	Audio Word2Vec: Unsupervised Learning of Audio Segment Representations Using Sequence-to-Sequence Autoencoder
Fri-P-2-4-7	Non-Uniform Boosted MCE Training of Deep Neural Networks for Keyword Spotting
Fri-P-2-4-8	Language Model Data Augmentation for Keyword Spotting in Low-Resourced Training Conditions
Fri-S&T-2-1	STON: Efficient Subtitling in Dutch Using State-of-the-Art Tools
Fri-S&T-2-2	An Automatic Training Tool for Air Traffic Control Training
Fri-S&T-2-3	Digitala: An Augmented Test and Review Process Prototype for High-Stakes Spoken Foreign Language Examination
Fri-S&T-2-4	Exploring Collections of Multimedia Archives Through Innovative Interfaces in the Context of Digital Humanities
Fri-O-3-1-1	Learning Neural Network Representations Using Cross-Lingual Bottleneck Features with Word-Pair Information
Fri-O-3-1-2	Novel Front-End Features Based on Neural Graph Embeddings for DNN-HMM and LSTM-CTC Acoustic Modeling
Fri-O-3-1-3	Articulatory Feature Extraction Using CTC to Build Articulatory Classifiers Without Forced Frame Alignments for Speech Recognition
Fri-O-3-1-4	On the Role of Nonlinear Transformations in Deep Neural Network Acoustic Models
Fri-O-3-1-5	Complex Linear Projection (CLP): A Discriminative Approach to Joint Feature Extraction and Acoustic Modeling
Fri-O-3-1-6	Modeling Time-Frequency Patterns with LSTM vs. Convolutional Architectures for LVCSR Tasks
Fri-O-3-2-1	The Speakers in the Wild (SITW) Speaker Recognition Database
Fri-O-3-2-2	The 2016 Speakers in the Wild Speaker Recognition Evaluation
Fri-O-3-2-3	Analysis of Speaker Recognition Systems in Realistic Scenarios of the SITW 2016 Challenge
Fri-O-3-2-4	A Speaker Recognition System for the SITW Challenge
Fri-O-3-2-5	Speakers In The Wild (SITW): The QUT Speaker Recognition System
Fri-O-3-2-6	AUT System for SITW Speaker Recognition Challenge
Fri-O-3-2-7	LIA System for the SITW Speaker Recognition Challenge
Fri-O-3-2-8	Investigating Various Diarization Algorithms for Speaker in the Wild (SITW) Speaker Recognition Challenge
Fri-O-3-3-1	Does the Importance of Word-Initial and Word-Final Information Differ in Native versus Non-Native Spoken-Word Recognition?
Fri-O-3-3-2	The Effect of Sentence Accent on Non-Native Speech Perception in Noise
Fri-O-3-3-3	The Effects of Modified Speech Styles on Intelligibility for Non-Native Listeners
Fri-O-3-3-4	The Influence of Language Experience on the Categorical Perception of Vowels: Evidence from Mandarin and Korean
Fri-O-3-3-5	Multiple Influences on Vocabulary Acquisition: Parental Input Dominates
Fri-O-3-3-6	Can Intensive Exposure to Foreign Language Sounds Affect the Perception of Native Sounds?
Fri-O-3-4-1	Privacy-Preserving Speech Analytics for Automatic Assessment of Student Collaboration
Fri-O-3-4-2	Complexity in Prosody: A Nonlinear Dynamical Systems Approach for Dyadic Conversations; Behavior and Outcomes in Couples Therapy
Fri-O-3-4-3	Couples Behavior Modeling and Annotation Using Low-Resource LSTM Language Models
Fri-O-3-4-4	Speech Likability and Personality-Based Social Relations: A Round-Robin Analysis over Communication Channels
Fri-O-3-4-5	Behavioral Coding of Therapist Language in Addiction Counseling Using Recurrent Neural Networks
Fri-O-3-4-6	Factor Analysis Based Speaker Normalisation for Continuous Emotion Prediction
Fri-O-3-5-1	Subspace Detection of DNN Posterior Probabilities via Sparse Representation for Query by Example Spoken Term Detection
Fri-O-3-5-2	Unsupervised Bottleneck Features for Low-Resource Query-by-Example Spoken Term Detection
Fri-O-3-5-3	A Nonparametric Bayesian Approach for Spoken Term Detection by Example Query
Fri-O-3-5-4	Rescoring Hypothesized Detections of Out-of-Vocabulary Keywords Using Subword Samples
Fri-O-3-5-5	Unrestricted Vocabulary Keyword Spotting Using LSTM-CTC
Fri-O-3-5-6	Interactive Spoken Content Retrieval by Deep Reinforcement Learning
Fri-O-3-6-1	Relating Estimated Cyclic Spectral Peak Frequency to Measured Epilarynx Length Using Magnetic Resonance Imaging
Fri-O-3-6-2	Acoustic-to-Articulatory Inversion Mapping Based on Latent Trajectory Gaussian Mixture Model
Fri-O-3-6-3	Formant Estimation and Tracking Using Deep Learning
Fri-O-3-6-4	Convex Hull Convolutive Non-Negative Matrix Factorization for Uncovering Temporal Patterns in Multivariate Time-Series Data
Fri-O-3-6-5	Majorisation-Minimisation Based Optimisation of the Composite Autoregressive System with Application to Glottal Inverse Filtering
Fri-O-3-6-6	F₀ Contour Analysis Based on Empirical Mode Decomposition for DNN Acoustic Modeling in Mandarin Speech Recognition
Fri-P-3-1-1	Vowels and Diphthongs in Cangnan Southern Min Chinese Dialect
Fri-P-3-1-2	Diphthongization of Nuclear Vowels and the Emergence of a Tetraphthong in Hetang Cantonese
Fri-P-3-1-3	PhonVoc: A Phonetic and Phonological Vocoding Toolkit
Fri-P-3-1-4	Vowels and Diphthongs in the Taiyuan Jin Chinese Dialect
Fri-P-3-1-5	The Effects of Prosody on French V-to-V Coarticulation: A Corpus-Based Study
Fri-P-3-1-6	An Acoustic Analysis of /r/ in Tyrolean
Fri-P-3-1-7	Hyperarticulated Production of Korean Glides by Age Group
Fri-P-3-1-8	Coda Stop and Taiwan Min Checked Tone Sound Changes
Fri-P-3-2-1	The Influence of Modality and Speaking Style on the Assimilation Type and Categorization Consistency of Non-Native Speech
Fri-P-3-2-2	Prosodic Convergence with Spoken Stimuli in Laboratory Data
Fri-P-3-2-3	Effects of Stress on Fricatives: Evidence from Standard Modern Greek
Fri-P-3-2-4	Analysis of Chinese Syllable Durations in Running Speech of Japanese L2 Learners
Fri-P-3-2-5	Automatic Paragraph Segmentation with Lexical and Prosodic Features
Fri-P-3-2-6	Automatic Glottal Inverse Filtering with Non-Negative Matrix Factorization
Fri-P-3-2-7	Speaker Identity and Voice Quality: Modeling Human Responses and Automatic Speaker Recognition
Fri-P-3-2-8	Analysis of Glottal Stop in Assam Sora Language
Fri-P-3-2-9	Acoustic Differences Between English /t/ Glottalization and Phrasal Creak
Fri-P-3-2-10	The Acoustics of Lexical Stress in Italian as a Function of Stress Level and Speaking Style
Fri-P-3-2-11	Cross-Gender and Cross-Dialect Tone Recognition for Vietnamese
Fri-P-3-2-12	Prosody Modification Using Allpass Residual of Speech Signals
Fri-P-3-2-13	Analyzing the Contribution of Top-Down Lexical and Bottom-Up Acoustic Cues in the Detection of Sentence Prominence
Fri-P-3-2-14	A Longitudinal Study of Children’s Intonation in Narrative Speech
Fri-P-3-3-1	Velum Control for Oral Sounds
Fri-P-3-3-2	F0 Development in Acquiring Korean Stop Distinction
Fri-P-3-3-3	Phonetic Reduction Can Lead to Lengthening, and Enhancement Can Lead to Shortening
Fri-P-3-3-4	Mechanical Production of [b], [m] and [w] Using Controlled Labial and Velopharyngeal Gestures
Fri-P-3-3-5	An Improved 3D Geometric Tongue Model
Fri-P-3-3-6	Congruency Effect Between Articulation and Grasping in Native English Speakers
Fri-P-3-3-7	Emergence of Vocal Developmental Sequences in a Predictive Coding Model of Speech Acquisition
Fri-P-3-3-8	Categorization of Natural Spanish Whistled Vowels by Naïve Spanish Listeners
Fri-P-3-3-9	Between- and Within-Speaker Effects of Bilingualism on F0 Variation
Fri-P-3-3-10	Vowel Characteristics in the Assessment of L2 English Pronunciation
Fri-P-3-3-11	Kulning (Swedish Cattle Calls): Acoustic, EGG, Stroboscopic and High-Speed Video Analyses of an Unusual Singing Style
Fri-P-3-3-12	Glottal Squeaks in VC Sequences
Fri-P-3-3-13	Automatic Pronunciation Generation by Utilizing a Semi-Supervised Deep Neural Networks
Fri-P-3-4-1	Personalized Natural Language Understanding
Fri-P-3-4-2	A Sequence-to-Sequence Model for User Simulation in Spoken Dialogue Systems
Fri-P-3-4-3	Root Cause Analysis of Miscommunication Hotspots in Spoken Dialogue Systems
Fri-P-3-4-4	Making Personal Digital Assistants Aware of What They Do Not Know
Fri-P-3-4-5	Implementing Acoustic-Prosodic Entrainment in a Conversational Avatar
Fri-P-3-4-6	Perceived Usability and Cognitive Demand of Secondary Tasks in Spoken Versus Visual-Manual Automotive Interaction
Fri-S&T-3-1	Zara: An Empathetic Interactive Virtual Agent
Fri-S&T-3-2	Measuring Pronunciation Improvement in Users of CAPT Tool TipTopTalk!
Fri-S&T-3-3	SparkNG: Interactive MATLAB Tools for Introduction to Speech Production, Perception and Processing Fundamentals and Application of the Aliasing-Free L-F Model Component
Fri-S&T-3-4	Real-Time Tracking of Speakers’ Emotions, States, and Traits on Mobile Platforms
Sat-SE-1	Mindfulness Special Event
Sat-Keynote-2	The Human Speech Cortex
Sat-SE-2	Speaker Comparison for Forensic and Investigative Applications II
Sat-O-4-2-1	Acoustic-Prosodic and Turn-Taking Features in Interactions with Children with Neurodevelopmental Disorders
Sat-O-4-2-2	Automatic Detection of Parkinson’s Disease Based on Modulated Vowels
Sat-O-4-2-3	Towards Automatic Detection of Amyotrophic Lateral Sclerosis from Speech Acoustic and Articulatory Samples
Sat-O-4-2-4	Neurophysiological Vocal Source Modeling for Biomarkers of Disease
Sat-O-4-2-5	Relation of Automatically Extracted Formant Trajectories with Intelligibility Loss and Speaking Rate Decline in Amyotrophic Lateral Sclerosis
Sat-O-4-2-6	Automatic Analysis of Typical and Atypical Encoding of Spontaneous Emotion in the Voice of Children
Sat-O-4-2-7	Recognition of Depression in Bipolar Disorder: Leveraging Cohort and Person-Specific Knowledge
Sat-O-4-2-8	Diagnosing People with Dementia Using Automatic Conversation Analysis
Sat-O-4-3-1	SERAPHIM: A Wavetable Synthesis System with 3D Lip Animation for Real-Time Speech and Singing Applications on Mobile Platforms
Sat-O-4-3-2	Expressive Singing Synthesis Based on Unit Selection for the Singing Synthesis Challenge 2016
Sat-O-4-3-3	Vocal Effort Modification for Singing Synthesis
Sat-O-4-3-4	Bertsokantari: a TTS Based Singing Synthesis System
Sat-O-4-3-5	Evaluation of Singing Synthesis: Methodology and Case Study with Concatenative and Performative Systems
Sat-O-4-3-6	Expressive Control of Singing Voice Synthesis Using Musical Contexts and a Parametric F0 Model
Sat-O-4-3-7	Optimal Unit Stitching in a Unit Selection Singing Synthesis System
Sat-O-4-4-1	The Perception of Overlapping Speech: Effects of Speaker Prosody and Listener Attitudes
Sat-O-4-4-2	Who Do You Think Will Speak Next? Perception of Turn-Taking Cues in Slovak and Argentine Spanish
Sat-O-4-4-3	Disentrainment may be a Positive Thing: A Novel Measure of Unsigned Acoustic-Prosodic Synchrony, and its Relation to Speaker Engagement
Sat-O-4-4-4	Respiratory Turn-Taking Cues
Sat-O-4-4-5	The Discourse Marker “so” in Turn-Taking and Turn-Releasing Behavior
Sat-O-4-4-6	Acoustic Properties of Formality in Conversational Japanese
Sat-O-4-5-1	Inferring Phonemic Classes from CNN Activation Maps Using Clustering Techniques
Sat-O-4-5-2	Joint Learning of Speaker and Phonetic Similarities with Siamese Networks
Sat-O-4-5-3	Unsupervised Learning of Acoustic Units Using Autoencoders and Kohonen Nets
Sat-O-4-5-4	Learning Multiscale Features Directly from Waveforms
Sat-O-4-5-5	Supervised Learning of Acoustic Models in a Zero Resource Setting to Improve DPGMM Clustering
Sat-O-4-5-6	Semi-Supervised and Cross-Lingual Knowledge Transfer Learnings for DNN Hybrid Acoustic Models Under Low-Resource Conditions
Sat-O-4-6-1	Recurrent Out-of-Vocabulary Word Detection Using Distribution of Features
Sat-O-4-6-2	Investigation of Semi-Supervised Acoustic Model Training Based on the Committee of Heterogeneous Neural Networks
Sat-O-4-6-3	Acoustic Word Embeddings for ASR Error Detection
Sat-O-4-6-4	Combining Semantic Word Classes and Sub-Word Unit Speech Recognition for Robust OOV Detection
Sat-O-4-6-5	Web Data Selection Based on Word Embedding for Low-Resource Speech Recognition
Sat-O-4-6-6	Colloquialising Modern Standard Arabic Text for Improved Speech Recognition
Sat-P-4-1-1	Pitch-Range Perception: The Dynamic Interaction Between Voice Quality and Fundamental Frequency
Sat-P-4-1-2	Comparing the Contributions of Amplitude and Phase to Speech Intelligibility in a Vocoder-Based Speech Synthesis Model
Sat-P-4-1-3	Modeling Noise Influence to Speech Intelligibility Non-Intrusively by Reduced Speech Dynamic Range
Sat-P-4-1-4	Do GMM Phoneme Classifiers Perceive Synthetic Sibilants as Humans Do?
Sat-P-4-1-5	Neural Responses to Speech-Specific Modulations Derived from a Spectro-Temporal Filter Bank
Sat-P-4-1-6	Comparing Different Methods for Analyzing ERP Signals
Sat-P-4-1-7	Supplementary Motor Area Activation in Disfluency Perception: An fMRI Study of Listener Neural Responses to Spontaneously Produced Unfilled and Filled Pauses
Sat-P-4-1-8	Vowel Fundamental and Formant Frequency Contributions to English and Mandarin Sentence Intelligibility
Sat-P-4-2-1	Attention Assisted Discovery of Sub-Utterance Structure in Speech Emotion Recognition
Sat-P-4-2-2	Combining CNN and BLSTM to Extract Textual and Acoustic Features for Recognizing Stances in Mandarin Ideological Debate Competition
Sat-P-4-2-3	Inter-Speech Clicks in an Interspeech Keynote
Sat-P-4-2-4	Speaker Age Classification and Regression Using i-Vectors
Sat-P-4-2-5	Sparsely Connected and Disjointly Trained Deep Neural Networks for Low Resource Behavioral Annotation: Acoustic Classification in Couples’ Therapy
Sat-P-4-2-6	Automatically Classifying Self-Rated Personality Scores from Speech
Sat-P-4-2-7	Estimation of Children’s Physical Characteristics from Their Voices
Sat-P-4-2-8	Talking to a System and Talking to a Human: A Study from a Speech-to-Speech, Machine Translation Mediated Map Task
Sat-P-4-2-9	Predicting Affective Dimensions Based on Self Assessed Depression Severity
Sat-P-4-2-10	Enhancement of Automatic Oral Presentation Assessment System Using Latent N-Grams Word Representation and Part-of-Speech Information
Sat-P-4-2-11	Use of Vowels in Discriminating Speech-Laugh from Laughter and Neutral Speech
Sat-P-4-2-12	A Convex Model for Linguistic Influence in Group Conversations
Sat-P-4-2-13	A Deep Learning Approach to Modeling Empathy in Addiction Counseling
Sat-P-4-2-14	Unipolar Depression vs. Bipolar Disorder: An Elicitation-Based Approach to Short-Term Detection of Mood Disorder
Sat-P-4-3-1	Conditional Random Fields for the Tunisian Dialect Grapheme-to-Phoneme Conversion
Sat-P-4-3-2	Efficient Thai Grapheme-to-Phoneme Conversion Using CRF-Based Joint Sequence Modeling
Sat-P-4-3-3	An Articulatory-Based Singing Voice Synthesis Using Tongue and Lips Imaging
Sat-P-4-3-4	Phoneme Embedding and its Application to Speech Driven Talking Avatar Synthesis
Sat-P-4-3-5	Expressive Speech Driven Talking Avatar Synthesis with DBLSTM Using Limited Amount of Emotional Bimodal Data
Sat-P-4-3-6	Audio-to-Visual Speech Conversion Using Deep Neural Networks
Sat-P-4-3-7	Generative Acoustic-Phonemic-Speaker Model Based on Three-Way Restricted Boltzmann Machine
Sat-P-4-3-8	Articulatory Synthesis Based on Real-Time Magnetic Resonance Imaging Data
Sat-P-4-3-9	Deep Neural Network Based Acoustic-to-Articulatory Inversion Using Phone Sequence Information
Sat-P-4-3-10	Articulatory-to-Acoustic Conversion with Cascaded Prediction of Spectral and Excitation Features Using Neural Networks
Sat-P-4-3-11	Generating Gestural Scores from Acoustics Through a Sparse Anchor-Based Representation of Speech
Sat-P-4-3-12	On the Suitability of Vocalic Sandwiches in a Corpus-Based TTS Engine
Sat-P-4-3-13	Unsupervised Stress Information Labeling Using Gaussian Process Latent Variable Model for Statistical Speech Synthesis
Sat-P-4-3-14	Using Zero-Frequency Resonator to Extract Multilingual Intonation Structure
Sat-P-4-4-1	A DNN-HMM Approach to Story Segmentation
Sat-P-4-4-2	The SIWIS Database: A Multilingual Speech Database with Acted Emphasis
Sat-P-4-4-3	Open Source Speech and Language Resources for Frisian
Sat-P-4-4-4	The SRI CLEO Speaker-State Corpus
Sat-P-4-4-5	SingaKids-Mandarin: Speech Corpus of Singaporean Children Speaking Mandarin Chinese
Sat-P-4-4-6	The SRI Speech-Based Collaborative Learning Corpus
Sat-P-4-4-7	An Expectation Maximization Approach to Joint Modeling of Multidimensional Ratings Derived from Multiple Annotators
Sat-P-4-4-8	Voting Detector: A Combination of Anomaly Detectors to Reveal Annotation Errors in TTS Corpora
Sat-S&T-4-1	The Magic Stone: A Video Game to Improve Communication Skills of People with Intellectual Disabilities
Sat-S&T-4-2	Identifying Perceptually Similar Voices with a Speaker Recognition System Using Auto-Phonetic Features
Sat-S&T-4-3	A Real-Time Framework for Visual Feedback of Articulatory Data Using Statistical Shape Models
Sat-S&T-4-4	Flexible, Rapid Authoring of Goal-Orientated, Multi-Turn Dialogues Using the Task Completion Platform
Sat-O-5-1-1	Context Adaptive Neural Network for Rapid Adaptation of Deep CNN Based Acoustic Models
Sat-O-5-1-2	Transfer Learning with Bottleneck Feature Networks for Whispered Speech Recognition
Sat-O-5-1-3	Adaptation of Neural Networks Constrained by Prior Statistics of Node Co-Activations
Sat-O-5-1-4	Domain Adaptation of CNN Based Acoustic Models Under Limited Resource Settings
Sat-O-5-1-5	Subspace LHUC for Fast Adaptation of Deep Neural Network Acoustic Models
Sat-O-5-1-6	Improving Children’s Speech Recognition Through Out-of-Domain Data Augmentation
Sat-O-5-2-1	Virtual Machines and Containers as a Platform for Experimentation
Sat-O-5-2-2	CloudCAST — Remote Speech Technology for Speech Professionals
Sat-O-5-2-3	webASR 2 — Improved Cloud Based Speech Technology
Sat-O-5-2-4	Sharing Speech Synthesis Software for Research and Education Within Low-Tech and Low-Resource Communities
Sat-O-5-2-5	The Berkeley Phonetics Machine
Sat-O-5-2-6	Experiences with Shared Resources for Research and Education in Speech and Language Processing
Sat-O-5-2-7	Panel and Audience Discussion: How do we Develop, Disseminate, and Sustain Shared Resources from User and Developer Perspectives?
Sat-O-5-3-1	The Voice Conversion Challenge 2016
Sat-O-5-3-2	Analysis of the Voice Conversion Challenge 2016 Evaluation Results
Sat-O-5-3-3	The USTC System for Voice Conversion Challenge 2016: Neural Network Based Approaches for Spectrum, Aperiodicity and F₀ Conversion
Sat-O-5-3-4	A Voice Conversion Mapping Function Based on a Stacked Joint-Autoencoder
Sat-O-5-3-5	Locally Linear Embedding for Exemplar-Based Spectral Conversion
Sat-O-5-3-6	Applying Spectral Normalisation and Efficient Envelope Estimation and Statistical Transformation for the Voice Conversion Challenge 2016
Sat-O-5-3-7	ML Parameter Generation with a Reformulated MGE Training Criterion — Participation in the Voice Conversion Challenge 2016
Sat-O-5-3-8	The NU-NAIST Voice Conversion System for the Voice Conversion Challenge 2016
Sat-O-5-4-1	Release from Energetic Masking Caused by Repeated Patterns of Glimpsing Windows
Sat-O-5-4-2	Glimpsing Predictions for Natural and Vocoded Sentence Intelligibility During Modulation Masking: Effect of the Glimpse Cutoff Criterion
Sat-O-5-4-3	Temporal Envelopes in Sine-Wave Speech Recognition
Sat-O-5-4-4	Understanding Periodically Interrupted Mandarin Speech
Sat-O-5-4-5	Factors Affecting the Intelligibility of Sine-Wave Speech
Sat-O-5-4-6	Effects of Urgent Speech and Preceding Sounds on Speech Intelligibility in Noisy and Reverberant Environments
Sat-O-5-5-1	Integrated Spoofing Countermeasures and Automatic Speaker Verification: An Evaluation on ASVspoof 2015
Sat-O-5-5-2	Cross-Database Evaluation of Audio-Based Spoofing Detection Systems
Sat-O-5-5-3	Investigation of Sub-Band Discriminative Information Between Spoofed and Genuine Speech
Sat-O-5-5-4	An Investigation of Spoofing Speech Detection Under Additive Noise and Reverberant Conditions
Sat-O-5-5-5	Robust Speaker Recognition with Combined Use of Acoustic and Throat Microphone Speech
Sat-O-5-5-6	Statistical Modeling of Speaker’s Voice with Temporal Co-Location for Active Voice Authentication
Sat-O-5-6-1	Joint Enhancement and Coding of Speech by Incorporating Wiener Filtering in a CELP Codec
Sat-O-5-6-2	Multi-Channel Linear Prediction Based on Binaural Coherence for Speech Dereverberation
Sat-O-5-6-3	Single-Channel Speech Enhancement Using Double Spectrum
Sat-O-5-6-4	On the Appropriateness of Complex-Valued Neural Networks for Speech Enhancement
Sat-O-5-6-5	Introducing the Turbo-Twin-HMM for Audio-Visual Speech Enhancement
Sat-O-5-6-6	Assessing Speech Quality in Speech-Aware Hearing Aids Based on Phoneme Posteriorgrams
Sat-P-5-1-1	Time-Varying Quasi-Closed-Phase Weighted Linear Prediction Analysis of Speech for Accurate Formant Detection and Tracking
Sat-P-5-1-2	Improved Depiction of Tissue Boundaries in Vocal Tract Real-Time MRI Using Automatic Off-Resonance Correction
Sat-P-5-1-3	Modeling and Transforming Speech Using Variational Autoencoders
Sat-P-5-1-4	Phase-Encoded Speech Spectrograms
Sat-P-5-1-5	Towards Minimally Invasive Velar State Detection in Normal and Silent Speech
Sat-P-5-1-6	RNN-BLSTM Based Multi-Pitch Estimation
Sat-P-5-1-7	TUSK: A Framework for Overviewing the Performance of F0 Estimators
Sat-P-5-1-8	A Robust Non-Parametric and Filtering Based Approach for Glottal Closure Instant Detection
Sat-P-5-2-1	Analysis of Face Mask Effect on Speaker Recognition
Sat-P-5-2-2	Data Selection for Within-Class Covariance Estimation
Sat-P-5-2-3	Inter-Task System Fusion for Speaker Recognition
Sat-P-5-2-4	Mahalanobis Metric Scoring Learned from Weighted Pairwise Constraints in I-Vector Speaker Recognition System
Sat-P-5-2-5	Novel Subband Autoencoder Features for Detection of Spoofed Speech
Sat-P-5-2-6	On the Issue of Calibration in DNN-Based Speaker Recognition Systems
Sat-P-5-2-7	Probabilistic Approach Using Joint Long and Short Session i-Vectors Modeling to Deal with Short Utterances for Speaker Recognition
Sat-P-5-2-8	Short Utterance Variance Modelling and Utterance Partitioning for PLDA Speaker Verification
Sat-P-5-2-9	Speaker-Dependent Dictionary-Based Speech Enhancement for Text-Dependent Speaker Verification
Sat-P-5-2-10	Text-Available Speaker Recognition System for Forensic Applications
Sat-P-5-2-11	Transfer Learning for Speaker Verification on Short Utterances
Sat-P-5-2-12	Twin Model G-PLDA for Duration Mismatch Compensation in Text-Independent Speaker Verification
Sat-P-5-2-13	Universal Background Sparse Coding and Multilayer Bootstrap Network for Speaker Clustering
Sat-P-5-2-14	Improving Deep Neural Networks Based Speaker Verification Using Unlabeled Data
Sat-P-5-3-1	Maximum a posteriori Based Decoding for CTC Acoustic Models
Sat-P-5-3-2	Phonetic and Phonological Posterior Search Space Hashing Exploiting Class-Specific Sparsity Structures
Sat-P-5-3-3	Model Compression Applied to Small-Footprint Keyword Spotting
Sat-P-5-3-4	Why do ASR Systems Despite Neural Nets Still Depend on Robust Features
Sat-P-5-3-5	An Adaptive Multi-Band System for Low Power Voice Command Recognition
Sat-P-5-3-6	Memory-Efficient Modeling and Search Techniques for Hardware ASR Decoders
Sat-P-5-3-7	Log-Linear System Combination Using Structured Support Vector Machines
Sat-P-5-3-8	Efficient Segmental Cascades for Speech Recognition
Sat-P-5-3-9	A WFST Framework for Single-Pass Multi-Stream Decoding
Sat-P-5-3-10	Comparison of Multiple System Combination Techniques for Keyword Spotting
Sat-P-5-3-11	Rescoring by Combination of Posteriorgram Score and Subword-Matching Score for Use in Query-by-Example
Sat-P-5-3-12	Phone Synchronous Decoding with CTC Lattice
Sat-P-5-4-1	Speech Features for Depression Detection
Sat-P-5-4-2	Parkinson’s Disease Progression Assessment from Speech Using GMM-UBM
Sat-P-5-4-3	Speech-Based Detection of Alzheimer’s Disease in Conversational German
Sat-P-5-4-4	Cross-Cultural Depression Recognition from Vocal Biomarkers
Sat-P-5-4-5	Speech Recognition in Alzheimer’s Disease and in its Assessment
Sat-P-5-4-6	Does She Speak RTT? Towards an Earlier Identification of Rett Syndrome Through Intelligent Pre-Linguistic Vocalisation Analysis
Sat-P-5-4-7	Speech Rhythm in Parkinson’s Disease: A Study on Italian
Sat-S&T-5-1	English Language Speech Assistant
Sat-S&T-5-2	Remeeting — Deep Insights to Conversations
Sat-S&T-5-3	SERAPHIM Live! — Singing Synthesis for the Performer, the Composer, and the 3D Game Developer
Sat-S&T-5-4	My-Own-Voice: A Web Service That Allows You to Create a Text-to-Speech Voice From Your Own Voice
Sun-Keynote-3	Talking with Kids Really Matters: Early Language Experience Shapes Later Life Chances
Sun-O-6-1-1	Reducing the Computational Complexity of Multimicrophone Acoustic Models with Integrated Feature Extraction
Sun-O-6-1-2	Neural Network Adaptive Beamforming for Robust Multichannel Speech Recognition
Sun-O-6-1-3	Improved MVDR Beamforming Using Single-Channel Mask Prediction Networks
Sun-O-6-1-4	Channel Selection for Distant Speech Recognition Exploiting Cepstral Distance
Sun-O-6-1-5	Multichannel Spatial Clustering for Robust Far-Field Automatic Speech Recognition in Mismatched Conditions
Sun-O-6-1-6	Far-Field ASR Without Parallel Data
Sun-O-6-2-1	The INTERSPEECH 2016 Computational Paralinguistics Challenge: Deception, Sincerity & Native Language
Sun-O-6-2-2	The Deception Sub-Challenge: The Data
Sun-O-6-2-3	Combining Acoustic-Prosodic, Lexical, and Phonotactic Features for Automatic Deception Detection
Sun-O-6-2-4	Is Deception Emotional? An Emotion-Driven Predictive Approach
Sun-O-6-2-5	Prosodic Cues and Answer Type Detection for the Deception Sub-Challenge
Sun-O-6-2-6	The Sincerity Sub-Challenge: The Data
Sun-O-6-2-7	Automatic Estimation of Perceived Sincerity from Spoken Language
Sun-O-6-2-8	Estimating the Sincerity of Apologies in Speech by DNN Rank Learning and Prosodic Analysis
Sun-O-6-2-9	Minimization of Regression and Ranking Losses with Shallow Neural Networks on Automatic Sincerity Evaluation
Sun-O-6-2-10	Prediction of Deception and Sincerity from Speech Using Automatic Phone Recognition-Based Features
Sun-O-6-2-11	Sincerity and Deception in Speech: Two Sides of the Same Coin? A Transfer- and Multi-Task Learning Perspective
Sun-O-6-2-12	Fusing Acoustic Feature Representations for Computational Paralinguistics Tasks
Sun-O-6-3-1	Introduction
Sun-O-6-3-2	Poster Overview Presentations
Sun-O-6-3-3	Discussion
Sun-O-6-3-4	Closing Remarks
Sun-O-6-4-1	A Stochastic Model for Computer-Aided Human-Human Dialogue
Sun-O-6-4-2	Highlighting Psychological Features for Predicting Child Interjections During Story Telling
Sun-O-6-4-3	Hybrid Dialogue State Tracking for Real World Human-to-Human Dialogues
Sun-O-6-4-4	Automatic Recognition of Social Roles Using Long Term Role Transitions in Small Group Interactions
Sun-O-6-4-5	On the Influence of Gender on Interruptions in Multiparty Dialogue
Sun-O-6-4-6	Detection of User Escalation in Human-Computer Interactions
Sun-O-6-5-1	Assessing Idiosyncrasies in a Bayesian Model of Speech Communication
Sun-O-6-5-2	Prosodic and Linguistic Analysis of Semantic Fluency Data: A Window into Speech Production and Cognition
Sun-O-6-5-3	Sensorimotor Response to Visual Imagery of Tongue Displacement
Sun-O-6-5-4	Does Auditory-Motor Learning of Speech Transfer from the CV Syllable to the CVCV Word?
Sun-O-6-5-5	Exemplar Dynamics in Phonetic Convergence of Speech Rate
Sun-O-6-5-6	Articulation Rate in Adverse Listening Conditions in Younger and Older Adults
Sun-O-6-6-1	Error Correction in Lightly Supervised Alignment of Broadcast Subtitles
Sun-O-6-6-2	Automatic Genre and Show Identification of Broadcast Media
Sun-O-6-6-3	Speaker-Targeted Audio-Visual Models for Speech Recognition in Cocktail-Party Environments
Sun-O-6-6-4	Text-Dependent Audiovisual Synchrony Detection for Spoofing Detection in Mobile Person Recognition
Sun-O-6-6-5	Improving Boundary Estimation in Audiovisual Speech Activity Detection Using Bayesian Information Criterion
Sun-O-6-6-6	Dynamic Stream Weighting for Turbo-Decoding-Based Audiovisual ASR
Sun-P-6-1-1	Retrieval of Textual Song Lyrics from Sung Inputs
Sun-P-6-1-2	Phoneme, Phone Boundary, and Tone in Automatic Scoring of Mandarin Proficiency
Sun-P-6-1-3	Tone Classification in Mandarin Chinese Using Convolutional Neural Networks
Sun-P-6-1-4	Robust Estimation of Fundamental Frequency Using Single Frequency Filtering Approach
Sun-P-6-1-5	A Fast and Accurate Fundamental Frequency Estimator Using Recursive Moving Average Filters
Sun-P-6-1-6	Frequency Estimation from Waveforms Using Multi-Layered Neural Networks
Sun-P-6-2-1	Speaker Linking and Applications Using Non-Parametric Hashing Methods
Sun-P-6-2-2	Iterative PLDA Adaptation for Speaker Diarization
Sun-P-6-2-3	A Speaker Diarization System for Studying Peer-Led Team Learning Groups
Sun-P-6-2-4	DNN-Based Speaker Clustering for Speaker Diarisation
Sun-P-6-2-5	On the Importance of Efficient Transition Modeling for Speaker Diarization
Sun-P-6-2-6	Priors for Speaker Counting and Diarization with AHC
Sun-P-6-2-7	Two-Pass IB Based Speaker Diarization System Using Meeting-Specific ANN Based Features
Sun-P-6-2-8	DNN-Based Amplitude and Phase Feature Enhancement for Noise Robust Speaker Identification
Sun-P-6-2-9	Unit-Selection Attack Detection Based on Unfiltered Frequency-Domain Features
Sun-P-6-2-10	Investigating the Impact of Dialect Prestige on Lexical Decision
Sun-P-6-2-11	Speaker Verification Using Short Utterances with DNN-Based Estimation of Subglottal Acoustic Features
Sun-P-6-2-12	Factor Analysis Based Speaker Verification Using ASR
Sun-P-6-2-13	Joint Sound Source Separation and Speaker Recognition
Sun-P-6-2-14	Robust Multichannel Gender Classification from Speech in Movie Audio
Sun-P-6-3-1	Recent Advances in Google Real-Time HMM-Driven Unit Selection Synthesizer
Sun-P-6-3-2	First Step Towards End-to-End Parametric TTS Synthesis: Generating Spectral Parameters with Neural Attention
Sun-P-6-3-3	The Parameterized Phoneme Identity Feature as a Continuous Real-Valued Vector for Neural Network Based Speech Synthesis
Sun-P-6-3-4	Improved Time-Frequency Trajectory Excitation Vocoder for DNN-Based Speech Synthesis
Sun-P-6-3-5	Voice Quality Control Using Perceptual Expressions for Statistical Parametric Speech Synthesis Based on Cluster Adaptive Training
Sun-P-6-3-6	Waveform Generation Based on Signal Reshaping for Statistical Parametric Speech Synthesis
Sun-P-6-3-7	Speaker Representations for Speaker Adaptation in Multiple Speakers’ BLSTM-RNN-Based Speech Synthesis
Sun-P-6-3-8	Fast, Compact, and High Quality LSTM-RNN Based Statistical Parametric Speech Synthesizers for Mobile Devices
Sun-P-6-3-9	An Investigation of DNN-Based Speech Synthesis Using Speaker Codes
Sun-P-6-3-10	Using Text and Acoustic Features in Predicting Glottal Excitation Waveforms for Parametric Speech Synthesis with Recurrent Neural Networks
Sun-P-6-3-11	Model Integration for HMM- and DNN-Based Speech Synthesis Using Product-of-Experts Framework
Sun-P-6-3-12	Idlak Tangle: An Open Source Kaldi Based Parametric Speech Synthesiser Based on DNN
Sun-P-6-3-13	Probabilistic Amplitude Demodulation Features in Speech Synthesis for Improving Prosody
Sun-P-6-3-14	On Smoothing and Enhancing Dynamics of Pitch Contours Represented by Discrete Orthogonal Polynomials for Prosody Generation
Sun-P-6-3-15	An Investigation of Recurrent Neural Network Architectures Using Word Embeddings for Phrase Break Prediction
Sun-P-6-3-16	Model-Based Parametric Prosody Synthesis with Deep Neural Network
Sun-P-6-4-1	Active and Semi-Supervised Learning in ASR: Benefits on the Acoustic and Language Models
Sun-P-6-4-2	Learning N-Gram Language Models from Uncertain Data
Sun-P-6-4-3	Entropy Based Pruning for Non-Negative Matrix Based Language Models with Contextual Features
Sun-P-6-4-4	Unsupervised Adaptation of Recurrent Neural Network Language Models
Sun-P-6-4-5	Contextual Prediction Models for Speech Recognition
Sun-P-6-4-6	Combining Feature and Model-Based Adaptation of RNNLMs for Multi-Genre Broadcast Speech Recognition
Sun-S&T-6-1	A Low Cost Desktop Robot and Tele-Presence Device for Interactive Speech Research

Author Index

A

Loading Index Data ...

B

Loading Index Data ...

C

Loading Index Data ...

D

Loading Index Data ...

E

Loading Index Data ...

F

Loading Index Data ...

G

Loading Index Data ...

H

Loading Index Data ...

I

Loading Index Data ...

J

Loading Index Data ...

K

Loading Index Data ...

L

Loading Index Data ...

M

Loading Index Data ...

N

Loading Index Data ...

O

Loading Index Data ...

P

Loading Index Data ...

Q

Loading Index Data ...

R

Loading Index Data ...

S

Loading Index Data ...

T

Loading Index Data ...

U

Loading Index Data ...

V

Loading Index Data ...

W

Loading Index Data ...

X

Loading Index Data ...

Y

Loading Index Data ...

Z

Loading Index Data ...

Fold

COPY

CANCEL

Preface Documents

Table of Contents

Fri-Keynote-1 : Keynote 1: ISCA Medalist: John Makhoul

A 50-Year Retrospective on Speech and Language Processing

View PDF Inline

Fri-O-1-1 : Neural Networks in Speech Recognition

Improving English Conversational Telephone Speech Recognition

View PDF Inline

The IBM 2016 English Conversational Telephone Speech Recognition System

View PDF Inline

Small-Footprint Deep Neural Networks with Highway Connections for Speech Recognition

View PDF Inline

Deep Convolutional Neural Networks with Layer-Wise Context Expansion and Attention

View PDF Inline

Lower Frame Rate Neural Network Acoustic Models

View PDF Inline

Improved Neural Network Initialization by Grouping Context-Dependent Targets for Acoustic Modeling

View PDF Inline

Fri-O-1-2 : Special Session: Auditory-Visual Expressive Speech and Gesture in Humans and Machines

Automatic Scoring of Monologue Video Interviews Using Multimodal Cues

View PDF Inline

The Sound of Disgust: How Facial Expression May Influence Speech Production

View PDF Inline

Analyzing Temporal Dynamics of Dyadic Synchrony in Affective Interactions

View PDF Inline

Audiovisual Speech Scene Analysis in the Context of Competing Sources

View PDF Inline

Head Motion Generation with Synthetic Speech: A Data Driven Approach

View PDF Inline

The Consistency and Stability of Acoustic and Visual Cues for Different Prosodic Attitudes

View PDF Inline

Introduction to Poster Presentation of Part II

Fri-O-1-3 : Prosody

The Unit of Speech Encoding: The Case of Romanian

View PDF Inline

The Perceptual Effect of L1 Prosody Transplantation on L2 Speech: The Case of French Accented German

View PDF Inline

Organizing Syllables into Sandhi Domains — Evidence from F0 and Duration Patterns in Shanghai Chinese

View PDF Inline

Automatic Analysis of Phonetic Speech Style Dimensions

View PDF Inline

The Acoustic Manifestation of Prominence in Stressless Languages

View PDF Inline

The Rhythmic Constraint on Prosodic Boundaries in Mandarin Chinese Based on Corpora of Silent Reading and Speech Perception

View PDF Inline

Fri-O-1-4 : Speech and Language Processing for Clinical Health Applications

Toward Development and Evaluation of Pain Level-Rating Scale for Emergency Triage based on Vocal Characteristics and Facial Expressions

View PDF Inline

Predicting Severity of Voice Disorder from DNN-HMM Acoustic Posteriors

View PDF Inline

Long-Term Stability of Tracheoesophageal Voices

View PDF Inline

Detecting Mild Cognitive Impairment from Spontaneous Speech by Correlation-Based Phonetic Feature Selection

View PDF Inline

Towards an Automated Screening Tool for Developmental Speech and Language Impairments

View PDF Inline

Spectral Enhancement of Cleft Lip and Palate Speech

View PDF Inline

Fri-O-1-5 : Speech Coding and Audio Processing for Noise Reduction

Assessing Level-Dependent Segmental Contribution to the Intelligibility of Speech Processed by Single-Channel Noise-Suppression Algorithms

View PDF Inline

Effectiveness of Near-End Speech Enhancement Under Equal-Loudness and Equal-Level Constraints

View PDF Inline

Speech Synthesis in Noisy Environment by Enhancing Strength of Excitation and Formant Prominence

View PDF Inline

Relative Contributions of Amplitude and Phase to the Intelligibility Advantage of Ideal Binary Masked Sentences

View PDF Inline

Predicting Binaural Speech Intelligibility from Signals Estimated by a Blind Source Separation Algorithm

View PDF Inline

Automated Pause Insertion for Improved Intelligibility Under Reverberation

View PDF Inline

Fri-O-1-6 : Speech Analysis

Automatic Classification of Phonation Modes in Singing Voice: Towards Singing Style Characterisation and Application to Ethnomusicological Recordings

View PDF Inline

Novel Nonlinear Prediction Based Features for Spoofed Speech Detection

View PDF Inline

Robust Vowel Landmark Detection Using Epoch-Based Features