ASRU 2011

Session Index

TU1-P: Language Modeling and ASR Systems

WE2-P: Spoken Document Retrieval and Spoken Language Understanding

TH1-P: New Applications in Speech Processing

Acoustic Modeling

MO1-P.1: A CONVERGENCE ANALYSIS OF LOG-LINEAR TRAINING AND ITS APPLICATION TO SPEECH RECOGNITION
Simon Wiesler, Ralf Schlüter, Hermann Ney

MO1-P.2: DISCRIMINATIVE SPLITTING OF GAUSSIAN/LOG-LINEAR MIXTURE HMMS FOR SPEECH RECOGNITION
Muhammad Ali Tahir, Ralf Schlüter, Hermann Ney

MO1-P.3: FRAME-LEVEL ANYBOOST FOR LVCSR WITH THE MMI CRITERION
Ryuki Tachibana, Takashi Fukuda; Upendra Chaudhari, Bhuvana Ramabhadran; Puming Zhan

MO1-P.4: EXTENDING NOISE ROBUST STRUCTURED SUPPORT VECTOR MACHINES TO LARGER VOCABULARY TASKS
Shi-Xiong Zhang, Mark John Francis Gales

MO1-P.5: FEATURE ENGINEERING IN CONTEXT-DEPENDENT DEEP NEURAL NETWORKS FOR CONVERSATIONAL SPEECH TRANSCRIPTION
Frank Seide, Gang Li, Xie Chen; Dong Yu

MO1-P.6: MAKING DEEP BELIEF NETWORKS EFFECTIVE FOR LARGE VOCABULARY CONTINUOUS SPEECH RECOGNITION
Tara Sainath, Brian Kingsbury, Bhuvana Ramabhadran; Petr Fousek, Petr Novak; Abdel-rahman Mohamed

MO1-P.7: A NOVEL BOTTLENECK-BLSTM FRONT-END FOR FEATURE-LEVEL CONTEXT MODELING IN CONVERSATIONAL SPEECH RECOGNITION
Martin Wöllmer, Björn Schuller, Gerhard Rigoll

MO1-P.8: CONVOLUTIVE BOTTLENECK NETWORK FEATURES FOR LVCSR
Karel Veselý, Martin Karafiát, František Grézl

MO1-P.9: SPEAKER ADAPTATION BASED ON SPEAKER-DEPENDENT EIGENPHONE ESTIMATION
Wen-Lin Zhang; Wei-Qiang Zhang; Bi-Cheng Li

MO1-P.10: SPARSE MAXIMUM A POSTERIORI ADAPTATION
Peder Olsen, Jing Huang, Vaibhava Goel, Steven Rennie

MO1-P.11: A CONVEX HULL APPROACH TO SPARSE REPRESENTATIONS FOR EXEMPLAR-BASED SPEECH RECOGNITION
Tara Sainath, David Nahamoo, Dimitri Kanevsky, Bhuvana Ramabhadran; Parikshit Shah

MO1-P.12: SOME PROPERTIES OF BAYESIAN SENSING HIDDEN MARKOV MODELS
George Saon; Jen-Tzung Chien

MO1-P.13: DON’T MULTIPLY LIGHTLY: QUANTIFYING PROBLEMS WITH THE ACOUSTIC MODEL ASSUMPTIONS IN SPEECH RECOGNITION
Daniel Gillick; Larry Gillick; Steven Wegmann

MO1-P.14: A FACTORED CONDITIONAL RANDOM FIELD MODEL FOR ARTICULATORY FEATURE FORCED TRANSCRIPTION
Rohit Prabhavalkar, Eric Fosler-Lussier; Karen Livescu

MO1-P.15: N-BEST RESCORING BY ADABOOST PHONEME CLASSIFIERS FOR ISOLATED WORD RECOGNITION
Hiroshi Fujimura, Masanobu Nakamura, Yusuke Shinohara, Takashi Masuko

MO1-P.16: MULTI-LEVEL CONTEXT-DEPENDENT ACOUSTIC MODELING FOR AUTOMATIC SPEECH RECOGNITION
Hung-An Chang, James Glass

MO1-P.17: LEVERAGING LARGE AMOUNTS OF LOOSELY TRANSCRIBED CORPORATE VIDEOS FOR ACOUSTIC MODEL TRAINING
Matthias Paulik, Panchi Panchapagesan

Return to the top

ASR Robustness

MO2-P.1: AN HIERARCHICAL EXEMPLAR-BASED SPARSE MODEL OF SPEECH, WITH AN APPLICATION TO ASR
Jort Gemmeke, Hugo Van Hamme

MO2-P.2: A TRAJECTORY-BASED PARALLEL MODEL COMBINATION WITH A UNIFIED STATIC AND DYNAMIC PARAMETER COMPENSATION FOR NOISY SPEECH RECOGNITION
Khe Chai Sim, Minh-Thang Luong

MO2-P.3: IMPROVING REVERBERANT VTS FOR HANDS-FREE ROBUST SPEECH RECOGNITION
Yongqiang Wang; Mark John Francis Gales

MO2-P.4: DERIVATIVE KERNELS FOR NOISE ROBUST ASR
Anton Ragni, Mark John Francis Gales

MO2-P.5: A VARIATIONAL PERSPECTIVE ON NOISE-ROBUST SPEECH RECOGNITION
Rogier C. Van Dalen, Mark John Francis Gales

MO2-P.6: ROBUST SPEECH RECOGNITION USING ARTICULATORY GESTURES IN A DYNAMIC BAYESIAN NETWORK FRAMEWORK
Vikramjit Mitra; Hosung Name; Carol Espy-Wilson

MO2-P.7: MATCHED-CONDITION ROBUST DYNAMIC NOISE ADAPTATION
Steven Rennie, Pierre Dognin, Petr Fousek

MO2-P.8: FACTOR ANALYSIS BASED SESSION VARIABILITY COMPENSATION FOR AUTOMATIC SPEECH RECOGNITION
Mickael Rouvier, Mohamed Bouallegue, Driss Matrouf, Georges Linarès

MO2-P.9: FACTORED ADAPTATION FOR SEPARABLE COMPENSATION OF SPEAKER AND ENVIRONMENTAL VARIABILITY
Michael Seltzer, Alex Acero

MO2-P.10: IVECTOR-BASED DISCRIMINATIVE ADAPTATION FOR AUTOMATIC SPEECH RECOGNITION
Martin Karafiát; Lukas Burget; Pavel Matejka, Ondrej Glembek, Jan Cernocky

MO2-P.11: SPEAKER ADAPTATION WITH AN EXPONENTIAL TRANSFORM
Daniel Povey, Geoffrey Zweig, Alex Acero

MO2-P.12: EVOLUTIONARY DISCRIMINATIVE SPEAKER ADAPTATION
Sid-Ahmed Selouani

MO2-P.13: ROBUST SEED MODEL TRAINING FOR SPEAKER ADAPTATION USING PSEUDO-SPEAKER FEATURES GENERATED BY INVERSE CMLLR TRANSFORMATION
Arata Itoh, Sunao Hara, Norihide Kitaoka, Kazuya Takeda

MO2-P.14: BIDIRECTIONAL OM-LSA SPEECH ESTIMATOR FOR NOISE ROBUST SPEECH RECOGNITION
Yasunari Obuchi, Ryu Takeda, Masahito Togami

MO2-P.15: MAXIMUM KURTOSIS BEAMFORMING WITH A SUBSPACE FILTER FOR DISTANT SPEECH RECOGNITION
Kenichi Kumatani; John McDonough, Bhiksha Raj

MO2-P.16: GAIN ESTIMATION APPROACHES IN CATALOG-BASED SINGLE-CHANNEL SPEECH-MUSIC SEPARATION
Cemil Demir; Ali Taylan Cemgil, Murat Saraçlar

MO2-P.17: DESIGNING TEXT CORPUS USING PHONE-ERROR DISTRIBUTION FOR ACOUSTIC MODELING
Hiroko Murakami, Koichi Shinoda, Sadaoki Furui

Return to the top

Language Modeling and ASR Systems

TU1-P.1: STRATEGIES FOR TRAINING LARGE SCALE NEURAL NETWORK LANGUAGE MODELS
Tomas Mikolov; Anoop Deoras; Daniel Povey; Lukas Burget, Jan Cernocky

TU1-P.2: DISCRIMINATIVE RERANKING OF ASR HYPOTHESES WITH MORPHOLEXICAL AND N-BEST-LIST FEATURES
Hasim Sak, Murat Saraçlar, Tunga Güngör

TU1-P.3: MINIMUM BAYES RISK DISCRIMINATIVE LANGUAGE MODELS FOR ARABIC SPEECH RECOGNITION
Hong-Kwang Kuo, Ebru Arisoy, Lidia Mangu, George Saon

TU1-P.4: EFFICIENT DISCRIMINATIVE TRAINING OF LONG-SPAN LANGUAGE MODELS
Ariya Rastrow, Mark Dredze, Sanjeev Khudanpur

TU1-P.5: ADAPTING N-GRAM MAXIMUM ENTROPY LANGUAGE MODELS WITH CONDITIONAL ENTROPY REGULARIZATION
Ariya Rastrow, Mark Dredze, Sanjeev Khudanpur

TU1-P.6: RANDOMIZED MAXIMUM ENTROPY LANGUAGE MODELS
Puyang Xu, Sanjeev Khudanpur; Asela Gunawardana

TU1-P.7: EFFICIENT REPRESENTATION AND FAST LOOK-UP OF MAXIMUM ENTROPY LANGUAGE MODELS
Jia Cui, Stanley Chen, Bowen Zhou

TU1-P.8: PRUNING EXPONENTIAL LANGUAGE MODELS
Stanley Chen, Abhinav Sethy, Bhuvana Ramabhadran

TU1-P.9: SUBWORD-BASED AUTOMATIC LEXICON LEARNING FOR SPEECH RECOGNITION
Timo Mertens; Stephanie Seneff

TU1-P.10: AN INVESTIGATION OF HEURISTIC, MANUAL AND STATISTICAL PRONUNCIATION DERIVATION FOR PASHTO
Upendra Chaudhari, Xiaodong Cui, Bowen Zhou, Rong Zhang

TU1-P.11: SUBWORD-BASED MULTI-SPAN PRONUNCIATION ADAPTATION FOR RECOGNIZING ACCENTED SPEECH
Timo Mertens; Kit Thambiratnam, Frank Seide

TU1-P.12: INVESTIGATING THE ROLE OF MACHINE TRANSLATED TEXT IN ASR DOMAIN ADAPTATION: UNSUPERVISED AND SEMI-SUPERVISED METHODS
Horia Cucu; Laurent Besacier; Corneliu Burileanu, Andi Buzo

TU1-P.13: FROM MODERN STANDARD ARABIC TO LEVANTINE ASR: LEVERAGING GALE FOR DIALECTS
Hagen Soltau, Lidia Mangu; Fadi Biadsy

TU1-P.14: THE IBM 2011 GALE ARABIC SPEECH TRANSCRIPTION SYSTEM
Lidia Mangu, Hong-Kwang Kuo, Stephen Chu, Brian Kingsbury, George Saon, Hagen Soltau; Fadi Biadsy

TU1-P.15: BAG OF N-GRAM DRIVEN DECODING FOR LVCSR SYSTEM HARNESSING
Fethi Bougares, Yannick Estève, Paul Deléglise; Georges Linarès

TU1-P.16: EFFICIENT DETERMINIZATION OF TAGGED WORD LATTICES USING CATEGORIAL AND LEXICOGRAPHIC SEMIRINGS
Izhak Shafran, Richard Sproat, Mahsa Yarmohammadi, Brian Roark

Return to the top

TTS, Dialog and MLSP

WE1-P.1: AUTOMATIC DETECTION OF UNNATURAL WORD-LEVEL SEGMENTS IN UNIT-SELECTION SPEECH SYNTHESIS
William Yang Wang; Kallirroi Georgila

WE1-P.2: ACCENT LEVEL ADJUSTMENT IN BILINGUAL THAI-ENGLISH TEXT-TO-SPEECH SYNTHESIS
Chai Wutiwiwatchai, Ausdang Thangthai, Ananlada Chotimongkol, Chatchawarn Hansakunbuntheung, Nattanun Thatphithakkul

WE1-P.3: SENTIMENT ANALYSIS OF TEXT-TO-SPEECH INPUT USING LATENT AFFECTIVE MAPPING
Jerome Bellegarda

WE1-P.4: TOWARDS CHOOSING BETTER PRIMES FOR SPOKEN DIALOG SYSTEMS
José Lopes; Maxine Eskenazi; Isabel Trancoso

WE1-P.5: ON-LINE POLICY OPTIMISATION OF SPOKEN DIALOGUE SYSTEMS VIA LIVE INTERACTION WITH HUMAN SUBJECTS
Milica Gasic, Filip Jurcicek, Blaise Thomson, Kai Yu, Steve Young

WE1-P.6: WIZARD OF OZ EVALUATION OF LISTENING-ORIENTED DIALOGUE CONTROL USING POMDP
Toyomi Meguro, Yasuhiro Minami; Ryuichiro Higashinaka; Kohji Dohsaka

WE1-P.7: A DIALOGUE SYSTEM FOR ACCESSING DRUG REVIEWS
Jingjing Liu, Stephanie Seneff

WE1-P.8: BUILDING A CONVERSATIONAL MODEL FROM TWO-TWEETS
Ryuichiro Higashinaka; Noriaki Kawamae; Kugatsu Sadamitsu; Yasuhiro Minami, Toyomi Meguro, Kohji Dohsaka; Hirohito Inagaki

WE1-P.9: UTTERANCE VERIFICATION USING GARBAGE WORDS FOR A HOSPITAL APPOINTMENT SYSTEM WITH SPEECH INTERFACE
Mitsuru Takaoka, Hiromitsu Nishizaki, Yoshihiro Sekiguchi

WE1-P.10: BOOTSTRAPPING A SPOKEN LANGUAGE IDENTIFICATION SYSTEM USING UNSUPERVISED INTEGRATED SENSING AND PROCESSING DECISION TREES
Shuai Huang, Damianos Karakos, Glen Coppersmith, Kenneth Church; Sabato Marco Siniscalchi

WE1-P.11: FAST AND FLEXIBLE KULLBACK-LEIBLER DIVERGENCE BASED ACOUSTIC MODELING FOR NON-NATIVE SPEECH RECOGNITION
David Imseng, Ramya Rasipuram, Mathew Magimai Doss

WE1-P.12: STRATEGIES FOR USING MLP BASED FEATURES WITH LIMITED TARGET-LANGUAGE TRAINING DATA
Yanmin Qian, Ji Xu; Daniel Povey; Jia Liu

WE1-P.13: STUDY OF PROBABILISTIC AND BOTTLE-NECK FEATURES IN MULTILINGUAL ENVIRONMENT
František Grézl, Martin Karafiát, Milos Janda

WE1-P.14: REGULARIZED SUBSPACE GAUSSIAN MIXTURE MODELS FOR CROSS-LINGUAL SPEECH RECOGNITION
Liang Lu; Arnab Ghoshal; Steve Renals

WE1-P.15: CROSS-LINGUAL PORTABILITY OF CHINESE AND ENGLISH NEURAL NETWORK FEATURES FOR FRENCH AND GERMAN LVCSR
Christian Plahl, Ralf Schlüter, Hermann Ney

WE1-P.16: MULTI-SITE HETEROGENEOUS SYSTEM FUSIONS FOR THE ALBAYZIN 2010 LANGUAGE RECOGNITION EVALUATION
Luis Javier Rodriguez-Fuentes, Mikel Penagarikano, Amparo Varona, Mireia Diez, German Bordel; David Martinez, Jesus Villalba, Antonio Miguel, Alfonso Ortega, Eduardo Lleida; Alberto Abad, Oscar Koller, Isabel Trancoso; Paula Lopez-Otero, Laura Docio-Fernandez, Carmen Garcia-Mateo; Rahim Saeidi; Mehdi Soufifar; Tomi Kinnunen; Torbjørn Svendsen; Pasi Fränti

Return to the top

Spoken Document Retrieval and Spoken Language Understanding

WE2-P.1: IMPROVED SPOKEN TERM DETECTION USING SUPPORT VECTOR MACHINES WITH ACOUSTIC AND CONTEXT FEATURES FROM PSEUDO-RELEVANCE FEEDBACK
Tsung-wei Tu, Hung-yi Lee, Lin-shan Lee

WE2-P.2: QUERY MODELING FOR SPOKEN DOCUMENT RETRIEVAL
Berlin Chen, Pei-Ning Chen; Kuan-Yu Chen

WE2-P.3: TOPIC MODELING FOR SPOKEN DOCUMENTS USING ONLY PHONETIC INFORMATION
Timothy Hazen; Man-Hung Siu, Herbert Gish, Steve Lowe, Arthur Chan

WE2-P.4: EFFICIENT SPOKEN TERM DISCOVERY USING RANDOMIZED ALGORITHMS
Aren Jansen, Benjamin Van Durme

WE2-P.5: ESTIMATING DOCUMENT FREQUENCIES IN A SPEECH CORPUS
Damianos Karakos, Mark Dredze, Kenneth Church, Aren Jansen, Sanjeev Khudanpur

WE2-P.6: ROBUST UNDERSTANDING OF SPOKEN CHINESE THROUGH CHARACTER-BASED TAGGING AND PRIOR KNOWLEDGE EXPLOITATION
Weiqun Xu, Changchun Bao, Yali Li, Jielin Pan, Yonghong Yan

WE2-P.7: EMPLOYING WEB SEARCH QUERY CLICK LOGS FOR MULTI-DOMAIN SPOKEN LANGUAGE UNDERSTANDING
Dilek Hakkani-Tur, Gokhan Tur, Larry Heck, Asli Celikyilmaz, Ashley Fidler, Dustin Hillard, Rukmini Iyer, Sarangarajan Parthasarathy

WE2-P.8: EXPLOITING DISTANCE BASED SIMILARITY IN TOPIC MODELS FOR USER INTENT DETECTION
Asli Celikyilmaz, Dilek Hakkani-Tur, Gokhan Tur, Ashley Fidler, Dustin Hillard

WE2-P.9: APPLYING MULTICLASS BANDIT ALGORITHMS TO CALL-TYPE CLASSIFICATION
Liva Ralaivola, Benoit Favre; Pierre Gotab; Frederic Bechet; Geraldine Damnati

WE2-P.10: LATENT SEMANTIC ANALYSIS FOR QUESTION CLASSIFICATION WITH NEURAL NETWORKS
Babak Loni, Seyedeh Halleh Khoshnevis, Pascal Wiggers

WE2-P.11: ANALYZING CONVERSATIONS USING RICH PHRASE PATTERNS
Bin Zhang, Alex Marin, Brian Hutchinson, Mari Ostendorf

WE2-P.12: SUPERVISED AND UNSUPERVISED FEATURE SELECTION FOR INFERRING SOCIAL NATURE OF TELEPHONE CONVERSATIONS FROM THEIR CONTENT
Anthony Stark, Izhak Shafran, Jeffrey Kaye

WE2-P.13: SOCIO-SITUATIONAL SETTING CLASSIFICATION BASED ON LANGUAGE USE
Yangyang Shi, Pascal Wiggers, Catholijn M Jonker

WE2-P.14: EVALUATING PROSODIC FEATURES FOR AUTOMATED SCORING OF NON-NATIVE READ SPEECH
Klaus Zechner, Xiaoming Xi, Lei Chen

WE2-P.15: DECISION OF RESPONSE TIMING FOR INCREMENTAL SPEECH RECOGNITION WITH REINFORCEMENT LEARNING
Di Lu; Takuya Nishimoto; Nobuaki Minematsu

Return to the top

New Applications in Speech Processing

TH1-P.1: APPLYING FEATURE BAGGING FOR MORE ACCURATE AND ROBUST AUTOMATED SPEAKING ASSESSMENT
Lei Chen

TH1-P.2: DETECTION OF PERSONS WITH PARKINSON'S DISEASE BY ACOUSTIC, VOCAL, AND PROSODIC ANALYSIS
Tobias Bocklet, Elmar Noeth, Georg Stemmer; Hana Ruzickova; Jan Rusz

TH1-P.3: ALIGNMENT OF SPOKEN NARRATIVES FOR AUTOMATED NEUROPSYCHOLOGICAL ASSESSMENT
Emily T. Prud'hommeaux, Brian Roark

TH1-P.4: AUTOMATIC DETECTION OF "G-DROPPING" IN AMERICAN ENGLISH USING FORCED ALIGNMENT
Jiahong Yuan, Mark Liberman

TH1-P.5: BLIND NOISE SUPPRESSION FOR NON-AUDIBLE MURMUR RECOGNITION WITH STEREO SIGNAL PROCESSING
Shunta Ishii, Tomoki Toda, Hiroshi Saruwatari, Sakriani Sakti, Satoshi Nakamura

TH1-P.6: DETECTION-BASED ACCENTED SPEECH RECOGNITION USING ARTICULATORY FEATURES
Chao Zhang, Yi Liu; Chin-Hui Lee

TH1-P.7: MINIMUM DETECTION ERROR TRAINING OF SUBWORD DETECTORS
Alfonso Martinez del Hoyo Canterla, Magne Hallstein Johnsen

TH1-P.8: SUBSPACE GAUSSIAN MIXTURE MODELS FOR VECTORIAL HMM-STATES REPRESENTATION
Mohamed Bouallegue, Driss Matrouf, Mickael Rouvier; Georges Linarès

TH1-P.9: A NOVEL NEURAL-BASED PRONUNCIATION MODELING METHOD FOR ROBUST SPEECH RECOGNITION
Guangpu Huang, Meng Joo Er

TH1-P.10: UNSUPERVISED LEARNING IN CROSS-CORPUS ACOUSTIC EMOTION RECOGNITION
Zixing Zhang, Felix Weninger, Martin Wöllmer, Björn Schuller

TH1-P.11: MODEL-BASED PARAMETRIC FEATURES FOR EMOTION RECOGNITION FROM SPEECH
Sankaranarayanan Ananthakrishnan; Aravind Namandi Vembu; Rohit Prasad

TH1-P.12: CROWD-SOURCING FOR DIFFICULT TRANSCRIPTION OF SPEECH
Jason D. Williams, I. Dan Melamed, Tirso Alonso, Barbara Hollister, Jay Wilpon

TH1-P.13: DETECTION OF PRECISELY TRANSCRIBED PARTS FROM INEXACT TRANSCRIBED CORPUS
Kengo Ohta, Masatoshi Tsuchiya, Seiichi Nakagawa

TH1-P.14: MULTI-TAPER MFCC FEATURES FOR SPEAKER VERIFICATION USING I-VECTORS
Md Jahangir Alam; Tomi Kinnunen; Patrick Kenny, Pierre Ouellet; Douglas O’Shaughnessy

TH1-P.15: FAST SPEAKER DIARIZATION USING A HIGH-LEVEL SCRIPTING LANGUAGE
Ekaterina Gonina; Gerald Friedland; Henry Cook, Kurt Keutzer

TH1-P.16: LINEAR VERSUS MEL FREQUENCY CEPSTRAL COEFFICIENTS FOR SPEAKER RECOGNITION
Xinhui Zhou, Daniel Garcia-Romero, Ramani Duraiswami, Carol Espy-Wilson, Shihab Shamma

Return to the top

Main Menu

ASRU 2011

Session Index

MO1-P: Acoustic Modeling

MO2-P: ASR Robustness

TU1-P: Language Modeling and ASR Systems

WE1-P: TTS, Dialog and MLSP

WE2-P: Spoken Document Retrieval and Spoken Language Understanding

TH1-P: New Applications in Speech Processing

Acoustic Modeling

ASR Robustness

Language Modeling and ASR Systems

TTS, Dialog and MLSP

Spoken Document Retrieval and Spoken Language Understanding

New Applications in Speech Processing