A Comparative Approach for Auditing  Multilingual Phonetic Transcript Archives:  A Case Study on a Large-Scale Multilingual Audio Dataset

Farhan Samir; Emily P Ahn; Shreya Prakash; Márton Sóskuthy; Vered Shwartz; Jian Zhu

Vol. 13 (2025)

TACL approved

A Comparative Approach for Auditing Multilingual Phonetic Transcript Archives: A Case Study on a Large-Scale Multilingual Audio Dataset

Published 2025-12-25

Farhan Samir
Emily
Shreya Prakash
Márton Sóskuthy
Vered Shwartz
Jian Zhu

Farhan Samir
fsamir@mail.ubc.ca

Emily
University of Washington

Shreya Prakash
University of Washington

Márton Sóskuthy
University of British Columbia

Vered Shwartz
University of British Columbia

Jian Zhu
University of British Columbia

Abstract

Curating datasets that span multiple languages is challenging. To make the collection more scalable, researchers often incorporate one or more imperfect classifiers in the process, like language identification models. These models, however, are prone to failure, resulting in some language partitions being unreliable for downstream tasks. We introduce a statistical test, the Preference Proportion Test, for identifying such unreliable partitions. By annotating only 20 samples for a language partition, we're able to identify systematic transcription errors for 10 language partitions in a recent large multilingual transcribed audio archive, X-IPAPACK (Zhu et al., 2024). We find that filtering these low-quality partitions out when training models for the downstream task of phonetic transcription brings substantial benefits, most notably a 25.7% relative improvement on transcribing recordings in out-of-distribution languages. Our work contributes an effective method for auditing multilingual audio archives.

Presented at ACL 2025 Article at MIT Press

Author Biography

Farhan Samir

Linguistics

Ph.D. student

Emily

Linguistics
Ph.D. student

Shreya Prakash

Statistics

Ph.D. student

Márton Sóskuthy

Linguistics

Associate Professor

Vered Shwartz

Computer Science

Assistant Professor

Jian Zhu

Linguistics

Assistant Professor