ParsiNLU: A Suite of Language Understanding Challenges for Persian

Daniel Khashabi; Arman Cohan; Siamak Shakeri; Pedram Hosseini; Pouya Pezeshkpour; Malihe Alikhani; Moin Aminnaseri; Marzieh Bitaab; Faeze Brahman; Sarik Ghazarian; Mozhdeh Gheini; Arman Kabiri; Rabeeh Karimi Mahabadi; Omid Memarrast; Ahmadreza Mosallanezhad; Erfan Noury; Shahab Raji; Mohammad Sadegh Rasooli; Sepideh Sadeghi; Erfan Sadeqi Azer; Niloofar Safi Samghabadi; Mahsa Shafaei; Saber Sheybani; Ali Tazarv; Yadollah Yaghoobzadeh

Vol. 9 (2021)

TACL approved

ParsiNLU: A Suite of Language Understanding Challenges for Persian

Published 2022-01-04

Daniel Khashabi
Arman Cohan
Siamak Shakeri
Pedram Hosseini
Pouya Pezeshkpour
Malihe Alikhani
Moin Aminnaseri
Marzieh Bitaab
Faeze Brahman
Sarik Ghazarian
Mozhdeh Gheini
Arman Kabiri
Rabeeh Karimi Mahabadi
Omid Memarrast
Ahmadreza Mosallanezhad
Erfan Noury
Shahab Raji
Mohammad Sadegh Rasooli
Sepideh Sadeghi
Erfan Sadeqi Azer
Niloofar Safi Samghabadi
Mahsa Shafaei
Saber Sheybani
Ali Tazarv
Yadollah Yaghoobzadeh

Daniel Khashabi
Allen Institute for AI

Arman Cohan
Allen Institute for AI

Siamak Shakeri
Google

Pedram Hosseini
George Washington University

Pouya Pezeshkpour
University of California, Irvine

Malihe Alikhani
University of Pittsburgh

Moin Aminnaseri
TaskRabbit

Marzieh Bitaab
Arizona State University

Faeze Brahman
University of California, Santa Cruz

Sarik Ghazarian
University of Southern California

Mozhdeh Gheini
University of Southern California

Arman Kabiri
IMRSV Data Labs

Rabeeh Karimi Mahabadi
EPFL

Omid Memarrast
University of Illinois at Chicago

Ahmadreza Mosallanezhad
Arizona State University

Erfan Noury
University of Maryland Baltimore County

Shahab Raji
Rutgers University

Mohammad Sadegh Rasooli
University of Pennsylvania

Sepideh Sadeghi
Google

Erfan Sadeqi Azer
-

Niloofar Safi Samghabadi
Expedia Group

Mahsa Shafaei
University of Houston

Saber Sheybani
Indiana University Bloomington

Ali Tazarv
University of California, Irvine

Yadollah Yaghoobzadeh
Microsoft

Abstract

Despite the progress made in recent years in addressing natural language understanding (NLU) challenges, the majority of this progress remains to be concentrated on resource-rich languages like English. This work focuses on Persian language, one of the widely spoken languages in the world, and yet there are few NLU datasets available for this language. The availability of high-quality evaluation datasets is a necessity for reliable assessment of the progress on different NLU tasks and domains. We introduce ParsiNLU, the first benchmark in Persian language that includes a range of language understanding tasks --- Reading Comprehension, Textual Entailment, etc. These datasets are collected in a multitude of ways, often involving manual annotations by native speakers. This results in over 14.5k new instances across 6 distinct NLU tasks. Besides, we present the first results on state-of-the-art monolingual and multi-lingual pre-trained language models on this benchmark and compare them with human performance, which provides valuable insights into our ability to tackle natural language understanding challenges in Persian. We hope ParsiNLU fosters further research and advances in Persian language understanding.

Presented at EMNLP 2021 Article at MIT Press