arXiv Open Access 2023

NorQuAD: Norwegian Question Answering Dataset

Sardana Ivanova Fredrik Aas Andreassen Matias Jentoft Sondre Wold Lilja Øvrelid

Lihat Sumber

Abstrak

In this paper we present NorQuAD: the first Norwegian question answering dataset for machine reading comprehension. The dataset consists of 4,752 manually created question-answer pairs. We here detail the data collection procedure and present statistics of the dataset. We also benchmark several multilingual and Norwegian monolingual language models on the dataset and compare them against human performance. The dataset will be made freely available.

Topik & Kata Kunci

cs.CL

Penulis (5)

Sardana Ivanova

Fredrik Aas Andreassen

Matias Jentoft

Sondre Wold

Lilja Øvrelid

Format Sitasi

APA MLA BibTeX

Ivanova, S., Andreassen, F.A., Jentoft, M., Wold, S., Øvrelid, L. (2023). NorQuAD: Norwegian Question Answering Dataset. https://arxiv.org/abs/2305.01957

Akses Cepat

Lihat di Sumber

Informasi Jurnal

Tahun Terbit: 2023
Bahasa: en
Sumber Database: arXiv
Akses: Open Access ✓