Conversational IR Datasets

This section lists datasets for conversational information retrieval and contextual query understanding tasks.

Conversational Search

These datasets evaluate multi-turn conversational search systems where users engage in conversations to satisfy complex information needs.

TREC CaST

The TREC Conversational Assistance Track (CaST) evaluates conversational information seeking over multi-turn dialogues. Runs from 2019 to 2022 with evolving document collections across versions.

TREC Conversational Assistance Track (CaST) 2019-2022.

CaST evaluates conversational information seeking systems where users engage in multi-turn conversations to satisfy complex information needs.

Each year uses different document collections:

2019 train (v0): MS MARCO passages + CAR v2.0 + WAPO v2 paragraphs
2019 eval / 2020 (v1): MS MARCO passages + CAR v2.0
2021 (v2): MS MARCO documents v1 + WAPO v4 + KILT (segmented)
2022 (v3): MS MARCO documents v2 + WAPO v4 + KILT (segmented)

See https://www.treccast.ai/ for more details.

Dataset gov.nist.trec.cast.cast.v0.documents

→ datamaestro_ir.data.PrefixedDocumentStore

CaST v0 document collection (2019 train).

Tags: collection

Combines WAPO v2 paragraphs (WAPO_ prefix), MS MARCO passages (MARCO_ prefix), and CAR v2.0 paragraphs (CAR_ prefix).

Dataset gov.nist.trec.cast.cast.v1.documents

→ datamaestro_ir.data.PrefixedDocumentStore

CaST v1 document collection (2019 eval, 2020).

Tags: collection

Combines MS MARCO passages (MARCO_ prefix) and CAR v2.0 paragraphs (CAR_ prefix).

Dataset gov.nist.trec.cast.cast.v2.documents

→ datamaestro_ir.data.PrefixedDocumentStore

CaST v2 document collection (2021).

Tags: collection

Combines segmented passages from MS MARCO documents v1 (MARCO_), WAPO v4 (WAPO_), and KILT (KILT_). Each base document is split into passages using pre-computed character offsets.

Dataset gov.nist.trec.cast.cast.v3.documents

→ datamaestro_ir.data.PrefixedDocumentStore

CaST v3 document collection (2022).

Tags: collection

Combines segmented passages from MS MARCO documents v2 (MARCO_), WAPO v4 (WAPO_), and KILT (KILT_). Uses v3-specific segmentation offsets and a shared duplicate list.

Dataset gov.nist.trec.cast.2019.train

→ datamaestro_ir.data.Adhoc

TREC CaST 2019 training set.

Tasks: conversational search, adhoc retrieval

External link: https://www.treccast.ai/

Multi-turn conversational search training data with 30 topics. Uses the v0 document collection (WAPO v2 paragraphs + MS MARCO passages + CAR).

Dataset gov.nist.trec.cast.2019

→ datamaestro_ir.data.Adhoc

TREC CaST 2019 evaluation set.

Tasks: conversational search, adhoc retrieval

External link: https://www.treccast.ai/

Multi-turn conversational search evaluation with 50 topics and 479 turns. Uses the v1 document collection (MS MARCO passages + CAR).

Dataset gov.nist.trec.cast.2020

→ datamaestro_ir.data.Adhoc

TREC CaST 2020 evaluation set.

Tasks: conversational search, adhoc retrieval

External link: https://www.treccast.ai/

Multi-turn conversational search with manual and automatic decontextualized utterances. Uses the v1 document collection (MS MARCO passages + CAR).

Dataset gov.nist.trec.cast.2021

→ datamaestro_ir.data.Adhoc

TREC CaST 2021 evaluation set.

Tasks: conversational search, adhoc retrieval

External link: https://www.treccast.ai/

Multi-turn conversational search with segmented document collections. Uses the v2 document collection (MS MARCO docs v1 + WAPO v4 + KILT, segmented into passages).

Dataset gov.nist.trec.cast.2022

→ datamaestro_ir.data.Adhoc

TREC CaST 2022 evaluation set.

Tasks: conversational search, adhoc retrieval

External link: https://www.treccast.ai/

Multi-turn conversational search with tree-structured conversations. Uses the v3 document collection (MS MARCO docs v2 + WAPO v4 + KILT, segmented into passages).

iKAT

The iKAT (Interactive Knowledge Assistance Track) datasets for conversational search and query rewriting, using the ClueWeb22 document collection. Runs from 2023 to 2025.

com.github.ikat

Dataset com.github.ikat.2025

→ datamaestro_ir.data.conversation.base.ConversationUserTopics

Question-in-context rewriting

Tags: topics

Tasks: conversational search, query rewriting

External link: https://github.com/irlabamsterdam/iKAT/tree/main/2025

iKAT is a test dataset for question-in-context rewriting that consists of questions each given in a dialog context together with a context-independent rewriting of the question.

Dataset com.github.ikat.2024

→ datamaestro_ir.data.conversation.base.ConversationUserTopics

iKAT 2024 dataset

Tags: topics

Tasks: conversational search, query rewriting

External link: https://github.com/irlabamsterdam/iKAT/tree/main/2024

Dataset com.github.ikat.2023

→ datamaestro_ir.data.conversation.base.ConversationUserTopics

iKAT 2023 dataset

Tags: topics

Tasks: conversational search, query rewriting

External link: https://github.com/irlabamsterdam/iKAT/tree/main/2023

Contextual Query Rewriting

These datasets contain conversational queries that need to be rewritten to be self-contained (decontextualization), resolving coreferences and ellipses from the conversation context.

CANARD

Context-dependent Query Rewriting dataset for conversational question answering. Contains queries from QuAC that have been manually rewritten to be self-contained.

com.github.aagohary.canard

Dataset com.github.aagohary.canard

→ datamaestro.data.ml.Supervised

Question-in-context rewriting

Tasks: query rewriting

External link: https://sites.google.com/view/qanta/projects/canard

CANARD is a dataset for question-in-context rewriting that consists of questions each given in a dialog context together with a context-independent rewriting of the question. The context of each question is the dialog utterances that precede the question. CANARD can be used to evaluate question rewriting models that handle important linguistic phenomena such as co-reference and ellipsis resolution.

Each dataset is an instance of datamaestro_ir.data.conversation.CanardDataset

Example:

from datamaestro import prepare_dataset

canard = prepare_dataset("com.github.aagohary.canard.train")
for entry in canard.iter():
    print(f"Original: {entry.source}")
    print(f"Rewritten: {entry.rewrite}")

OrConvQA

Open-Retrieval Conversational Question Answering dataset. Contains multi-turn QA conversations with passage retrieval.

com.github.prdwb.orconvqa

Dataset com.github.prdwb.orconvqa.preprocessed

→ datamaestro.data.ml.Supervised

Open-Retrieval Conversational Question Answering datasets

Tasks: query rewriting

External link: https://github.com/prdwb/orconvqa-release

OrConvQA is an aggregation of three existing datasets:

1. the QuAC dataset that offers information-seeking conversations, 1. the CANARD dataset that consists of context-independent rewrites of QuAC questions, and 3. the Wikipedia corpus that serves as the knowledge source of answering questions.

Each dataset is an instance of datamaestro_ir.data.conversation.OrConvQADataset

QReCC

Question Rewriting in Conversational Context dataset. Contains conversations with human rewrites of questions.

com.github.apple.ml-qrecc

Dataset com.github.apple.ml-qrecc

→ datamaestro.data.ml.Supervised

Open-Domain Question Answering Goes Conversational via Question Rewriting

Tasks: query rewriting

External link: https://github.com/apple/ml-qrecc

We introduce QReCC (Question Rewriting in Conversational Context), an end-to-end open-domain question answering dataset comprising of 14K conversations with 81K question-answer pairs. The goal of this dataset is to provide a challenging benchmark for end-to-end conversational question answering that includes the individual subtasks of question rewriting, passage retrieval and reading comprehension