HyperAI超神经

IndicVault 印度问答对数据集

日期

4 days ago

发布地址

huggingface.co

下载帮助

Indic Vault 是一个印度日常语言问答对数据集,适用于聊天机器人和语音助手的调优。

该数据集包含以 2025 年印度各地使用的当代日常语言编写的问答对,捕捉了日常对话中使用的真实、口语化的表达。数据涵盖 20 个核心类别,包括金融、健康、科技、人际关系、家居生活、饮食烹饪、教育、职业、娱乐、旅行、体育、文化、社会、环境、科学、法律与政府、商业、农业、美容时尚和政治。

数据集特点:

  • 混合语言参考:包括印地语、印度英语和泰卢固语
  • 自然、口语化的语气:回复以人们在随意、真实的对话中说话的方式表达
  • 实时性:根据 2025 年印度用户的期望编写的真实主题