HyperAIHyperAI

Command Palette

Search for a command to run...

ToTTo:一个受控的表格到文本生成数据集

Ankur P. Parikh Xuezhi Wang Sebastian Gehrmann Manaal Faruqui Bhuwan Dhingra Diyi Yang Dipanjan Das

摘要

我们提出 ToTTo,一个开放域的英文表格到文本数据集,包含超过12万个训练样本,其任务设定为可控生成:给定一个维基百科表格及一组高亮的单元格,生成一句描述性文本。为确保生成的目标文本既自然又忠实于原始表格内容,我们设计了一种数据集构建流程,其中标注人员直接对维基百科中已有的候选句子进行修订。我们对数据集和标注过程进行了系统性分析,并报告了多种先进基线模型在该数据集上的实验结果。尽管现有方法通常能生成流畅的文本,但往往会产生表格中并未支持的虚构表述,这表明该数据集可作为高精度条件文本生成任务的重要研究基准。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供