HyperAI

使用此数据集在 Discord 上讨论

日期

5 个月前

数据集组织

论文 URL

2508.07999

许可证

Other

标签

*该数据集支持在线使用，点击此处跳转。

WideSearch 是由字节跳动 Seed 团队于 2025 年发布的首个专为「广域信息搜集（broad info-seeking）」设计的智能体评测基准数据集，相关论文成果为「WideSearch:Benchmarking Agentic Broad Info-Seeking」，旨在系统评估并推动大语言模型在大规模事实收集、综合与可核验的结构化输出上的可靠性与完整性。

该基准包含研究团队从真实用户查询中精心挑选并手工清洗出 200 个高质量问题（100 个英文问题、 100 个中文问题），这些问题来自 15 个以上的不同领域。

数据字段：

instance_id：任务唯一 ID（与 gold CSV 文件名对应）。
query：自然语言指令，通常明确所需列名与 Markdown 表格输出要求。
evaluation：用于自动评测的序列化（字符串）对象，包含：
- unique_columns：主键列（用于行对齐）；
- required：必须出现的列名；
- eval_pipeline：列级评测配置（如 preprocess 、 metric 、 criterion）。
language：任务语言，取值为 en 或 zh 。

该数据集由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 support@hyper.ai 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集在 Discord 上讨论

日期

5 个月前

数据集组织

论文 URL

2508.07999

许可证

Other

标签

*该数据集支持在线使用，点击此处跳转。

数据字段：

instance_id：任务唯一 ID（与 gold CSV 文件名对应）。
query：自然语言指令，通常明确所需列名与 Markdown 表格输出要求。
evaluation：用于自动评测的序列化（字符串）对象，包含：
- unique_columns：主键列（用于行对齐）；
- required：必须出现的列名；
- eval_pipeline：列级评测配置（如 preprocess 、 metric 、 criterion）。
language：任务语言，取值为 en 或 zh 。

该数据集由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 support@hyper.ai 以便及时审查和下架。

DeepPlanning 长期规划能力评估数据集

3 天前

IF-Bench 红外图像理解基准数据集

2 个月前

NAMD_Benchmark 分子动力学性能基准数据集

3 个月前

PhysToolBench 物理工具任务数据集

2 个月前

1.56 GB55

Envision 多阶段事件视觉生成数据集

2 个月前

UNO-Bench 全模态评测基准数据集

3 个月前

9.71 GB69

OpenGU 图遗忘综合评测数据集

2 个月前

SSRB 半结构化数据自然语言查询数据集

2 个月前

RoVid-X 机器人视频生成数据集

3 天前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

WideSearch 信息搜集基准数据集

*该数据集支持在线使用，点击此处跳转。

数据字段：

用 AI 构建 AI

HyperAI Newsletters

Command Palette

WideSearch 信息搜集基准数据集

*该数据集支持在线使用，点击此处跳转。

数据字段：

相关数据集

DeepPlanning 长期规划能力评估数据集

IF-Bench 红外图像理解基准数据集

NAMD_Benchmark 分子动力学性能基准数据集

PhysToolBench 物理工具任务数据集

Envision 多阶段事件视觉生成数据集

UNO-Bench 全模态评测基准数据集

OpenGU 图遗忘综合评测数据集

SSRB 半结构化数据自然语言查询数据集

RoVid-X 机器人视频生成数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

WideSearch 信息搜集基准数据集

*该数据集支持在线使用，点击此处跳转。

数据字段：

相关数据集

DeepPlanning 长期规划能力评估数据集

IF-Bench 红外图像理解基准数据集

NAMD_Benchmark 分子动力学性能基准数据集

PhysToolBench 物理工具任务数据集

Envision 多阶段事件视觉生成数据集

UNO-Bench 全模态评测基准数据集

OpenGU 图遗忘综合评测数据集

SSRB 半结构化数据自然语言查询数据集

RoVid-X 机器人视频生成数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

DeepPlanning 长期规划能力评估数据集

IF-Bench 红外图像理解基准数据集

NAMD_Benchmark 分子动力学性能基准数据集

PhysToolBench 物理工具任务数据集

Envision 多阶段事件视觉生成数据集

UNO-Bench 全模态评测基准数据集

OpenGU 图遗忘综合评测数据集

SSRB 半结构化数据自然语言查询数据集

RoVid-X 机器人视频生成数据集

相关数据集

DeepPlanning 长期规划能力评估数据集

IF-Bench 红外图像理解基准数据集

NAMD_Benchmark 分子动力学性能基准数据集

PhysToolBench 物理工具任务数据集

Envision 多阶段事件视觉生成数据集

UNO-Bench 全模态评测基准数据集

OpenGU 图遗忘综合评测数据集

SSRB 半结构化数据自然语言查询数据集

RoVid-X 机器人视频生成数据集