HyperAIHyperAI

Command Palette

Search for a command to run...

VICTOR:用于巴西法律文书分类的数据集

Te\'ofilo Em\'\idio de Campos Pedro Henrique Luz de Araujo Nilton Correia da Silva Fabricio Ataides Braz

摘要

本文介绍了VICTOR,一个基于巴西高等法院数字化法律文件构建的新型数据集。该数据集包含超过4.5万份上诉案件,涵盖约69.2万份文档,总计约460万页。数据集包含标注的文本数据,支持两类任务:文档类型分类和主题标注(一种多标签分类问题)。我们采用词袋模型、卷积神经网络、循环神经网络以及提升算法(boosting algorithms)进行了基线实验。此外,我们还尝试使用线性链条件随机场(linear-chain Conditional Random Fields)以利用诉讼文件的序列特性,结果表明该方法在文档类型分类任务上取得了性能提升。最后,我们对比了两种主题分类策略:一种是基于领域知识筛选出信息量较低的文档页面,另一种是默认使用所有页面。与法院专家的预期相反,实验结果表明,使用全部可用数据的方法表现更优。为促进更优模型与技术的探索,我们以三种不同规模和内容的版本公开发布该数据集。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供