加利福尼亚州 DMV 公布 2015-2016 年需审查的个性化车牌申请数据集
GitHub 用户 veltman 上传了一个名为 ca-license-plates 的数据集,包含了加州机动车管理局(DMV)在2015-2016年间收到的23,463个个性化车牌申请记录。这些申请并不是所有个性化车牌申请,而是被审查委员会标记为需要额外审核的案例。数据集中包括了申请人姓名、申请日期、申请的车牌配置、是否批准以及其他备注等信息。 值得注意的是,这个数据集中包含了大量的粗俗和冒犯性语言。数据是通过458个Excel工作簿解析而来,这些文件原本是为了回应另一人的公共记录请求而准备的。veltman 作为一名记者,在自己的记录请求中因费用过高(2000美元),作为补偿获得了这些文件。 根据加州车辆法规第7条: 当所需的车牌配置不可用时,不得通过字母和数字互换来创建相似外观的其他配置。 车管局有权拒绝任何带有不当含义或可能引起误导的车牌配置,标准包括但不限于以下几项: 具有性暗示或淫秽意思的配置。 包含粗俗、蔑视、偏见、敌意或贬低特定群体的词汇。 属于咒骂或被认为令人反感的词汇。 可能冒充执法机构的配置。 已从常规系列车牌中删除的配置。 含有外语或俚语,以及与前述类别相关联的拼写变体或镜像图像。 这一项目旨在展示车牌定制过程中存在的问题,例如审查程序的透明度不足、标准不一等问题。通过分析这些被标记的申请,公众可以了解哪些词语和组合被认为是“不宜”的,从而探讨车辆管理部门的审查标准及其合理性。 在科技领域,这样的数据集不仅能够帮助研究人员和社会科学家研究语言的社会学意义,还可以促使政府机构改进其数据开放政策和流程。该数据集的公开引发了广泛讨论,许多人认为这有助于提高政府机构的透明度和公众参与度。GitHub 是全球最大的开源代码托管平台之一,成立于2008年,拥有超过5600万开发者用户,是一个支持代码托管、项目管理和合作开发的重要工具。在处理涉及公共事务的数据时,GitHub 的角色不仅是技术平台,还成为了促进社会监督和讨论的场所。