Command Palette
Search for a command to run...

摘要
受通用语言理解评估基准(General Language Understanding Evaluation, GLUE)成功的启发,我们引入了生物医学语言理解评估(Biomedical Language Understanding Evaluation, BLUE)基准,以促进生物医学领域预训练语言表示的研究发展。该基准包括五个任务,涵盖十个数据集,涉及生物医学和临床文本的不同规模和难度。我们还基于BERT和ELMo评估了几种基线模型,并发现使用PubMed摘要和MIMIC-III临床笔记预训练的BERT模型取得了最佳结果。我们已将数据集、预训练模型及代码公开发布在https://github.com/ncbi-nlp/BLUE_Benchmark。
代码仓库
bigscience-workshop/biomedical
GitHub 中提及
gmpoli/electramed
tf
GitHub 中提及
ncbi-nlp/BLUE_Benchmark
官方
GitHub 中提及
ncbi-nlp/NCBI_BERT
官方
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 | 
|---|---|---|
| document-classification-on-hoc | NCBI_BERT(large) (P) | F1: 87.3  | 
| medical-named-entity-recognition-on-share | NCBI_BERT(base) (P+M) | F1: 0.792  | 
| medical-relation-extraction-on-ddi-extraction | NCBI_BERT(large) (P) | F1: 79.9  | 
| named-entity-recognition-on-bc5cdr-chemical | NCBI_BERT(base) (P) | F1: 93.5  | 
| named-entity-recognition-on-bc5cdr-disease | NCBI_BERT(base) (P) | F1: 86.6  | 
| natural-language-inference-on-mednli | NCBI_BERT(base) (P+M) | Accuracy: 84.00  | 
| relation-extraction-on-chemprot | NCBI_BERT(large) (P) | F1: 74.4  | 
| semantic-similarity-on-biosses | NCBI_BERT(base) (P+M) | Pearson Correlation: 0.9159999999999999  | 
| semantic-similarity-on-medsts | NCBI_BERT(base) (P+M) | Pearson Correlation: 0.848  |