Available for projects

Evaluation

Benchmarks

Benchmarks for language models in specialized domains.

PsychiatryBench

A multi-task benchmark for LLMs in psychiatry.

11
Tasks: 5,188
Items: —
Models

View leaderboard

SalamahBench

Standardized safety evaluation for Arabic language models.

12
Tasks: 8,170
Items: —
Models

View leaderboard