AI Ideas MissionMission AboutAbout Contact ↗Contact ↗ (opens in a new tab)

GitHub (opens in a new tab)

Homepage
AI Vision
Product
AI Tools
AI Ideas
Foundation
Hardware
Library
Models
Open Source
Software Engineering
- Data Analysis
- Datasets
  Allenai Open Data
  Allenai S2orc S2ag
  Code Pile
  Common Crawl
  Dolma
  Downloaders
  Maths
  The Pile
  The Stack V2

Question? Give us feedback → (opens in a new tab)Edit this page

LLM

Helm

HELM

A holistic framework for evaluating foundation models. (opens in a new tab)
- 10 scenarios
  - Core scenarios
  - NarrativeQA
  - NaturalQuestions (open-book)
  - NaturalQuestions (closed-book)
  - OpenbookQA
  - MMLU (Massive Multitask Language Understanding)
  - MATH
  - GSM8K (Grade School Math)
  - LegalBench
  - MedQA
  - WMT 2014
- 72 models
  - ...
- github (opens in a new tab)

LICENSE: ...