promptbench

Easy Installation: Install via pip or GitHub for the latest features.

User-Friendly APIs: Simplifies the process of evaluating existing datasets and LLMs.

Support for Various Models: Includes support for multi-modal models and various prompt engineering methods.

Adversarial Attacks: Integrated tools for simulating black-box adversarial prompt attacks to evaluate model robustness.

Dynamic Evaluation: Implements DyVal for generating evaluation samples on-the-fly with controlled complexity.

Efficient Multi-Prompt Evaluation: Uses a small sample of data to predict performance on unseen data, reducing error significantly.

Introduction