Tag

Explore by tags

All

Academic Research

Access Control

Adversarial Examples

Agents

AI Alignment

AI Augmentation

AI Browser

AI Communities

AI Conferences

AI Education

AI Ethics

AI Funding

AI Hardware

AI Jobs

AI Reasoning

AI Regulations

AI SDKs

AI Standards

API Integration

API Security

Application Security

Authentication

Authorization

Autonomous Systems

Backdoor Detection

Bias Mitigation

Bug Bounty

CCPA

Certifications

Claude

Cloud Security

Code Assistants

Compliance

Confidential Computing

Consent Management

Container Security

Content Creation

Content Moderation

DALL-E

Dark Web Monitoring

Data Anonymization

Data Minimization

Data Poisoning

Data Privacy

De-identification

DevSecOps

Differential Privacy

Digital Forensics

Document Processing

Edge AI

Embeddings

Encryption

Endpoint Security

Explainability

Exploit Development

Federated Learning

Fine-tuning

Foundation Models

GDPR

Gemini

Generative AI

Governance

GPT Models

Homomorphic Encryption

Human Oversight

Incident Response

Industry Reports

Infrastructure Security

Input Validation

Jailbreak Detection

Kubernetes Security

Llama Models

LLM

LLM Security

Local Models

Low-code AI

Market Analysis

Midjourney

Mixtral

ML Ops

Model Evaluation

Model Isolation

Model Obfuscation

Model Robustness

Model Watermarking

Monitoring

Multi-agent Systems

Multimodal AI

Multimodal LLMs

Multimodal Security

Neuro-symbolic AI

Observable AI

Open Source

Output Safety

Penetration Testing

Physical Security

Privacy by Design

Privacy Engineering

Privacy Preserving ML

Prompt Engineering

Prompt Injection

Quantum Machine Learning

RAG

Recon

Red Team Operations

Red Team Testing

Reinforcement Learning

Reporting

Research Papers

Responsible AI

Reverse Engineering

Risk Assessment

Safety Alignments

Safety Guardrails

Secure APIs

Secure Deployment

Secure Infrastructure

Secure MLOps

Secure MPC

Security Auditing

Security Benchmarks

Security Best Practices

Security Firms

Security Frameworks

Security Testing

Security Visualization

Self-hosted

Self-supervised Learning

SIEM Tools

Social Engineering

Speech-to-Text

Stable Diffusion

Summarization

Synthetic Data

Text-to-Audio

Text-to-Code

Text-to-Image

Text-to-Video

Threat Intelligence

Threat Modeling

Training

Vector Database

Voice Assistants

Vulnerability Disclosure

Vulnerability Scanning

Wireless Security

Zero Trust

AI Application PlatformsAI Productivity ToolsAI Development Frameworks

Visit Website

Langfuse

Details

Open source LLM engineering platform for observability, metrics, evals, and prompt management.

Prompt Engineering Open Source LLM ML Ops Data Privacy+1

AI ModelsAI Application PlatformsAI Research Papers

Visit Website

Skywork-R1V

Details

Pioneering Multimodal Reasoning with CoT, an open-source model for advanced visual and text reasoning.

Multimodal LLMs Reinforcement Learning AI Reasoning AI Augmentation Open Source+1

Visit Website

F-Eval

Details

F-Eval is a bilingual evaluation benchmark for assessing fundamental abilities in AI models.

Open Source Model Evaluation

AI ModelsAI Application PlatformsAI Research Papers

Visit Website

Awesome-LLM-Eval

Details

A curated list of tools, datasets, demos, and papers for evaluating large language models (LLMs).

Open Source LLM Research Papers Generative AI Model Evaluation

AI ModelsAI Application PlatformsAI Conferences & Events

Visit Website

LLM-Evaluation

Details

Sample notebooks and prompts for evaluating large language models (LLMs) and generative AI.

Prompt Engineering Open Source LLM Generative AI Model Evaluation

AI Application PlatformsAI Ethics ResourcesAI Research Papers

Visit Website

LLM-eval-survey

Details

The official GitHub page for the survey paper "A Survey on Evaluation of Large Language Models".

AI Ethics Open Source LLM Research Papers Generative AI+2

AI ModelsAI Application PlatformsAI Development Frameworks

Visit Website

Evals

Details

Evals is a framework for evaluating LLMs and LLM systems, and an open-source registry of benchmarks.

Prompt Engineering AI Ethics Compliance Open Source LLM+2

AI Application PlatformsAI Security Monitoring

Visit Website

Giskard

Details

Open-source framework for evaluating and testing AI and LLM systems for performance, bias, and security issues.

Open Source LLM RAG Model Evaluation Bias Mitigation

AI ModelsAI Application PlatformsAI Development Frameworks

Visit Website

Evalchemy

Details

A unified toolkit for automatic evaluations of large language models (LLMs).

AI Reasoning Open Source LLM Model Evaluation

AI ModelsAI Ethics ResourcesAI Research Papers

Visit Website

LLM-Bias-Evaluation

Details

A study evaluating geopolitical and cultural biases in large language models through dual-layered assessments.

AI Ethics Responsible AI LLM Model Evaluation Bias Mitigation

image of Evaluation-Multimodal-LLMs-Survey

AI ModelsAI Application PlatformsAI Research Papers

Visit Website

Evaluation-Multimodal-LLMs-Survey

Details

A comprehensive survey on benchmarks for Multimodal Large Language Models (MLLMs).

Foundation Models Multimodal LLMs AI Reasoning Model Evaluation

AI ModelsAI Development Frameworks

Visit Website

VLMEvalKit

Details

Open-source evaluation toolkit for large multi-modality models, supporting 220+ models and 80+ benchmarks.

Multimodal LLMs Open Source AI Communities Generative AI Model Evaluation