LICENSE
README.md
pyproject.toml
llama_verifications/__init__.py
llama_verifications.egg-info/PKG-INFO
llama_verifications.egg-info/SOURCES.txt
llama_verifications.egg-info/dependency_links.txt
llama_verifications.egg-info/entry_points.txt
llama_verifications.egg-info/requires.txt
llama_verifications.egg-info/top_level.txt
llama_verifications/benchmarks/benchmarks/__init__.py
llama_verifications/benchmarks/benchmarks/registry.py
llama_verifications/benchmarks/benchmarks/ai2d/__init__.py
llama_verifications/benchmarks/benchmarks/ai2d/create_dataset.py
llama_verifications/benchmarks/benchmarks/ai2d/grader.py
llama_verifications/benchmarks/benchmarks/bfcl/__init__.py
llama_verifications/benchmarks/benchmarks/bfcl/create_dataset.py
llama_verifications/benchmarks/benchmarks/bfcl/grader.py
llama_verifications/benchmarks/benchmarks/bfcl/preprocessor.py
llama_verifications/benchmarks/benchmarks/bfcl_api/__init__.py
llama_verifications/benchmarks/benchmarks/common/__init__.py
llama_verifications/benchmarks/benchmarks/common/preprocessors.py
llama_verifications/benchmarks/benchmarks/common/graders/__init__.py
llama_verifications/benchmarks/benchmarks/common/graders/chrf.py
llama_verifications/benchmarks/benchmarks/common/graders/regex_parser_multiple_choice_grader.py
llama_verifications/benchmarks/benchmarks/docvqa/__init__.py
llama_verifications/benchmarks/benchmarks/docvqa/create_dataset.py
llama_verifications/benchmarks/benchmarks/docvqa/grader.py
llama_verifications/benchmarks/benchmarks/docvqa/preprocessor.py
llama_verifications/benchmarks/benchmarks/gpqa/__init__.py
llama_verifications/benchmarks/benchmarks/gpqa/create_dataset.py
llama_verifications/benchmarks/benchmarks/ifeval/__init__.py
llama_verifications/benchmarks/benchmarks/ifeval/create_dataset.py
llama_verifications/benchmarks/benchmarks/ifeval/grader.py
llama_verifications/benchmarks/benchmarks/ifeval/preprocessor.py
llama_verifications/benchmarks/benchmarks/ifeval/utils/ifeval_utils.py
llama_verifications/benchmarks/benchmarks/math500/__init__.py
llama_verifications/benchmarks/benchmarks/math500/create_dataset.py
llama_verifications/benchmarks/benchmarks/math500/grader.py
llama_verifications/benchmarks/benchmarks/mmlu_cot/__init__.py
llama_verifications/benchmarks/benchmarks/mmlu_cot/create_dataset.py
llama_verifications/benchmarks/benchmarks/mmlu_pro_cot/__init__.py
llama_verifications/benchmarks/benchmarks/mmlu_pro_cot/create_dataset.py
llama_verifications/benchmarks/benchmarks/mmmu/__init__.py
llama_verifications/benchmarks/benchmarks/mmmu/create_dataset.py
llama_verifications/benchmarks/benchmarks/mmmu/grader.py
llama_verifications/benchmarks/benchmarks/mmmu/mmmu_utils.py
llama_verifications/benchmarks/benchmarks/mmmu/preprocessor.py
llama_verifications/benchmarks/benchmarks/mtob/__init__.py
llama_verifications/benchmarks/benchmarks/mtob/create_dataset.py
llama_verifications/benchmarks/benchmarks/simpleqa/__init__.py
llama_verifications/benchmarks/benchmarks/simpleqa/grader.py
llama_verifications/benchmarks/benchmarks/simpleqa/preprocessor.py
llama_verifications/benchmarks/datasets/__init__.py
llama_verifications/benchmarks/datasets/huggingface.py
llama_verifications/benchmarks/datasets/interface.py
llama_verifications/benchmarks/datasets/registry.py
llama_verifications/benchmarks/evaluator/__init__.py
llama_verifications/benchmarks/evaluator/evaluator.py
llama_verifications/benchmarks/evaluator/interface.py
llama_verifications/benchmarks/graders/__init__.py
llama_verifications/benchmarks/graders/interface.py
llama_verifications/benchmarks/graders/registry.py
llama_verifications/benchmarks/models/__init__.py
llama_verifications/benchmarks/models/interface.py
llama_verifications/benchmarks/models/openai_model.py
llama_verifications/benchmarks/preprocessor/__init__.py
llama_verifications/benchmarks/preprocessor/interface.py
llama_verifications/benchmarks/preprocessor/registry.py
llama_verifications/benchmarks/utils/utils.py
llama_verifications/cli/__init__.py
llama_verifications/cli/load_provider_confs.py
llama_verifications/cli/main.py
llama_verifications/cli/commands/compare_reports.py
llama_verifications/cli/commands/evaluate.py
llama_verifications/cli/commands/generate_benchmarks_report.py
llama_verifications/cli/commands/generate_report.py
llama_verifications/cli/commands/generate_tests_report.py
llama_verifications/cli/commands/list_benchmarks.py
llama_verifications/cli/commands/list_models.py
llama_verifications/cli/commands/list_providers.py
llama_verifications/cli/commands/run_benchmarks.py
llama_verifications/cli/commands/run_tests.py
llama_verifications/functional_tests/__init__.py
llama_verifications/functional_tests/conftest.py
llama_verifications/functional_tests/generate_report.py
llama_verifications/functional_tests/openai_api/__init__.py
llama_verifications/functional_tests/openai_api/test_chat_completion.py
llama_verifications/functional_tests/openai_api/fixtures/__init__.py
llama_verifications/functional_tests/openai_api/fixtures/fixtures.py
llama_verifications/functional_tests/openai_api/fixtures/load.py
llama_verifications/provider_confs/cerebras.yaml
llama_verifications/provider_confs/fireworks.yaml
llama_verifications/provider_confs/gcp.yaml
llama_verifications/provider_confs/groq.yaml
llama_verifications/provider_confs/llama_api.yaml
llama_verifications/provider_confs/meta_reference.yaml
llama_verifications/provider_confs/model_card.yaml
llama_verifications/provider_confs/openai.yaml
llama_verifications/provider_confs/together.yaml
llama_verifications/provider_confs/vllm.yaml
llama_verifications/reporting/__init__.py
llama_verifications/reporting/diff_generator.py
llama_verifications/reporting/unified_reporter.py
llama_verifications/schemas/__init__.py
llama_verifications/schemas/report_diff_v1.py
llama_verifications/schemas/report_v1.py
scripts/test_evaluator.py
scripts/test_grade.py
tests/integration/test_commands.py
tests/unit/benchmarks/test_bfcl.py
tests/unit/benchmarks/test_mmmu.py
tests/unit/graders/test_ai2d.py
tests/unit/graders/test_ifeval.py
tests/unit/graders/test_mmmu_grader.py
tests/unit/graders/test_regex_parser_multiple_choice_grader.py
tests/unit/reporting/__init__.py
tests/unit/reporting/test_diff_generator.py
tests/unit/reporting/test_unified_reporter.py
tests/unit/schemas/__init__.py
tests/unit/schemas/test_report_diff_v1.py
tests/unit/schemas/test_report_v1.py