pbe-reasoning

A benchmark to evaluate the reasoning capabilities of LLMs using linguistics inspired BFCC sequential string manipulation programs in a programming by example/sound law induction setting.

Running Instructions.

Data Generation

To automatically generate samples run:

python src/data_generation/generate.py

Data Validation

To valdiate automatically generated or human written samples run:

python src/data_generation/validate.py "/path/to/samples.json"

Program Permutation/Reordering Task

Dataset creation command:

python src/permutation_eval/dataset.py --input "data/adaptive_balanced_1008_complete_promptsfile.jsonl" --output "data/adaptive_balanced_1008_permutation_promptsfile.jsonl" --max-attempts 10000 --seed 42 --strategy "fb_swap"

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
data		data
scripts		scripts
src		src
tests		tests
.gitattributes		.gitattributes
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
gpt_oss.yaml		gpt_oss.yaml
gpt_oss.yml		gpt_oss.yml
pbe_enviornment.yml		pbe_enviornment.yml
pytest.ini		pytest.ini
sli.yml		sli.yml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

pbe-reasoning

Running Instructions.

Data Generation

Data Validation

Program Permutation/Reordering Task

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

pbe-reasoning

Running Instructions.

Data Generation

Data Validation

Program Permutation/Reordering Task

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages