Treffer: Self-Corrective Assistant for Software Development
Weitere Informationen
Programming plays a central role in modern problem-solving. The advent of Large Language Models (LLMs) has significantly advanced program synthesis, facilitating automatic code generation. However, LLMs still struggle with complex algorithmic problems required developer's thinking and precision in implementation. This study introduces a self-corrective multi-agent system designed to enhance the problem-solving abilities of LLMs. The system employs a graph-based workflow with seven specialised agents: Simplifier, Self-retrieval, Planning, Ranking, Test Case Generator, Coding, and an Iterative Self-correction agent, along with a code execution node. These agents work together to break down problems, retrieve relevant data, generate and evaluate multiple solutions, test the generated code, and refine it iteratively. The system's performance is evaluated using DeepMind's CodeContests dataset, benchmarking it against established models like Reflexion, AlphaCodium, and MapCoder. The proposed system outperforms existing baselines, achieving a Pass@1 rate of 26.50% and a Pass@4 rate of 35.04%. In terms of cost effectiveness, it demonstrates an average cost per problem of $0.0883 and an average token usage of 17,082.46 tokens per solution, outperforming state-of-the-art models in both efficacy and efficiency. ; Programování hraje klíčovou roli v moderním řešení problémů. Příchod Velkých jazykových modelů (LLM) výrazně pokročil v syntéze programů a usnadnil automatické generování kódu. LLM však stále mají problémy se složitými algoritmickými úlohami vyžadujícími vývojářské myšlení a přesnost implementace. Tato studie představuje sebekorekční multi-agentní systém navržený ke zlepšení schopností LLM řešit problémy. Systém využívá pracovní postup založený na grafu se sedmi specializovanými agenty: Simplifier, Self-retrieval, Planning, Ranking, Test Case Generator, Coding a Iterative Self-correction, spolu s uzlem pro spouštění kódu. Tito agenti spolupracují na rozkladu problémů, získávání relevantních dat, generování a ...