OpenAI: MLE-Bench: Evaluating Machine Learning Agents

Einleitung In den letzten Jahren hat sich die Leistung von Sprachmodellen in verschiedenen Bereichen rasant verbessert, insbesondere im Codieren und maschinellen Lernen. Dennoch bleibt die Frage offen, wie gut diese Modelle als autonome Akteure...