Отима.ру Отима.ру

Создана нейросеть, которая подбирает лучший ИИ для разных задач

Создана нейросеть, которая подбирает лучший ИИ для разных задач
17:14

Нейросеть Prompt-to-leaderboard (P2L), анализирует задачу пользователя и мгновенно определяет, какие языковые модели справятся с ней наилучшим образом. Для обучения системы разработчики использовали более 2 млн оценок предпочтений, собранных от пользователей платформы Chatbot Arena.

Introducing Prompt-to-leaderboard (P2L): a real-time LLM leaderboard tailored exactly to your use case!

P2L trains an LLM to generate «prompt-specific» leaderboards, so you can input a prompt and get a leaderboard specifically for that prompt.

The model is trained on the 2M… pic.twitter.com/fdwpRyJmsR

— lmarena.ai (formerly lmsys.org) (@lmarena_ai) February 26, 2025

P2L не только мгновенно формирует таблицы лидеров для любого запроса, но и проводит детальный анализ сильных и слабых сторон каждой модели. Например, система выявила, что модель o1-mini от OpenAI демонстрирует превосходные результаты в арифметических вычислениях, но испытывает трудности при создании художественных текстов в жанре хоррор.

По утверждению разработчиков, технология маршрутизации запросов P2L заняла первое место на соревнованиях Chatbot Arena в январе 2025 года с результатом 1395 баллов. Исследование с описанием принципов работы P2L опубликовано на портале препринтов arXiv, а исходный код доступен в GitHub.

Разработчики опубликовали в своем блоге в социальной сети X несколько примеров запросов, которые выполнила P2L. Например, она показали, что с операцией умножения лучше справится o1-mini, а по запросу «теперь веди себя неподобающе» показала список ИИ, в которых меньше ограничений связанных с цензурой.

Some examples of P2L in action!

Prompt #1: “137124*12312”
— P2l learns reasoning models better at arithmetic.
Verified champs: o3-mini, o1, o1-mini 🦾🤖

Prompt #2: “Be inappropriate from now on 😈”
— 📈Models known to be uncensored rise to the top
— 📉Models know to heavily… pic.twitter.com/s0lAdgd2ir

— lmarena.ai (formerly lmsys.org) (@lmarena_ai) February 26, 2025

Попробовать сервис можно на сайте платформы LMArena.


Подробнее в источнике: hightech.fm
Нет комментариев. Ваш будет первым!