Новый бенчмарк оценивает не умность моделей, а количество бреда, который они позволяют себе скормить

Исследователь из компании Arena Питер Гостев придумал новый бенчмарк для ИИ с говорящим названием BullshitBench. Он проверяет, умеют ли языковые модели распознавать бессмысленные вопросы и отказываться на них отвечать, вместо того чтобы уверенно нести ерунду.


61 ч.
Наука
ID: 4456963887371279398


Похожие Новости expand_more


Science
Science
Science
Sport
Military
Science
Science
Sport
Entertainment
Technology
Sport
Science
Education
Entertainment
Science
Automotive
Science
Science
Education
Entertainment
Science
Technology
Science
Science
Science
Sport
Military
Military
Entertainment
Military
Science
Science
Entertainment
Military
Science
Education
Entertainment
Science
Science
Science
Sport
Technology
Education
Military
Crime
Science
Sport
Sport
Science
Popular countries based on strong economic and political relations

Add Watch Country

arrow_drop_down