World news | 20Fix.com

Новый бенчмарк оценивает не умность моделей, а количество бреда, который они позволяют себе скормить

Исследователь из компании Arena Питер Гостев придумал новый бенчмарк для ИИ с говорящим названием BullshitBench. Он проверяет, умеют ли языковые модели распознавать бессмысленные вопросы и отказываться на них отвечать, вместо того чтобы уверенно нести ерунду.

play_arrow Все Новости

61 ч.

Наука

ID: 4456963887371279398

Похожие Новости expand_more

4 н. «Немного более сомнительна»: кофаундер Anthropic высказался о ценности джунов и ставке на опыт

Science

1 н. Эффект привыкания к "нежданчику". Почему необходимы внезапные проверки боеготовности

Science

2 н. "Не ожидали такого большого интереса". Эксперт о проекте "Запусти сердце"

Science

1 н. "Есть потенциал": новичок "Немана" Спэтару спрогнозировал выступление команды в БВЛ

Sport

2 н. Артем Демков: у минского "Динамо" забивает только первое звено. Другие звенья не подтягиваются, нет целостной игры и взаимопонимания

Military

1 н. Стена прогресса. В какие фундаментальные ограничения уперлась современная наука и чем это грозит

Science

8 дн. Людям от ИИ нужна не продуктивность, а жизнь: Anthropic опросила 80 тысяч пользователей

Science

3 дн. "Постараемся разубедить экспертов": Роман Бегунов резко ответил на вопрос о фаворитском статусе "МЛ Витебск"

Sport

7 дн. Евгений Ковыршин: Никто в «Юности» не думал, что серия против «Немана» станет «легкой прогулкой»

Entertainment

3 дн. Ну почему? Стала известна причина закрытия горнолыжного комплекса «Логойск»

Technology

2 н. Квартальнов о поражении от СКА: проспали начало игры, пришлось рисковать в концовке

Sport

2 н. Чаму карткай мы трацім больш, а з Kindle запамінаем менш? Тлумачыць лекар

Science

4 н. Школьников из Гродно научили алгоритму действий по сигналу "Внимание всем"

Education

3 н. Артем Демков о победе СКА над минским "Динамо": игра была не очень по содержанию в исполнении "зубров". Пока не очень

Entertainment

4 дн. «Поражает уровень цинизма». Следователь рассказал подробности о сети скам

Science

7 дн. Одинаковый размер шин на маркировке, разный в реальности. Это почему так?

Automotive

3 н. Чему можно поучиться у Шамякина начинающим литераторам, рассказали эксперты

Science

3 н. Создатель Claude Code говорит, что ИИ затронет каждого, чья работа связана с компьютерами — и это будет «болезненно»

Science

3 н. Когда «быстро» уже мало: подборка курсов по Rust и системному программированию для High

Education

5 дн. Владимир Перцов: как только мы начинаем забывать – появляется альтернативная, лживая история

Entertainment

1 н. Ю. Горбич: «Это привычный многим чекап». Почему необходимо проходить диспансеризацию

Science

1 н. Вайбкодинговый стартап бешеными темпами наращивает выручку, не успевает нанимать

Technology

5 дн. Какие редкие специальности можно освоить в Минске: мастера, которым не страшен кризис

Science

5 дн. «Чикиде мог быть проломлен череп». Биончик – о «поклепе» и грубости динамовца Алыкулова

Science

4 н. Сможете отличить «Терминатора» от «Чужого»? Пройдите этот тест на знание фантастики

Science

1 н. В КХЛ новое противостояние: игры Ярославля и Минска — уже больше, чем просто матчи. Разбор

Sport

3 н. Игорь Брикун назвал единственный минус увольнения Игоря Горбенко из минского «Динамо»

Military

3 н. Американский военный аналитик о наследии Бандеры: нельзя построить национальную концепцию на фундаменте убийств

Military

6 дн. Артем Демков: "Если они выбирают соперника, "Динамо" может настигнуть карма"

Entertainment

4 дн. "Стоимость не давит": Шамар Николсон рассказал о переходе в "МЛ Витебск"

Military

2 н. Андрей Антонов ответил, что нужно улучшить "Неману" в серии с "Юностью"

Science

3 н. Чипирование домашних животных в Минске пока не получило широкого распространения

Science

3 дн. “Такого наплыва не ожидал” – В Минске люди выстроились в очереди за этим

Entertainment

2 н. Тренер СКА Ларионов: «Мы не хотели сушить игру с минским «Динамо», это не наш принцип»

Military

2 н. Джун, который нужен всем. Вот 5 навыков, без которых вы не найдёте работу в ИТ в 2026 году

Science

1 н. Понимать, где человек говорит правду, а где врет. Молодые сотрудники ОБЭП о специфике работы

Education

2 н. Элитный эгоизм: кого на самом деле боятся противники общежитий в Лебяжьем

Entertainment

2 н. За техникой дело не станет. Что показал контрольный осмотр со специалистами Смолевичского райагросервиса

Science

2 н. Почему мы тратим больше, когда платим картой, а с Kindle меньше запоминаем? Объясняет врач

Science

1 н. «Выглядит как акция живодеров»: читательница обеспокоена находками в разных районах Минска

Science

1 н. Цифры по поводу. Минское "Динамо" — лидер Кубка Беларуси по числу побед в серии послематчевых пенальти. А вот "Ислочь" — аутсайдер в этом компоненте

Sport

22 ч. В ЕАЭС готовят заявление о развитии искусственного интеллекта. В чем его цель

Technology

9 дн. «Главный навык, который нам всем нужно развивать». О чем именно говорили аналитики БИСИ со студентами Политеха?

Education

3 н. Готовимся к худшему сценарию, но таких прогнозов нет. Спасатели о предстоящем паводке в Гомельской области

Military

1 н. Техгиганты всё чаще списывают увольнения на ИИ. Что происходит на самом деле

Crime

3 н. Чип вместо ошейника: ветеринарный специалист из Минска о реальных преимуществах чипа для питомца

Science

3 н. «Ислочь» по делу переиграла «Динамо» в Кубке: «волки» подловили ошибку вратаря, а у минчан не ладилось в атаке

Sport

2 н. «Ислочь» переиграла «Динамо» в Кубке: «волки» подловили ошибку вратаря, а у минчан не ладилось в атаке

Sport

1 н. "Максимально полезный и интересный опыт". Медицинский студотряд приступил к работе в Гродно

Science

Новый бенчмарк оценивает не умность моделей, а количество бреда, который они позволяют себе скормить

Похожие Новости expand_more

Popular countries based on strong economic and political relations

Add Watch Country