logo

OpenAI представила новый стандарт оценки мед ИИ

By: block-chain24|2025/05/14 12:15:08
0
Поделиться
copy
Компания представила HealthBench —открытый набор данных и оценочный инструмент, созданный для тестирования LLM на их способность обрабатывать медицинские диалоги. Он включает 5000 реалистичных медицинских разговоров, которые охватывают 26 медицинских специальностей, таких как нейрохирургия и офтальмология, и поддерживает 49 языков, включая ахмарский и непальский. Эти разговоры моделируют реальные сценарии взаимодействия между пациентами и врачами, что делает бенчмарк уникальным в своей реалистичности и масштабе. Основная цель HealthBench — оценить, насколько точно и безопасно ИИ-модели могут отвечать на запросы, связанные со здоровьем. Каждый ответ модели оценивается по специально разработанным рубрикам, созданным врачами, которые учитывают клиническую точность, полноту и соответствие медицинским стандартам. Рубрики содержат 48 562 уникальных критерия, что позволяет проводить глубокую и детализированную оценку. Запуск HealthBench вызвал интерес не только в медицинской и ИИ-сферах, но и в криптовалютном секторе. Некоторые аналитики предполагают, что стандартизация оценки медицинских ИИ-моделей может стимулировать спрос на блокчейн-решения в здравоохранении, особенно для управления медицинскими данными и обеспечения прозрачности. Несмотря на новаторский характер HealthBench, эксперты подчеркивают, что бенчмарк не является исчерпывающим. Реальная клиническая практика сложнее, чем смоделированные диалоги, и требует дополнительного тестирования в реальных условиях. Некоторые эксперты выражают скептицизм относительно заявлений, что ИИ в 4 раза превосходит врачей, указывая на необходимость критической оценки таких утверждений.

Вам также может понравиться

Деконструкция публичной цепочки игры капитала Pharos: Поддерживается ли оценка в 950 миллионов долларов, обеспеченная активами, такими как фотоэлектрические установки, просто транзакцией-оболочкой под слоями ставок?

Когда компания из реального сектора вкладывает реальные активы в проект уровня 1, она может легко создать оценку в 950 миллионов долларов, умножив стоимость реальных активов несколько раз. Неужели такая игра капитала слишком возмутительна? Действительно ли крипторынку нужны такие RWA?

a16z: ИИ делает всех в 10 раз более продуктивными, но истинный победитель еще не появился

Институциональный ИИ и розничный ИИ "Лучшая интеграция" - неизбежный тренд.

На самом деле масштабирование ETH является важным преимуществом для L2

ETH наконец признал поражение — его дорожная карта, ориентированная на Rollup, неосуществима, в то время как монометрические решения для масштабирования, принятые блокчейнами, такими как Solana, оказались верными.

Воспоминания: 10 ключевых вкладов основной команды TON, о которых мало кто знал в первые дни

Каждая строка кода, каждый инструмент, который мы создаем, каждая бессонная ночь, проведенная в поддержке сети, - эти усилия заложили основу для развития TON сегодня.

Утренние новости | OpenAI получает инвестиции в размере 110 миллиардов долларов; Solana запускает Solana Payments; M0, MoonPay и PayPal совместно запускают PYUSDx

Обзор важных событий на рынке 27 февраля

2025 Южная Корея Постмортем листинга CEX: Инвестирование в новые монеты = 70% убытка?

Показатели нового токена на южнокорейской бирже в 2025 году структурно схожи с Binance, без значительных различий.

Популярные монеты

Последние новости криптовалют

Еще