OpenAI开源了一个专门面向医疗大模型的测试评估集——HealthBench。与以往测试集不同的是,该测试集的5000 ...
2025-05-13 06:57:04
OpenAI开源了一个专门面向医疗大模型的测试评估集——HealthBench。与以往测试集不同的是,该测试集的5000...
OpenAI开源HealthBench,60个国家合力开发5000段真实对话
2025-05-13 06:57:04
OpenAI开源了一个专门面向医疗大模型的测试评估集——HealthBench。与以往测试集不同的是,该测试集的5000段核心测试对话,全部由来自60个国家/地区的26个专业262名医生打造,极大增强了该测试集的难度、真实性以及丰富度。并且采用了多轮对话测试,而不是简单的答题或选择题模式。根据测试数据显示,大模型在医疗保健领域的表现有了显著提升。例如,从之前的GPT-3.5Turbo的16%到GPT-4o的32%,再到o3的60%,整体性能有了显著进步。尤其是小型模型的进步更为突出,GPT-4.1nano不仅在性能上超越了GPT-4o,而且成本降低了25倍。

声明:此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。本网站所提供的信息,只供参考之用。
- 相关阅读
-
Tiger Research研报:CEX变心,山寨币出局
2026-06-10 -
币安人生市值突破8.8亿美元,Meme热潮却已成往事
2026-06-09 -
大饼,失守6万刀
2026-06-07 -
一个潜伏四年的伪造漏洞,如何让ZEC一日腰斩?
2026-06-07 -
比熊市更安静的,是没人再讨论 Crypto
2026-06-07 -
300美元的二手矿机,挖出了23万美元的比特币区块
2026-06-03
币种收益
矿机收益
显卡收益
收益计算
矿池信息
FIL排行榜





