首页文章推荐家电百科实时讯息常识

您现在的位置：首页 > 实时讯息 >

谷歌发布开源LMEval框架：打破AI模型比较壁垒

0次浏览发布时间：2025-05-27 14:49:00

IT之家 5 月 27 日消息，科技媒体 The Decoder 昨日（5 月 26 日）发布博文，报道称谷歌推出开源框架 LMEval，为大语言模型和多模态模型提供标准化的评测工具。

评测新型 AI 模型一直是个难题。不同供应商使用各自的 API、数据格式和基准设置，导致跨模型比较耗时且复杂。

而谷歌最新推出的 LMEval 开源框架直击这一痛点，研究人员和开发者只需设置一次基准，就能展开标准化的评测流程，大幅简化了评测工作，节省了时间和资源。

LMEval 还通过 LiteLLM 框架抹平了 Google、OpenAI、Anthropic、Ollama 和 Hugging Face 等平台之间的接口差异，确保测试跨平台无缝运行。

LMEval 不仅支持文本评测，还涵盖图像和代码等领域的基准测试，且新输入格式可轻松扩展，框架支持是非题、多选题和自由文本生成等多种评估类型。同时，该框架能识别模型采用的“规避策略”，即故意给出模糊回答以避免生成有风险内容。

Google 还引入了 Giskard 安全评分，展示模型规避有害内容的表现，百分比越高代表安全性越强。测试结果存储在自加密的 SQLite 数据库中，确保数据本地化且不会被搜索引擎索引，兼顾了隐私与便捷。

LMEval 具备增量评估功能，无需在新增模型或问题时重新运行整个测试，仅执行必要的新增测试即可，并采用多线程引擎并行处理多项计算，有效降低了计算成本和时间消耗。

谷歌还开发了 LMEvalboard 可视化工具，通过雷达图展示模型在不同类别中的表现。用户可深入查看具体任务，精准定位模型错误，并直接比较多个模型在特定问题上的差异，图形化展示一目了然。

本文分类：实时讯息
本文标签：模型框架测试基准开源差异文本这一
浏览次数：0 次浏览
发布日期：2025-05-27 14:49:00
本文链接：https://www.gpbk.net/news/YnyDOK373M.html

上一篇 > 挪用公款！赣州曾某被刑拘
下一篇 > 杨晓峰被查

相关文章

一句“吴恩达说的”，就能让GPT-4o mini言听计从

你有没有试过让ChatGPT骂你一句？（doge）它大概率会礼貌拒绝：私密马赛，我不能这样做orz但最新研究表明，只需要擅用一点人类的心理技巧PUA，AI就会乖乖（骂你）听话。来自宾夕法尼亚大学的研究者们发现，在特定心理话术下，例如恭维、同侪暗示，就能让GPT-4o Mini从闭口不言到突破安全底线

2025-09-01 16:26:00

高端访谈｜铭记共同历史　携手为实现俄中繁荣昌盛而奋斗——访俄罗斯总统普京

新华社莫斯科8月30日电题：铭记共同历史携手为实现俄中繁荣昌盛而奋斗——访俄罗斯总统普京新华社记者胡晓光刘恺俄罗斯总统普京在赴中国出席上合组织天津峰会、中国人民抗日战争暨世界反法西斯战争胜利80周年纪念活动前夕接受新华社记者书面专访时说，他将与中方共同纪念伟大胜利80周年，就互利合作的新前景和

2025-08-30 06:01:00

算力筑基 AI赋能山西数据流量谷为转型注入数字动能

算力筑基 AI赋能【聚焦2025中国算力大会】山西数据流量谷为转型注入数字动能　　本报讯 8月21日，在山西数据流量谷内，一位设计师正借助园区搭建的AI应用服务平台，沉浸式研习“AI赋能设计革命”专题课程，并同步开展案例实操训练。作为我省首个人工智能应用服务平台，该平台以“产学研用金”一体化为核心理

2025-08-22 07:34:00

DeepSeek-R2要来了吗速领450元代金券，模型测评快人一步！

伴随OpenAI正式推出GPT-5，中国代表选手DeepSeek-R2 也更备受关注与期待。近日，关于DeepSeek-R2计划于8月15日至30日之间发布的消息，在市场上引起了广泛关注。对此，也有接近DeepSeek人士表示该消息不实，DeepSeek-R2在8月内并无发布计划。毫无疑问的是，全球

2025-08-15 00:04:00

AI驱动三大业务全线增长腾讯Q2利润增18%

日前，腾讯控股发布2025年第二季度财报，多项核心指标实现双位数增长。当季总收入达1845亿元人民币，同比增长15%；经营利润692.5亿元，同比增长18%。三大主营业务全面开花，AI技术深度赋能成为业绩增长的核心引擎。游戏广告领跑腾讯游戏业务收入同比激增22%，其中国际市场表现尤为亮眼，收入188

2025-08-14 13:23:00

热门文章

特朗普拟对中国船只收费，加勒比国家紧急表态 2025-03-24
“有些同志体重管理得不太好”，国家出手了！ 2025-03-26
十堰郧西：繁花绽放点燃乡村旅游热潮 2025-03-26
新闻纵深丨石家庄都市圈，如何“圈”动未来 2025-03-24
两会精神看落实·经济热点问答｜增加住宅层高将带来哪些变化？ 2025-03-26
《重庆市档案条例（草案）》初审设立红色档案保护开发、数字档案建设专章 2025-03-26
别再认为是养生！连喝3天，身体炎症水平升高！ 2025-03-26
明天33℃→后天雷雨+大风！你的羽绒服不会已经洗了吧？ 2025-03-26
部分河段铊浓度异常！湖南郴州最新通报！ 2025-03-24
成都新地标+1！西部首个机器人公园，亮相新川 2025-03-24

最新文章

长乐猴屿，跟着实践队打卡侨韵景点，解锁侨味十足的全新体验 2025-09-02
“闪电取证”∣司法便民跑出加速度 2025-09-02
致敬经典再绽芳华——“丝路花雨”网络传播沙龙在兰举办 2025-09-02
济南已推行，这笔钱直接发给个人！ 2025-09-02
华语金曲丨愚人码头 2025-09-02
一句“吴恩达说的”，就能让GPT-4o mini言听计从 2025-09-01
三条以抗日烈士命名的道路融入城市血脉 2025-09-01
老河口市城管系统素质提升专题培训火热开讲 2025-09-01
重庆检察机关一名干警荣获全国首届中小学法治课教师与法治副校长微课比赛全国总决赛一等奖 2025-09-01
动建！福州将新增一文化地标！高清效果图抢先剧透！ 2025-09-01