文章总结: 文档介绍了HuggingFace、LMArena、斯坦福CRFM及SuperCLUEAI等四个AI大模型与测评资源网站,涵盖模型检索、盲测排名及中文理解排行,其中提及early-grok-3与DeepSeek-R1的排名情况,文末含知识星球推广。 综合评分: 60 文章分类: AI安全,安全工具,软文广告
【工具】AI大模型、应用与测评
原创
丁爸
丁爸 情报分析师的工具箱
2025年2月28日 23:33 四川
今天给大家推送几个大模型测评、排行等相关的资源网站:
1、hugging face
官网地址:https://huggingface.co/
该网站专注于人工智能的模型、应用和数据集。目前汇聚了146万多个模型、40多万个应用程序和31万多个数据集。
网站上汇聚的模型、数据集和应用程序均可按照类型进行分类检索。
2、lmarena
官网地址:https://lmarena.ai/
#
该网站上提供Chatbot Arena(以前称为 LMSYS):免费 AI 聊天,用于比较和测试最佳 AI 聊天机器人。支持聊天和文字转图片及 RepoChat。
工作原理是盲测:向两个匿名 AI 聊天机器人(ChatGPT、Gemini、Claude、Llama 等)提出任何问题,投票选出最佳答案。
用户也可以直接选择特定的模型进行聊天,包括最新的early-grok-3
在该网站可以看到各种大模型测评的排名结果:
目前通用版和专业版,都是early-grok-3排在第一,deepseek-R1在通用榜排第5,在专业榜排第3,Gemini-2.0在通用榜排第2,专业榜也是排第3。
3、crfm.stanford
官网地址:https://crfm.stanford.edu/
斯坦福大学人工智能研究所 (HAI) 的基础模型研究中心 (CRFM) 的模型测评,deepseekV3准确度排第3。
4、superclueai(中文理解测评排行)
官网地址:https://superclueai.com/
该网站有总排行榜、文科、理科、开源等多种排行榜。
长按识别下面的二维码可加入星球
里面已有万余篇资料供给下载
越早加入越便宜
繼費五折優惠
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:丁爸 情报分析师的工具箱 丁爸《【工具】AI大模型、应用与测评》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。








评论