当前位置：首页 > ds >正文

大模型科研能力评价参考平台上线，推动技术创新与发展

ds 2025/7/3 20:25:44

在科技飞速发展的当下，大模型已成为人工智能领域的关键驱动力。自百度发布文心一言拉开国内 “百模大战” 的序幕后，通义千问、盘古大模型、星火认知大模型、DeepSeek、豆包等众多大模型纷纷问世，为各行业带来了新的变革与机遇。

从市场发展规模来看，2022 - 2027 年中国 AI 大模型应用市场规模复合增长率预计将达到 148% ，到 2027 年，AI 大模型市场规模有望达到 1130 亿，行业将迎来盈利临界点。仅 2024 年，公开的大模型中标项目就超过 1000 个，整体应用市场规模达到 157 亿。在这一过程中，系统集成商和企业级软件服务商成为推动 AI 大模型产业渗透的关键力量。同时，大模型对算力的需求也在急剧增长，2024 年中国大模型产业新增 GPU 需求量超过 190 万张，算力投资达千亿规模，预计 2025 年后部分大模型企业将开始盈利。

大模型在多个行业的应用场景日益丰富。在互联网、政务、金融等行业，智能客服、智能问答、内容创作、搜索等功能借助大模型推理能力的成熟、高质量数据集的迭代以及所需算力资源的降低，应用成熟度较高。然而，在安全漏洞修复、威胁检测等方面，应用成熟度依旧较低，远不及个性化应用服务。这也为大模型未来的发展指明了优化方向。

为了更直观地了解大模型在不同领域的能力表现，各类评测榜单应运而生。例如，清华大学基础模型研究中心联合中关村实验室发布的 SuperBench 大模型综合能力评测榜单，从代码评测、对齐评测、安全评测、智能体评测、数理逻辑评测、社交智能评测等多个维度，对大模型进行科学、客观的评估。在 2024 年 11 月的榜单中，OpenAI 的 o1 - preview 模型以 98.74 分排名第一，展示了其在大模型领域的领先地位。而中国科学院计算机网络信息中心牵头建设的科学地平线（SciHorizon）平台，作为国际首个聚焦 “数据 + 模型” 角度、面向人工智能驱动科学研究的综合评价平台，在大模型科学领域能力测试榜单中，用户可依据不同学科查看对应大模型排名，如在全学科排名中，DeepSeek - R1 以 71.68 的综合评分暂列第一，为科研人员筛选大模型提供了极具价值的参考。此外，大模型开源开放评测体系司南（opencompass2.0）全面量化模型在知识、语言、理解、推理和考试等五大能力维度的表现，其评测榜单涉及的大语言模型和多模态大模型超过 150 个，众多国内外企业和科研机构借助其助力技术研发。这些评测榜单犹如一面镜子，反映出不同大模型的优势与不足，推动着大模型技术不断创新与发展。

随着大模型的广泛应用，其安全与合规问题也日益受到重视，备案成为确保大模型有序发展的重要举措。当大模型利用生成式人工智能技术，向境内公众提供生成文本、图片、音频、视频等内容的服务，且具有舆论属性或社会动员能力时，就需要进行备案。大模型备案流程较为严谨，首先要主动与属地网信办联系，填写信息采集表并领取相关资料，包括上线备案申请表、安全评估报告等。随后进入属地初审环节，属地网信办会对备案材料进行审查、开展技术安全评测、组织行业专家评审并征求主管部门意见，形成属地初审意见。之后进入中央终审，中央网信办会审查备案材料、进行技术安全评测并征求六大部委意见，只有在六大部委均无反对意见时，备案才会通过，最终由中央网信反馈至地方网信并完成公示上线备案流程，整个周期大约需要 3 - 4 个月。

若企业未进行大模型备案或登记，相关主管部门将依照《中华人民共和国网络安全法》《中华人民共和国数据安全法》等法律、行政法规予以处罚。若法律、行政法规无具体规定，主管部门也会发出警告、通报批评，责令限期改正；拒不改正或情节严重的，将责令暂停提供相关服务；构成违反治安管理行为的，依法给予治安管理处罚；构成犯罪的，依法追究刑事责任。

在备案过程中，也有诸多需要注意的事项。使用境外基座模型或爬取境外门户网站数据的企业，在裸奔测试中可能难以通过，因为境外模型和数据可能存在安全风险，不符合国内监管要求。医疗健康、金融及企查查类型企业，目前暂时无法办理大模型备案，但可办理大模型登记手续。此外，通过备案或登记后，企业需在显眼位置悬挂备案号，并每月配合进行常态化安全测试，以确保大模型服务安全、合规运行。

大模型正处于蓬勃发展的阶段，在各行业展现出巨大潜力，而备案制度的实施则为其健康、有序发展保驾护航。未来，随着技术的不断进步和监管的日益完善，大模型有望在更多领域发挥更大的价值，为社会发展带来更多创新与变革。

查看全文

http://www.xdnf.cn/news/5808.html