大模型科研能力评价参考平台上线,推动技术创新与发展
在科技飞速发展的当下,大模型已成为人工智能领域的关键驱动力。自百度发布文心一言拉开国内 “百模大战” 的序幕后,通义千问、盘古大模型、星火认知大模型、DeepSeek、豆包等众多大模型纷纷问世,为各行业带来了新的变革与机遇。
从市场发展规模来看,2022 - 2027 年中国 AI 大模型应用市场规模复合增长率预计将达到 148% ,到 2027 年,AI 大模型市场规模有望达到 1130 亿,行业将迎来盈利临界点。仅 2024 年,公开的大模型中标项目就超过 1000 个,整体应用市场规模达到 157 亿。在这一过程中,系统集成商和企业级软件服务商成为推动 AI 大模型产业渗透的关键力量。同时,大模型对算力的需求也在急剧增长,2024 年中国大模型产业新增 GPU 需求量超过 190 万张,算力投资达千亿规模,预计 2025 年后部分大模型企业将开始盈利。
大模型在多个行业的应用场景日益丰富。在互联网、政务、金融等行业,智能客服、智能问答、内容创作、搜索等功能借助大模型推理能力的成熟、高质量数据集的迭代以及所需算力资源的降低,应用成熟度较高。然而,在安全漏洞修复、威胁检测等方面,应用成熟度依旧较低,远不及个性化应用服务。这也为大模型未来的发展指明了优化方向。
为了更直观地了解大模型在不同领域的能力表现,各类评测榜单应运而生。例如,清华大学基础模型研究中心联合中关村实验室发布的 SuperBench 大模型综合能力评测榜单,从代码评测、对齐评测、安全评测、智能体评测、数理逻辑评测、社交智能评测等多个维度,对大模型进行科学、客观的评估。在 2024 年 11 月的榜单中,OpenAI 的 o1 - preview 模型以 98.74 分排名第一,展示了其在大模型领域的领先地位。而中国科学院计算机网络信息中心牵头建设的科学地平线(SciHorizon)平台,作为国际首个聚焦 “数据 + 模型” 角度、面向人工智能驱动科学研究的综合评价平台,在大模型科学领域能力测试榜单中,用户可依据不同学科查看对应大模型排名,如在全学科排名中,DeepSeek - R1 以 71.68 的综合评分暂列第一,为科研人员筛选大模型提供了极具价值的参考。此外,大模型开源开放评测体系司南(opencompass2.0)全面量化模型在知识、语言、理解、推理和考试等五大能力维度的表现,其评测榜单涉及的大语言模型和多模态大模型超过 150 个,众多国内外企业和科研机构借助其助力技术研发。这些评测榜单犹如一面镜子,反映出不同大模型的优势与不足,推动着大模型技术不断创新与发展。
随着大模型的广泛应用,其安全与合规问题也日益受到重视,备案成为确保大模型有序发展的重要举措。当大模型利用生成式人工智能技术,向境内公众提供生成文本、图片、音频、视频等内容的服务,且具有舆论属性或社会动员能力时,就需要进行备案。大模型备案流程较为严谨,首先要主动与属地网信办联系,填写信息采集表并领取相关资料,包括上线备案申请表、安全评估报告等。随后进入属地初审环节,属地网信办会对备案材料进行审查、开展技术安全评测、组织行业专家评审并征求主管部门意见,形成属地初审意见。之后进入中央终审,中央网信办会审查备案材料、进行技术安全评测并征求六大部委意见,只有在六大部委均无反对意见时,备案才会通过,最终由中央网信反馈至地方网信并完成公示上线备案流程,整个周期大约需要 3 - 4 个月。
若企业未进行大模型备案或登记,相关主管部门将依照《中华人民共和国网络安全法》《中华人民共和国数据安全法》等法律、行政法规予以处罚。若法律、行政法规无具体规定,主管部门也会发出警告、通报批评,责令限期改正;拒不改正或情节严重的,将责令暂停提供相关服务;构成违反治安管理行为的,依法给予治安管理处罚;构成犯罪的,依法追究刑事责任。
在备案过程中,也有诸多需要注意的事项。使用境外基座模型或爬取境外门户网站数据的企业,在裸奔测试中可能难以通过,因为境外模型和数据可能存在安全风险,不符合国内监管要求。医疗健康、金融及企查查类型企业,目前暂时无法办理大模型备案,但可办理大模型登记手续。此外,通过备案或登记后,企业需在显眼位置悬挂备案号,并每月配合进行常态化安全测试,以确保大模型服务安全、合规运行。
大模型正处于蓬勃发展的阶段,在各行业展现出巨大潜力,而备案制度的实施则为其健康、有序发展保驾护航。未来,随着技术的不断进步和监管的日益完善,大模型有望在更多领域发挥更大的价值,为社会发展带来更多创新与变革。