当前位置: 首页 > news >正文

高考AI试题查询系统

高考AI试题查询系统

gitee:https://gitee.com/ltyyyds26/GaoKao_AI

请添加图片描述

数据

来源:OpenLMLab/GAOKAO-Bench: GAOKAO-Bench is an evaluation framework that utilizes GAOKAO questions as a dataset to evaluate large language models. (github.com)

数据处理分析

  • 包含了近2w道不同年份的高考试题,包含主观题和客观题
  • 每题包含问题和答案
  • 不包含重复题目和答案错误的题目
  • 转化为llama factory可用的数据集
  • 不划分测试集和验证集,全部题目都需要训练,而且需要回答准确

方案选择

  1. 不选RAG原因
    • 题目数量多,每题单独做一个节点,查询效率低
    • 题目难度大,base模型不一定能正确理解问题需求
  2. 微调
    • 微调模型可以解决RAG出现的问题
    • 题目更新不频繁,对精度要求高
    • 微调选择偏向于过拟合版本提高回答精度

模型选择和硬件需求

  • 模型:Qwen/Qwen1.5-1.8B-Chat(推荐1.5B~8B)
  • 显卡:租赁云算力 1张4090(推荐2张及以上24GB显存的显卡)
经验:
  • 数据越小,模型越大,预训练容易接近过拟合;模型越小,越容易训练。
  • 选择base模型不应过大,训练时可以选择较小的模型并设置一个较大的lora模型

*数据最终处理(算力充足时不考虑)

  • 2w道题训练难度大,由于算力和显存不足只选取500道主观和500道客观题

训练

llama factory
  • 安装:

    git clone https://github.com/hiyouga/LLaMA-Factory.git
    cd LLaMA-Factory
    pip install -e .
    
  • 启动:llamafactory-cli webui

  • 运行时查看日志,缺包时安装即可

加载数据
  • 放入llamafactory支持的数据集格式请添加图片描述

  • dataset_info添加配置请添加图片描述

训练

参数设置

请添加图片描述

  • 训练轮次:调大一些,观察到收敛时就可以停止

  • 截断长度:通过统计数据的最大长度为5000+

  • 验证集比例:回答需要精准所以全部数据都需要训练

  • lora:秩64 缩放系数128(一般缩放系数为秩的2倍)

  • 训练时显存不足可以选择qlora

请添加图片描述

评估

使用训练数据进行评估

llama factory客观评估

参考博客:BLEU、ROUGE详解-语言模型的常用评价指标-举例附代码实现_bleu rouge-CSDN博客

{"predict_bleu-4": 89.45785719999999,"predict_model_preparation_time": 0.0033,"predict_rouge-1": 95.98922320000001,"predict_rouge-2": 94.7772012,"predict_rouge-l": 93.6110842,"predict_runtime": 1076.8691,"predict_samples_per_second": 0.929,"predict_steps_per_second": 0.039
}
  • BLEU(基于准确率)(Bilingual Evaluation Understudy)是一种广泛用于评估机器翻译和自然语言生成任务质量的指标。BLEU-4评分是基于四个n-gram(从单个词到四词组合)匹配度的加权几何平均值,旨在衡量生成文本与参考文本之间的相似性。
  • predict_model_preparation_time:这是模型准备预测所花费的时间(单位通常为秒)
  • rouge(基于召回率):指标是在机器翻译、自动摘要、问答生成等领域常见的评估指标。ROUGE 通过将模型生成的摘要或者回答与参考答案(一般是人工生成的)进行比较计算,得到对应的得分。
    • predict_rouge-l :最长公共子序列
  • predict_runtime:预测运行时间
  • predict_samples_per_second:每秒处理样本数
  • predict_steps_per_second:每秒执行步骤数

部署

导出模型

可选量化导出:减小模型体积,加快推理速度

模型推理

  • vllm(推荐,环境较难配置):欢迎来到 vLLM — vLLM 文档

  • ollama(需要win本地部署时推荐)

    • 将hf模型转化成GGUF格式

      • 安装llama.cpp,使用convert_hf_to_gguf.py 转换
      • ggml-org/llama.cpp: LLM inference in C/C++ (github.com)
    • 安装ollama

      curl -fsSL https://ollama.com/install.sh | sh
      
    • 启动ollama

      ollama serve
      
    • 创建ModelFilew文件,写入内容

      FROM /模型路径/模型.gguf
      
    • 创建自定义模型

      ollama create llama-3-8B-Instruct --file ./ModeFile
      
    • 运行

      ollama run llama-3-8B-Instruct
      

前端

使用open-webui

open-webui/open-webui: User-friendly AI Interface (Supports Ollama, OpenAI API, …) (github.com)

🏡 Home | Open WebUI

  • 安装

    conda create -n open-webui python==3.11
    conda activate open-webui
    pip install -U open-webui torch transformers
    
  • 运行

    conda activate open-webui
    export HF_ENDPOINT=https://hf-mirror.com							#win用set
    export ENABLE_OLLAMA_API=True
    export OPENAI_API_BASE_URL=http://127.0.0.1:11434/v1
    export DEFAULT_MODELS="/root/app/llm/Qwen/Qwen1___5-1___8B-Chat"	#可以不设置
    open-webui serve
    
  • 访问127.0.0.1:8080

最终效果演示

测试问题
主观题
  {"instruction": "16.材料\n巴黎和会上,瓜分土耳其的中东阿拉伯领地时,法国坚持要占有包括黎巴嫩、巴\n勒斯坦、摩苏尔在内的大叙利亚。英国反对,认为大叙利亚的面积过大。即使法国放弃\n对巴勒斯坦和摩苏尔的要求后,英国仍不同意大叙利亚计划,逼得法国总理克里孟梭说,\n这样一来“留给劳合•乔治选择的只有枪或剑了”。\n关于如何处置战败国德国的殖民地和土耳其的中东阿拉伯领地,各主要国家接受\n了美国总统威尔逊倡议的“十四点原则”中的委任统治主张,即实行委任统治是因为“其\n居民尚不能自立”,接受委任统治的国家也就是接受了为“此等人民之福利及发展”的“文\n明之神圣任务”。\n﹣﹣摘编自吴于廑等主编《世界史》\n(1)根据材料并结合所学知识,概括英法发生的争执及其实质。\n(2)根据材料并结合所学知识,围绕英法争执,评价威尔逊的委任统治主张。","input": "","output": "答案:(1)第一小问的争执,依据材料第一段可以得出巴黎和会上法国坚持大叙利亚\n计划遭到英国的反对,使得英法矛盾尖锐。第二小问的实质,结合所学可知,英国推行\n势力均衡政策,希望用德国来牵制法国,避免法国称霸欧洲大陆;法国极力主张最大限\n度地削弱德国,因此其实质是欧洲大陆均势与霸权政策之争。\n(2)本小问的评价,依据材料中委任统治主张的内容,结合所学从暂时缓和各大国的矛\n盾;有利于维护战后和平和世界秩序的稳定;有利于一战后世界经济的恢复发展等方面\n分析积极影响;从委任统治实质、加深殖民地与帝国主义国家之间的矛盾、不能从根本上消除帝国主义之间的矛盾,为新的世界大战爆发埋下祸根等方面分析消极影响。\n故答案为:\n(1)争执:法国提出大叙利亚计划,遭到英国的反对;法国不惜以武力威胁。\n实质:欧洲大陆均势与霸权政策之争(帝国主义国家争夺殖民地)。\n(2)评价:被纳入国联盟约,暂时解决了英法争执;没有根本解决列强之间矛盾;暴露\n了美国意图领导世界的野心;并未改变殖民统治的实质。\n\n解析:本题考查巴黎和会。 (1)第一小问,依据材料英法发生争执的概况分析。第二小问,结合巴黎和会上英法的 意图和对外政策分析; (2)本小问,依据材料委任统治主张的内容,结合所学从积极和消极两方面分析。"}{"instruction": "(一)文言文阅读(本题共4小题,19分)\n阅读下面的文言文,完成下面小题。\n王安中字履道,中山阳曲人。进士及第,历秘书省著作郎。政和间,天下争言瑞应,廷\n臣辄笺表贺,徽宗观所作,称为奇才。他日,特出制诏三题使具草,立就,上即草后批:“可\n中书舍人。”未几,自秘书少监除中书舍人,擢御史中丞。开封逻卒夜迹盗盗脱去民有惊出\n与卒遇缚以为盗民讼诸府不胜考掠之惨遂诬服安中廉知之按得冤状即出民抵吏罪时上方乡\n神仙之事,蔡京引方士..王仔昔以妖术见,朝臣戚里寅缘关通。安中疏请自今招延山林道术之\n士,当责所属保任..;并言京欺君僣上、蠹国害民数事。上悚然纳之。已而再疏京罪,上曰:\n“本欲即行卿章,以近天宁节,俟过此,当为卿罢京。”京伺知之,大惧,其子攸日夕侍禁.\n中.,泣拜恳祈。上为迁安中翰林学士,又迁承旨。宣和元年,拜尚书右丞;三年,为左丞。\n金人来归燕,谋帅臣,安中请行。王黼赞于上,授庆远军节度使、河北河东燕山府路宣抚使、\n知燕山府,辽降将郭药师同知府事。药师跋扈,府事皆专行,安中不能制,第曲意奉之,故\n药师愈骄。靖康初,言者论其缔合王黼、童贯及不几察郭药师叛命,罢为观文殿大学士、提\n举嵩山崇福宫;又责授朝议大夫、秘书少监、分司南京,随州居住;又贬单州团练副使,象\n州安置。高宗即位,内徙道州,寻放自便。绍兴初,复左中大夫。子辟章知泉州,迎安中往,\n未几卒,年五十九。安中为文丰润敏拔,尤工四六之制....。徽宗尝宴睿谟殿,命安中赋诗百韵\n以纪其事。诗成,赏叹不已,令大书于殿屏,凡侍臣皆以副本赐之。其见重如此。\n(节选自《宋史·王安中传》)\n10.下列对文中画波浪线部分的断句,正确的一项是()\nA.开封逻卒夜迹盗/盗脱去/民有惊出与卒遇/缚以为盗/民讼诸府/不胜考掠之惨/遂诬服/安中廉\n知之/按得冤状/即出民/抵吏罪/\nB.开封逻卒夜迹盗/盗脱去/民有惊出与卒遇/缚以为盗/民讼诸府不胜/考掠之惨/遂诬服/安中廉\n知之/按得冤状/即出民/抵吏罪/\nC.开封逻卒夜迹盗/盗脱去/民有惊出与卒遇/缚以为盗/民讼诸府/不胜考掠之惨/遂诬服/安中廉\n知之/按得冤状/即出民抵吏罪/\nD.开封逻卒夜迹盗/盗脱去/民有惊出与卒遇/缚以为盗/民讼诸府不胜/考掠之惨/遂诬服/安中廉\n知之/按得冤状/即出民抵吏罪/\n11.下列对文中加点词语的相关内容的解说,不正确的一项是()\nA.方士,又称方术士,指中国古代好讲神仙方术、从事巫祝术数活动的人。\nB.保任,意思是担保或担保者,文中特指因向朝廷推荐人才而负担保责任。\nC.禁中,又称禁内,指皇室宗族所居之处,因所居宫室严禁随便进出得名。\nD.四六之制,即骈文,因在发展中逐渐成为相对整齐的四六句式而由此称。\n12.下列对原文有关内容的概括和分析,不正确的一项是()\nA.王安中进士出身,具有敏捷才思。他随众向朝廷表贺瑞应,徽宗称他为奇才,又出题专门\n考查,随即任命他为中书舍人,不久又擢升为御史中丞。\nB.王安中弹劾蔡京,得到皇上采纳。蔡京投皇上所好,引荐道术之士,扰乱朝廷,他陈奏蔡\n京之罪,要求惩治,蔡京恐惧,其子蔡攸也哭请皇上宽恕。\nC.王安中外放任职,仕途屡遭坎坷。金人前来归顺,他自请燕山府任职,与辽降将郭药师共\n事;靖康初,因此前的行事备受指责,仕途随之沉浮不定。\nD.王安中诗文兼擅。受到皇上器重。他极有文采,为文厚实脱俗,曾受命赋诗百韵以纪盛宴,\n徽宗高度赞扬,下令书于大殿屏风,将副本赐给侍臣。\n13.把文中画横线的句子翻译成现代汉语。\n(1)并言京欺君僣上、蠹国害民数事。上悚然纳之。\n(2)药师跋扈,府事皆专行,安中不能制,第曲意奉之,故药师愈骄。","input": "","output": "答案:【答案】10.A 11.C 12.C\n13.(1)同时上奏蔡京欺君犯上,祸国殃民等事。皇上惊恐,采纳了进言。\n(2)药师蛮横暴戾,对府中事务独断独行。王安中无力控制,只是违心顺从他,所以药师更\n加骄横。\n\n解析:【解析】 【10题详解】 本题考查学生文言断句的能力。解答此类题目,应先把句子代入原文,结合语境理解句子的 大概意思,然后要注意一些常见的句尾、句首标志性的词语,句子结构的对称,文中词语充 当的成分,句子成分的省略,叙事内容的变化等。 “民讼诸府”意思是民向官府诉讼,“诸府”是诉讼的对象,做状语,修饰“讼”其后断开, “不胜”是忍受不住,说明“考掠”的情况,二者不能断开,据此排除BD;“即出民”中, “民”是“出”的宾语,其后断开,排除C。 故选A。 【11题详解】 本题考查理解古代文化常识的能力。文化常识的考核主要集中在古代的一些称谓、官职的变 迁、建筑的名称、年号、谥号、庙号、一些文书的名称、官场的一些礼节、朝廷的一些机构、 典章制度、行政区划、还有一些避讳的说法等。平时注意积累,尤其是课本的注释的相关内 容,答题时还要注意集合语境的含义作答。 C项,“指皇室宗族所居之处”错误,应是“封建帝王所居的宫苑”。 故选C。 【12题详解】 此题考查筛选和整合文中的信息的能力。这类题目常涉及人物行为举止、人物主张、人物情 感、人物思想道德、人物性格、人物志向、人物才智、选文的综合性八类信息的筛选,做题 时要在原文中找准区间,把准对象,体情察意,切忌张冠李戴,忌断章取义,无中生有。 C项,“他自请燕山府任职”错误,原文是“安中请行。王黼赞于上,授庆远军节度使、河北 河东燕山府路宣抚使、知燕山府”,可见只是自请前行,并非“自请燕山府任职”。 故选C。 【13题详解】 本题考查学生理解文章内容,翻译文言句子的能力。解答此类题目,首先拿到句子之后,应 先回归文本,然后分析句子中是否存在特殊句式和固定句式、短语,再按照不同的句式进行 调、换、删,再采取对译法,逐字进行翻译。 (1)关键词:僭上:越分冒用尊者的仪制或宫室、器物等。蠹:蛀蚀,危害。悚然:害怕的 样子。 (2)关键词:跋扈:专横暴戾。第,只管。曲意:委曲己意而奉承别人。"}{"instruction": "阅读下面材料 ,在空白处填入适当的内容 (不多于 3个单词)或括号内单词\n的正确形式。  \nAre you facing  a situation  that looks  impossible  to fix? \nIn 1969 , the pollution  was terrible  along  the Cuyahoga  River  near Cleveland , \nOhio . It   61   (be)unimaginable  that it could  ever be cleaned  up. The river  was \nso polluted  that it  62   (actual)caught  fire and burned . Now , years  later, this \nriver  is one of   63    most  outstanding  examples  of environmental  cleanup . \nBut the river  wasn ’t changed  in a few days  64   even  a few months . It took \n  years  of work  65   (reduce) the industrial  pollution  and clean  the water . \nFinally , that hard work  paid off and now the water  in the river  is  66   (clean)\nthan ever. \nMaybe  you are facing  an impossible  situation . Maybe  you have  a habit   67   is \ndriving  your family  crazy . Possibly  you drink  too much  or don’t know  how to control  \nyour credit  card use. When  you face such an impossible  situation , don’t you want  a \nquick  fix and something  to change  immediately ? \nWhile  there  are   68  (amaze) stories  of instant  transformation , for most  of \nus the  69   (change) are gradual  and require  a lot of effort  and work , like \ncleaning  up a polluted  river . Just be  70   (patience).","input": "","output": "答案:was\nactually\nthe\nor\nto reduce\ncleaner\nwhich/that\namazing\nchanges\npatient\n\n解析:61.was 考查动词过去时态和主谓一致 .根据本段第一句 In 1969 , the pollution  was  terrible  along  the Cuyahoga  River  near Cleveland , Ohio .可知,本段叙述的是过去发 生的事情. the Cuyahoga  River  near Cleveland , Ohio在过去被污染地如此地严重 , 所以说过去没有人能够想象到这条河被清理干净 .又主语 \"It\"为三单,故填 was. 62.actually  考查副词用法 .本句中使用副词 actually做状语修饰谓语动词 caught   fire, actual是形容词,不能在句中做状语,通常只做定语或者表语修饰名词.故 填actually. 63.the 考查冠词. 横线后是形容词最高级 most  outstanding ,形容词最高级前要 加the,故填 the. 64.or 考查连词.从语境可知这条河流的改变不是几天或者几个月的事情.本 句中的 or\"或者 \"表示选择的意思. 故填 or. 65.to reduce  考查固定句式.固定句式: It takes  sb sth to do sth某人做某事花了 多少时间; 句中的不定式 to reduce  the industrial  pollution  and clean  the water是句 子真正的主语. 前面的 it是形式主语. 故填 to reduce. 66.cleaner  考查形容词比较级. 横线后面有 than,说明横线上应该使用比较级 的形式. 故填 cleaner. 67.which/that  考查定语从句.本句是一个定语从句, 先行词是 a habit,定语从 句中使用关系代词 that/which 指代先行词,在句做主语,不能省略. 故填 which/that . 68.amazing  考查形容词不同形式用法. 小技巧:凡是 ﹣ed结尾的都是形容人的 ,表示 \"人感到 …\",﹣ing结尾都是形容物的 ,表示 \"令人感到 …\".此处修饰 \"stories   故事 \",所以要用 amazing.故填 amazing. 69.changes  考查名词复数. 横线后面是系动词 are,说明横线处主语应该是一 个复数形式的名词 ,所以用 changes.故填 changes.change既可以作名词也可以 作动词,在此为名词. 70.patient   考查形容词. 横线前面有系动词 be,说明此处应用形容词,本句是 一个祈使句 be patient耐心一点. patient形容词,意为 \"耐心的 \"; patience名词, 意为 \"耐心 \".故填 patient.    【点评】解答此类题目应先浏览全文 ,概括大意 ,再根据句子间的提示以及括号 内的汉语提示或首字母提示 ,依据语法规则和行为逻辑来推测并填写合适的词语 ."}
客观题
  {"instruction": "2. 若 $z=1+2 i+i^{3}$ ,则 $|z|=(\\quad)$\nA. 0\nB. 1\nC. $\\sqrt{2}$\nD. 2","input": "","output": "答案:C\n解析:【详解】因为 $z=1+2 i+i^{3}=1+2 i-i=1+i$, 所以 $|z|=\\sqrt{1^{2}+1^{2}}=\\sqrt{2}$.  故选: C."}{"instruction": "5. (5 分) 设函数 $f(x)=x^{3}+(a-1) x^{2}+a x$. 若 $f(x)$ 为奇函数, 则曲线 $y=f($ $x$ ) 在点 $(0,0)$ 处的切线方程为 ( )\nA. $y=-2 x$\nB. $y=-x$\nC. $y=2 x$\nD. $y=x$","input": "","output": "答案:D\n解析:解: 函数 $f(x)=x^{3}+(a-1) x^{2}+a x$, 若 $f(x)$ 为奇函数,  可得 $a=1$, 所以函数 $f(x)=x^{3}+x$, 可得 $f^{\\prime}(x)=3 x^{2}+1$,  曲线 $y=f(x)$ 在点 $(0,0)$ 处的切线的斜率为: 1 ,  则曲线 $y=f(x)$ 在点 $(0,0)$ 处的切线方程为: $y=x$.  故选:D."}{"instruction": "9.( 4分)公元前 340年,雅典一下层女子因亵渎神灵被控犯罪,按法律当处\n死。辩护人用动情的言辞质问 :“难道你们忍心让这位阿芙罗狄特(古希腊美\n丽女神)的弟子香消玉殒吗? ”这打动了陪审团。经投票,陪审法庭判其无罪\n。这反映出在古代雅典(   ) \nA.民主原则贯穿司法过程  B.妇女享有广泛政治权利   \nC.法律注重保护平民权益  D.司法审判缺乏严格程序","input": "","output": "答案:A\n解析:由材料可知 ,辩护人打动陪审团 ,说明辩护人得到了多数票的支持 。雅 典民主政治下设立陪审法庭,陪审团投票,以多数原则决定罪责及惩罚,该 女子获无罪符合民主、法律程序, 因此正确答案为 A项。其他三项都无从体 现。   故选: A。"}

请添加图片描述

请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述

http://www.xdnf.cn/news/503533.html

相关文章:

  • 网络切片:给用户体验做“私人定制”的秘密武器
  • 80. Java 枚举类 - 使用枚举实现单例模式
  • 自制操作系统(三、文件系统实现)
  • 8天Python从入门到精通【itheima】-14~16
  • 【PhysUnits】4.2 Integer Trait
  • c/c++的opencv的轮廓匹配初识
  • 提升Qt应用性能--全面解析关键技术与策略
  • C++性能测试工具——Vtune的使用
  • BC 范式与 4NF
  • 全局异常处理:如何优雅地统一管理业务异常
  • Android屏幕采集编码打包推送RTMP技术详解:从开发到优化与应用
  • 数据结构第七章(四)-B树和B+树
  • Linux `mkdir` 命令深度解析与高阶应用指南
  • [逆向工程]C++实现DLL卸载(二十六)
  • 【算法】分支限界法和贪心、动态规划、回溯、分治法的区别是
  • 围炉夜话:三体阅读分析PPT+文稿
  • Java--利用(堆)获取前k个最小元素
  • 非易失性存储技术综合对比:EEPROM、NVRAM、NOR Flash、NAND Flash和SD卡
  • ​哈夫曼树(Huffman Tree)
  • C++ 回调函数
  • 计算机视觉与深度学习 | Python实现EEMD-LSTM时间序列预测(完整源码和数据)
  • JavaScript基础-预解析
  • 线程(二)OpenJDK 17 中线程启动的完整流程用C++ 源码详解之主-子线程通信机制
  • 如何彻底清空docker里面不使用的容器?
  • deepin v23.1 搜狗输入法next配置中文输入法下默认用英文标点
  • 符合Python风格的对象(对象表示形式)
  • 【机器学习】第二章模型的评估与选择
  • 【LeetCode】大厂面试算法真题回忆(91)--几何平均值最大子数组
  • vue引用cesium,解决“Not allowed to load local resource”报错
  • 调用DeepSeek系列模型问答时,输出只有</think>标签,而没有<think>标签