当前位置: 首页 > news >正文

大模型BERT登顶刊CAR!分析专利文本的作用

美国罗格斯大学的Yuxiang Zheng在会计学国际顶级期刊Contemporary Accounting Research发表独作文章“Can investors learn from patent documents?  Evidence from textual analysis(投资者能否从专利文件中获取信息?基于文本分析的实证)”。论文运用大型语言模型 BERT探讨了专利文本在专利的股市估值中所扮演的角色。

图片

论文摘要

本文探讨了专利文本在专利的股市估值中所扮演的角色。研究运用大型语言模型 BERT(双向 Transformer 编码器表示)对专利文本中的上下文信息进行总结,发现专利文本能够解释 31.5% 的专利股市估值差异,并且相较于其他结构化专利特征、企业特征以及技术趋势,其提供了强大的增量解释力。此外,专利文本能够显著预测未来收益的水平、波动性和累积速度,这表明专利文本蕴含着与企业业绩相关的真实信息。然而,专利文本对未来股票收益的预测能力表明,投资者并未将专利文本中的此类信息充分纳入股价之中。在专利申请授权前公开成为强制性要求后,这种反应不足的现象有所减弱。研究结果强调了专利文本作为内部开发无形资产信息来源的价值,同时也为学术界、实务界和监管机构提供了参考。

数据说明

论文最终样本包含 5,863 家公司的 2,120,281 项专利。

文本分析

本文使用谷歌发布的预训练 BERT 模型,该模型基于包括维基百科和谷歌图书语料库在内的大规模文本语料库训练而成。这两种来源均包含大量科学内容。例如,与 “基于体素的特征学习网络” 专利(专利号 10970518)相关的维基百科 “体素” 条目,以与专利文本相当的科学语言讨论该技术(“Voxel,” 2024)。这使得谷歌 BERT 模型非常适合分析专利文本。预训练模型通过为文本中的单词生成语境化向量表示(即词嵌入)对文本信息进行编码,动态捕捉每个单词基于上下文的含义。在获得向量表示后,微调过程通过优化嵌入参数和额外任务特定层,将这些向量与任务特定标签(本研究中为专利股市估值)相关联。

本文按专利授权年份滚动将 BERT 模型应用于专利文本:对于 1981 至 2020 年的每个年份 t,使用前一年 t-1 年授权的专利进行微调,并使用 t 年授权的专利进行 “样本外” 建模(即仅基于专利文本预测 t 年授权专利的股市估值)。基于专利文本的股市估值预测值,在 BERT 模型所能捕捉的范围内,构成了与专利股市估值相关的专利文本信息的综合度量。这种方法使模型完全基于历史数据训练,最大限度减少过拟合偏差,同时避免因将样本划分为 “训练” 和 “测试” 子样本而导致观测值损失。此外,专利文件中的技术及其描述语言随时间演变,基于最新专利滚动训练模型可能提高准确性。

将专利文件输入 BERT 模型时,一个限制是 BERT 处理文本的最大 Token 数为 512。先前研究(如 Siano & Wysocki, 2021)常通过仅分析前 512 个 Token 解决这一问题,但这会导致全文信息丢失。为克服这一限制,本文采用 Siano(2022)的方法,将每件专利文件(具体为 “简要说明” 部分)切分为 512 个 Token 的文本窗口,允许每个窗口与前一窗口重叠约 20%(即 100 个 Token)。每件专利的所有文本窗口均标注相应的专利股市估值,随后用于微调。在 “样本外” 预测时,对每件专利所有文本窗口的输出取平均值,生成专利层面的预测值。

文献来源

Zheng, Yuxiang. "Can investors learn from patent documents? Evidence from textual analysis." Contemporary Accounting Research (2025).

http://www.xdnf.cn/news/640063.html

相关文章:

  • 开源项目跨平台桌宠 BongoCat,为桌面增添乐趣!
  • SEO搜索引擎优化
  • log日志最佳实践
  • Mybatis框架的构建(IDEA)
  • 计算机网络学习(七)——IP
  • LangChain03-图数据库与LangGraph
  • JWT与布隆过滤器结合使用指南
  • 【数学基础】范数及其应用
  • Leetcode 刷题记录 10 —— 二叉树
  • 第五项修炼与系统思考
  • Lambda表达式的方法引用详解
  • 在 Thonny 中打包 EXE
  • Python 内存管理机制详解:从分配到回收的全流程剖析
  • 考研政治资料分享 百度网盘
  • Linux架构篇、第五章_03gitlab的搭建
  • 程序代码模块化设计的架构方法论
  • ubuntu下nginx
  • 棒球比赛暗号百科·棒球1号位
  • HttpServletRequest 对象包含了哪些信息?
  • 【计算机CPU架构】x86架构简介
  • 简单数学板子和例题
  • 如何将ChatGPT添加到WordPress(新手指南)
  • NTFS0x90属性和0xa0属性和0xb0属性的一一对应关系是index_entry中的index_node中VCN和runlist和bitmap
  • 创建dummy
  • 基于diffusion的图像编辑与inpaint
  • pycharm管理项目python环境
  • TCP四次挥手,网络连接关闭的艺术
  • 【医学影像 AI】使用 PyTorch 和 MedicalTorch 实现脊髓灰质分割
  • 一步一图学信号可视化:用Python绘制多频率信号对比图
  • 数据结构 栈的详细解析