大模型BERT登顶刊CAR!分析专利文本的作用
美国罗格斯大学的Yuxiang Zheng在会计学国际顶级期刊Contemporary Accounting Research发表独作文章“Can investors learn from patent documents? Evidence from textual analysis(投资者能否从专利文件中获取信息?基于文本分析的实证)”。论文运用大型语言模型 BERT探讨了专利文本在专利的股市估值中所扮演的角色。
论文摘要
本文探讨了专利文本在专利的股市估值中所扮演的角色。研究运用大型语言模型 BERT(双向 Transformer 编码器表示)对专利文本中的上下文信息进行总结,发现专利文本能够解释 31.5% 的专利股市估值差异,并且相较于其他结构化专利特征、企业特征以及技术趋势,其提供了强大的增量解释力。此外,专利文本能够显著预测未来收益的水平、波动性和累积速度,这表明专利文本蕴含着与企业业绩相关的真实信息。然而,专利文本对未来股票收益的预测能力表明,投资者并未将专利文本中的此类信息充分纳入股价之中。在专利申请授权前公开成为强制性要求后,这种反应不足的现象有所减弱。研究结果强调了专利文本作为内部开发无形资产信息来源的价值,同时也为学术界、实务界和监管机构提供了参考。
数据说明
论文最终样本包含 5,863 家公司的 2,120,281 项专利。
文本分析
本文使用谷歌发布的预训练 BERT 模型,该模型基于包括维基百科和谷歌图书语料库在内的大规模文本语料库训练而成。这两种来源均包含大量科学内容。例如,与 “基于体素的特征学习网络” 专利(专利号 10970518)相关的维基百科 “体素” 条目,以与专利文本相当的科学语言讨论该技术(“Voxel,” 2024)。这使得谷歌 BERT 模型非常适合分析专利文本。预训练模型通过为文本中的单词生成语境化向量表示(即词嵌入)对文本信息进行编码,动态捕捉每个单词基于上下文的含义。在获得向量表示后,微调过程通过优化嵌入参数和额外任务特定层,将这些向量与任务特定标签(本研究中为专利股市估值)相关联。
本文按专利授权年份滚动将 BERT 模型应用于专利文本:对于 1981 至 2020 年的每个年份 t,使用前一年 t-1 年授权的专利进行微调,并使用 t 年授权的专利进行 “样本外” 建模(即仅基于专利文本预测 t 年授权专利的股市估值)。基于专利文本的股市估值预测值,在 BERT 模型所能捕捉的范围内,构成了与专利股市估值相关的专利文本信息的综合度量。这种方法使模型完全基于历史数据训练,最大限度减少过拟合偏差,同时避免因将样本划分为 “训练” 和 “测试” 子样本而导致观测值损失。此外,专利文件中的技术及其描述语言随时间演变,基于最新专利滚动训练模型可能提高准确性。
将专利文件输入 BERT 模型时,一个限制是 BERT 处理文本的最大 Token 数为 512。先前研究(如 Siano & Wysocki, 2021)常通过仅分析前 512 个 Token 解决这一问题,但这会导致全文信息丢失。为克服这一限制,本文采用 Siano(2022)的方法,将每件专利文件(具体为 “简要说明” 部分)切分为 512 个 Token 的文本窗口,允许每个窗口与前一窗口重叠约 20%(即 100 个 Token)。每件专利的所有文本窗口均标注相应的专利股市估值,随后用于微调。在 “样本外” 预测时,对每件专利所有文本窗口的输出取平均值,生成专利层面的预测值。
文献来源
Zheng, Yuxiang. "Can investors learn from patent documents? Evidence from textual analysis." Contemporary Accounting Research (2025).