当前位置：首页 > backend >正文

【实证分析】MDA文本相似度分析（2008-2023年）

backend 2025/8/25 4:17:38

数据简介：管理层讨论与分析（Management's Discussion and Analysis，MD&A）是上市公司年报中由管理层撰写的核心内容，其通过分析公司财务状况、经营成果、风险因素和未来战略，向投资者传递关键决策信息。研究MD&文本相似度具有多重理论与实践意义。MD&文本相似度分析可有效识别“模板化披露”现象。若多家公司或同一公司不同年份的MD&内容高度趋同，可能暗示管理层存在敷衍披露、避重就轻的风险。MD&A文本相似度研究不仅是技术工具的创新，更是完善信息披露制度、优化资源配置效率的重要突破口。其价值在于构建“文本特征-管理层动机-市场反应”的逻辑闭环，为提升资本市场信息透明度提供量化支撑。本团队参考宋昕倍、陈莹、逯东、程杰（2024）的文章，按照如下步骤得出MD&A文本相似度：

首先遍历所有文件，找到所有年份的股票代码集合的交集，即所有年份都存在的上市公司数据；

然后对文本进行分词处理，分词过程中去掉阿拉伯数字和标点符号，使用潜在语义索引（Latent Semantic Indexing，LSI）余弦相似度计算法，计算得出当期MD&A文本与上一期MD&A文本的相似度；

数据来源：人工整理

时间跨度：2008-2023年

数据格式：Excel

包含指标：

股票代码

股票简称

年份

年度相似度

样例数据：

图1.png