comap-o奖论文学习

【ai帮我汇总的prompt】

  1. 针对每道题 这些文章分别用了哪些模型 给我汇总一个table然后简要介绍这些模型的原

2025 c

0 模型 汇总

好的,我为您整理了这9篇报告中针对三个主要任务(问题1、2、3)所使用的核心模型。

下表汇总了每篇报告(按团队编号区分)在解决“奖牌预测”(任务1)、“‘伟大教练’效应”(任务2)和“其他洞察”(任务3)时分别采用了哪些关键模型,并简要介绍了这些模型的原理。

9 篇报告的核心模型汇总表

团队编号 任务 (问题) 使用的核心模型 模型简要原理
2500759 1 任务 1 PCA + LSTM + XGBoost-Bootstrap 2



Wilcoxon 检验 3



SHAP & Spearman 4444
PCA (主成分分析) 5:数据降维。



LSTM (长短期记忆网络) 6:捕捉时间序列特征。



XGBoost-Bootstrap 7:一种强大的梯度提升决策树模型,结合 Bootstrap (自举法) 来估计置信区间。



Wilcoxon 检验 (非参数检验) 8:用于检验“零突破”国家的预测概率是否显著。



SHAP & Spearman 9999:用于解释特征(项目)的重要性和相关性。
任务 2 DID (差分中的差分模型) 10101010 一种准实验方法,通过比较“干预组”(教练变更)和“对照组”(未变更)在干预前后的变化差异,来估计政策(教练)的净效应。
任务 3 (模型复用) 综合运用 PCA, LSTM, 和 SHAP 分析得出额外见解 11111111。
2501869 12 任务 1 Hurdle (跨栏) 模型 13



Tobit (托比特) 模型 14
Hurdle 模型 15:一个两阶段模型,专门处理“过多零值”的计数数据。第一阶段(通常是 Logit)预测“是否为0”(能否获奖),第二阶段(如截断泊松)预测“非0”的具体数值(奖牌数)。



Tobit 模型 16:用于处理“删失数据”。它假设存在一个无法观测的“潜在奖牌能力”,当该能力低于0时,观测到的奖牌数即为0。
任务 2 贝叶斯变点检测 17



2SLS (两阶段最小二乘法) 18
贝叶斯变点检测 19:一种统计方法,用于在时间序列中识别出数据属性(如均值)发生显著变化的“变点”(即教练上任时间)。



2SLS 20:一种回归方法,用于处理“内生性”问题(即教练和奖牌数可能互相影响)。它通过“工具变量”来估算教练的纯粹因果贡献。
任务 3 (模型复用) 重新使用贝叶斯变点检测和 Hurdle/Tobit 模型进行深入分析 21。
2503389 22 任务 1 MLR-FNN 混合模型 23



Logistic 回归-随机森林混合 24



SIAMOS (自定义模型) 25
MLR-FNN 26:融合了“多元线性回归”(MLR) 的可解释性和“前馈神经网络”(FNN) 捕捉非线性关系的能力。



Logistic 回归-随机森林 27:结合了 Logistic 的概率输出和随机森林的分类鲁棒性,用于预测“零突破”国家。



SIAMOS 28:作者自定义的“奥林匹克运动战略重要性评估模型”,通过加权指标评估项目重要性。
任务 2 断点回归 (Breakpoint Regression) 29292929 一种准实验方法,通过比较教练上任时间点(断点)前后的数据趋势变化,来量化“伟大教练”的贡献。
任务 3 (洞察分析) 提出了“东道国溢出效应”,未构建新模型 30。
2505964 31 任务 1 Random Forest (随机森林) 32323232



Monte Carlo (蒙特卡洛) 模拟 33333333
随机森林 3434:一种集成学习模型,通过构建大量的决策树并取其平均(回归)或投票(分类)结果来进行预测。用于预测运动员的获奖(分类)和能力(回归)。



蒙特卡洛模拟 3535:利用随机森林输出的“概率”,通过大量随机抽样来模拟奖牌(金、银、铜)的具体分配过程,并量化不确定性 36。
任务 2 自定义“伟大教练模型” 37373737 作者自定义了一个数学公式 383838383838383838,通过比较教练上任后的实际奖牌数和上任前的“平均运动员能力” 39 来计算教练的贡献值。
任务 3 Poisson (泊松) 回归 404040



Linear Regression (线性回归) 414141
泊松回归 42:一种用于“计数数据”(如奖牌数)的回归模型,分析项目数量(自变量)和奖牌数(因变量)之间的关系。



线性回归 43:用于量化“东道国效应” 44。
2507817 45 任务 1 GSRF (网格搜索-随机森林) 464646



Logistic 回归 474747
GSRF 48:即带有“网格搜索”调参的随机森林模型,用于预测奖牌数。



Logistic 回归 49:用于“零突破”国家的二元分类问题(预测获奖或不获奖)50。
任务 2 Lasso 回归 515151



Spearman 相关性 525252
Lasso 回归 53:一种使用 L1 正则化的线性回归。它会自动将不重要的特征(变量)的系数压缩到 0,从而筛选出最有影响力的因素 54。



Spearman 相关性 55:用于验证教练效应和分数之间是否存在显著的非线性关联。
任务 3 (洞察分析) 分析了“东道国效应”和“天才运动员”,未构建新模型 56。
2510006 57 任务 1 ARIMA + 随机森林 + 线性回归 58



Monte Carlo (蒙特卡洛) 模拟 59



Poisson (泊松) 分布 606060
ARIMA 61:一种经典的时间序列模型,用于捕捉数据中的趋势和周期性,预测非“零突破”国家 62。



随机森林 63:用于计算置信区间 64。



蒙特卡洛模拟 65:用于预测“新项目”的奖牌分布 66。



泊松分布 67:用于为“零突破”国家的预测结果计算置信区间 68。
任务 2 Fisher's 精确检验 69696969 一种用于 2x2 列联表(例如:[教练变更/未变更] vs [获奖/未获奖])的统计检验,用于确定教练变更和获奖之间是否存在显著关联。
任务 3 (相关性分析) 分析了 GDP 和奖牌数之间的相关性 70707070。
2510185 71 任务 1 Random Forest (随机森林) 727272



BP 神经网络分类器 737373
随机森林 74:使用网格搜索 (GridSearchCV) 75和自举法 (Bootstrap) 76来预测奖牌数和置信区间。



BP 神经网络 77:一种使用“误差反向传播”(Backpropagation) 算法训练的神经网络,用于“零突破”国家的二元分类任务 78。
任务 2 Random Forest (随机森林) 79



自定义“EPI”模型 80
随机森林 81:通过在特征中加入“有无伟大教练”的二元变量,来预测奖牌变化,从而量化教练的贡献 82828282。



EPI (事件潜力指数) 83:作者自定义的加权公式 84,用于评估哪些项目最值得投资教练。
任务 3 (模型复用) 基于随机森林的“特征重要性” 85和 BP 神经网络的预测结果 86 提出见解。
2510862 87 任务 1 Stacking 集成模型 888888



Bootstrap (自举法) 898989
Stacking 集成 90:一种高级集成方法。它使用多个“基础模型”(如 LGBM, SVM, XGBoost 等)的预测结果作为“元学习器”(如逻辑回归)91的输入,来进行最终预测。



Bootstrap 92:通过数据重采样来估计 95% 置信区间 93。
任务 2 PSM-DID 模型 949494



K-Means 聚类 959595
PSM-DID 96:“倾向得分匹配”(PSM) 97是一种统计方法,用于在“干预组”和“对照组”中找到特征相似的样本对,然后再使用 DID 模型进行因果推断。



K-Means 聚类 98:一种无监督算法,用于将国家按“潜力”和“近期表现” 99 分群,以找出适合投资的国家。
任务 3 Pearson 相关性 & SHAP 100100 Pearson 相关性 101:衡量项目和奖牌数之间的线性相关程度。



SHAP 102:用于解释 Stacking 模型,找出哪些项目对美国队的奖牌贡献最大 103。
2514362 104 任务 1 混合效应负二项回归 105105105



ZINB (零膨胀负二项) 106106106
混合效应负二项回归 107:一种高级回归模型。“负二项”用于处理方差大于均值(过离散)的计数数据(奖牌数);“混合效应”用于同时考虑固定效应(如历史成绩)和随机效应(如国家异质性)108。



ZINB 109:一种处理“过多零值”的模型。它假设零值来自两个过程:一是“真零”(国家有能力但没获奖),二_是_“结构性零”(国家根本没能力获奖)110。
任务 2 贝叶斯修正的熵模型 111111111111 一种基于信息论的模型。“熵”用来衡量不确定性,“信息增益 (IG)” 112112112112用来量化教练的引入(作为一种信息)对减少“奖牌不确定性”的贡献。使用了“拉普拉斯平滑” 113113113113 来处理小样本数据。
任务 3 (模型复用) 基于 ZINB 和熵模型的结果提出见解(如“潜在奖牌”)114。

1. 2025 c 2503389

这篇还是很有说法的,因为它的图其实都挺丑的,可见思路的创新,深刻有时候也是关键

file-20251116230515115.png|475
file-20251116230450877.png|500

感觉模型多是基础

2. 2025c-2505964

关键图!!!!!
file-20251116230611104.png
学习一下
file-20251116230715525.png

3. 2025c-2507817

file-20251116231940745.png|375

比较次要
file-20251116232001753.png|475
简单有效

file-20251116232102515.png
比较高级没看懂

2025c-2510006

file-20251116232838969.png