comap-o奖论文学习
【ai帮我汇总的prompt】
- 针对每道题 这些文章分别用了哪些模型 给我汇总一个table然后简要介绍这些模型的原
2025 c
0 模型 汇总
好的,我为您整理了这9篇报告中针对三个主要任务(问题1、2、3)所使用的核心模型。
下表汇总了每篇报告(按团队编号区分)在解决“奖牌预测”(任务1)、“‘伟大教练’效应”(任务2)和“其他洞察”(任务3)时分别采用了哪些关键模型,并简要介绍了这些模型的原理。
9 篇报告的核心模型汇总表
| 团队编号 | 任务 (问题) | 使用的核心模型 | 模型简要原理 |
|---|---|---|---|
| 2500759 1 | 任务 1 | PCA + LSTM + XGBoost-Bootstrap 2 Wilcoxon 检验 3 SHAP & Spearman 4444 |
PCA (主成分分析) 5:数据降维。 LSTM (长短期记忆网络) 6:捕捉时间序列特征。 XGBoost-Bootstrap 7:一种强大的梯度提升决策树模型,结合 Bootstrap (自举法) 来估计置信区间。 Wilcoxon 检验 (非参数检验) 8:用于检验“零突破”国家的预测概率是否显著。 SHAP & Spearman 9999:用于解释特征(项目)的重要性和相关性。 |
| 任务 2 | DID (差分中的差分模型) 10101010 | 一种准实验方法,通过比较“干预组”(教练变更)和“对照组”(未变更)在干预前后的变化差异,来估计政策(教练)的净效应。 | |
| 任务 3 | (模型复用) | 综合运用 PCA, LSTM, 和 SHAP 分析得出额外见解 11111111。 | |
| 2501869 12 | 任务 1 | Hurdle (跨栏) 模型 13 Tobit (托比特) 模型 14 |
Hurdle 模型 15:一个两阶段模型,专门处理“过多零值”的计数数据。第一阶段(通常是 Logit)预测“是否为0”(能否获奖),第二阶段(如截断泊松)预测“非0”的具体数值(奖牌数)。 Tobit 模型 16:用于处理“删失数据”。它假设存在一个无法观测的“潜在奖牌能力”,当该能力低于0时,观测到的奖牌数即为0。 |
| 任务 2 | 贝叶斯变点检测 17 2SLS (两阶段最小二乘法) 18 |
贝叶斯变点检测 19:一种统计方法,用于在时间序列中识别出数据属性(如均值)发生显著变化的“变点”(即教练上任时间)。 2SLS 20:一种回归方法,用于处理“内生性”问题(即教练和奖牌数可能互相影响)。它通过“工具变量”来估算教练的纯粹因果贡献。 |
|
| 任务 3 | (模型复用) | 重新使用贝叶斯变点检测和 Hurdle/Tobit 模型进行深入分析 21。 | |
| 2503389 22 | 任务 1 | MLR-FNN 混合模型 23 Logistic 回归-随机森林混合 24 SIAMOS (自定义模型) 25 |
MLR-FNN 26:融合了“多元线性回归”(MLR) 的可解释性和“前馈神经网络”(FNN) 捕捉非线性关系的能力。 Logistic 回归-随机森林 27:结合了 Logistic 的概率输出和随机森林的分类鲁棒性,用于预测“零突破”国家。 SIAMOS 28:作者自定义的“奥林匹克运动战略重要性评估模型”,通过加权指标评估项目重要性。 |
| 任务 2 | 断点回归 (Breakpoint Regression) 29292929 | 一种准实验方法,通过比较教练上任时间点(断点)前后的数据趋势变化,来量化“伟大教练”的贡献。 | |
| 任务 3 | (洞察分析) | 提出了“东道国溢出效应”,未构建新模型 30。 | |
| 2505964 31 | 任务 1 | Random Forest (随机森林) 32323232 Monte Carlo (蒙特卡洛) 模拟 33333333 |
随机森林 3434:一种集成学习模型,通过构建大量的决策树并取其平均(回归)或投票(分类)结果来进行预测。用于预测运动员的获奖(分类)和能力(回归)。 蒙特卡洛模拟 3535:利用随机森林输出的“概率”,通过大量随机抽样来模拟奖牌(金、银、铜)的具体分配过程,并量化不确定性 36。 |
| 任务 2 | 自定义“伟大教练模型” 37373737 | 作者自定义了一个数学公式 383838383838383838,通过比较教练上任后的实际奖牌数和上任前的“平均运动员能力” 39 来计算教练的贡献值。 | |
| 任务 3 | Poisson (泊松) 回归 404040 Linear Regression (线性回归) 414141 |
泊松回归 42:一种用于“计数数据”(如奖牌数)的回归模型,分析项目数量(自变量)和奖牌数(因变量)之间的关系。 线性回归 43:用于量化“东道国效应” 44。 |
|
| 2507817 45 | 任务 1 | GSRF (网格搜索-随机森林) 464646 Logistic 回归 474747 |
GSRF 48:即带有“网格搜索”调参的随机森林模型,用于预测奖牌数。 Logistic 回归 49:用于“零突破”国家的二元分类问题(预测获奖或不获奖)50。 |
| 任务 2 | Lasso 回归 515151 Spearman 相关性 525252 |
Lasso 回归 53:一种使用 L1 正则化的线性回归。它会自动将不重要的特征(变量)的系数压缩到 0,从而筛选出最有影响力的因素 54。 Spearman 相关性 55:用于验证教练效应和分数之间是否存在显著的非线性关联。 |
|
| 任务 3 | (洞察分析) | 分析了“东道国效应”和“天才运动员”,未构建新模型 56。 | |
| 2510006 57 | 任务 1 | ARIMA + 随机森林 + 线性回归 58 Monte Carlo (蒙特卡洛) 模拟 59 Poisson (泊松) 分布 606060 |
ARIMA 61:一种经典的时间序列模型,用于捕捉数据中的趋势和周期性,预测非“零突破”国家 62。 随机森林 63:用于计算置信区间 64。 蒙特卡洛模拟 65:用于预测“新项目”的奖牌分布 66。 泊松分布 67:用于为“零突破”国家的预测结果计算置信区间 68。 |
| 任务 2 | Fisher's 精确检验 69696969 | 一种用于 2x2 列联表(例如:[教练变更/未变更] vs [获奖/未获奖])的统计检验,用于确定教练变更和获奖之间是否存在显著关联。 | |
| 任务 3 | (相关性分析) | 分析了 GDP 和奖牌数之间的相关性 70707070。 | |
| 2510185 71 | 任务 1 | Random Forest (随机森林) 727272 BP 神经网络分类器 737373 |
随机森林 74:使用网格搜索 (GridSearchCV) 75和自举法 (Bootstrap) 76来预测奖牌数和置信区间。 BP 神经网络 77:一种使用“误差反向传播”(Backpropagation) 算法训练的神经网络,用于“零突破”国家的二元分类任务 78。 |
| 任务 2 | Random Forest (随机森林) 79 自定义“EPI”模型 80 |
随机森林 81:通过在特征中加入“有无伟大教练”的二元变量,来预测奖牌变化,从而量化教练的贡献 82828282。 EPI (事件潜力指数) 83:作者自定义的加权公式 84,用于评估哪些项目最值得投资教练。 |
|
| 任务 3 | (模型复用) | 基于随机森林的“特征重要性” 85和 BP 神经网络的预测结果 86 提出见解。 | |
| 2510862 87 | 任务 1 | Stacking 集成模型 888888 Bootstrap (自举法) 898989 |
Stacking 集成 90:一种高级集成方法。它使用多个“基础模型”(如 LGBM, SVM, XGBoost 等)的预测结果作为“元学习器”(如逻辑回归)91的输入,来进行最终预测。 Bootstrap 92:通过数据重采样来估计 95% 置信区间 93。 |
| 任务 2 | PSM-DID 模型 949494 K-Means 聚类 959595 |
PSM-DID 96:“倾向得分匹配”(PSM) 97是一种统计方法,用于在“干预组”和“对照组”中找到特征相似的样本对,然后再使用 DID 模型进行因果推断。 K-Means 聚类 98:一种无监督算法,用于将国家按“潜力”和“近期表现” 99 分群,以找出适合投资的国家。 |
|
| 任务 3 | Pearson 相关性 & SHAP 100100 | Pearson 相关性 101:衡量项目和奖牌数之间的线性相关程度。 SHAP 102:用于解释 Stacking 模型,找出哪些项目对美国队的奖牌贡献最大 103。 |
|
| 2514362 104 | 任务 1 | 混合效应负二项回归 105105105 ZINB (零膨胀负二项) 106106106 |
混合效应负二项回归 107:一种高级回归模型。“负二项”用于处理方差大于均值(过离散)的计数数据(奖牌数);“混合效应”用于同时考虑固定效应(如历史成绩)和随机效应(如国家异质性)108。 ZINB 109:一种处理“过多零值”的模型。它假设零值来自两个过程:一是“真零”(国家有能力但没获奖),二_是_“结构性零”(国家根本没能力获奖)110。 |
| 任务 2 | 贝叶斯修正的熵模型 111111111111 | 一种基于信息论的模型。“熵”用来衡量不确定性,“信息增益 (IG)” 112112112112用来量化教练的引入(作为一种信息)对减少“奖牌不确定性”的贡献。使用了“拉普拉斯平滑” 113113113113 来处理小样本数据。 | |
| 任务 3 | (模型复用) | 基于 ZINB 和熵模型的结果提出见解(如“潜在奖牌”)114。 |
1. 2025 c 2503389
这篇还是很有说法的,因为它的图其实都挺丑的,可见思路的创新,深刻有时候也是关键


感觉模型多是基础
2. 2025c-2505964
关键图!!!!!

学习一下

3. 2025c-2507817

比较次要

简单有效

比较高级没看懂
2025c-2510006
