comap-o奖论文学习

【ai帮我汇总的prompt】

针对每道题这些文章分别用了哪些模型给我汇总一个table然后简要介绍这些模型的原

2025 c

0 模型汇总

好的，我为您整理了这9篇报告中针对三个主要任务（问题1、2、3）所使用的核心模型。

下表汇总了每篇报告（按团队编号区分）在解决“奖牌预测”（任务1）、“‘伟大教练’效应”（任务2）和“其他洞察”（任务3）时分别采用了哪些关键模型，并简要介绍了这些模型的原理。

9 篇报告的核心模型汇总表

团队编号	任务 (问题)	使用的核心模型	模型简要原理
2500759 1	任务 1	PCA + LSTM + XGBoost-Bootstrap 2 Wilcoxon 检验 3 SHAP & Spearman 4444	PCA (主成分分析) 5：数据降维。 LSTM (长短期记忆网络) 6：捕捉时间序列特征。 XGBoost-Bootstrap 7：一种强大的梯度提升决策树模型，结合 Bootstrap (自举法) 来估计置信区间。 Wilcoxon 检验 (非参数检验) 8：用于检验“零突破”国家的预测概率是否显著。 SHAP & Spearman 9999：用于解释特征（项目）的重要性和相关性。
	任务 2	DID (差分中的差分模型) 10101010	一种准实验方法，通过比较“干预组”（教练变更）和“对照组”（未变更）在干预前后的变化差异，来估计政策（教练）的净效应。
	任务 3	(模型复用)	综合运用 PCA, LSTM, 和 SHAP 分析得出额外见解 11111111。
2501869 12	任务 1	Hurdle (跨栏) 模型 13 Tobit (托比特) 模型 14	Hurdle 模型 15：一个两阶段模型，专门处理“过多零值”的计数数据。第一阶段（通常是 Logit）预测“是否为0”（能否获奖），第二阶段（如截断泊松）预测“非0”的具体数值（奖牌数）。 Tobit 模型 16：用于处理“删失数据”。它假设存在一个无法观测的“潜在奖牌能力”，当该能力低于0时，观测到的奖牌数即为0。
	任务 2	贝叶斯变点检测 17 2SLS (两阶段最小二乘法) 18	贝叶斯变点检测 19：一种统计方法，用于在时间序列中识别出数据属性（如均值）发生显著变化的“变点”（即教练上任时间）。 2SLS 20：一种回归方法，用于处理“内生性”问题（即教练和奖牌数可能互相影响）。它通过“工具变量”来估算教练的纯粹因果贡献。
	任务 3	(模型复用)	重新使用贝叶斯变点检测和 Hurdle/Tobit 模型进行深入分析 21。
2503389 22	任务 1	MLR-FNN 混合模型 23 Logistic 回归-随机森林混合 24 SIAMOS (自定义模型) 25	MLR-FNN 26：融合了“多元线性回归”(MLR) 的可解释性和“前馈神经网络”(FNN) 捕捉非线性关系的能力。 Logistic 回归-随机森林 27：结合了 Logistic 的概率输出和随机森林的分类鲁棒性，用于预测“零突破”国家。 SIAMOS 28：作者自定义的“奥林匹克运动战略重要性评估模型”，通过加权指标评估项目重要性。
	任务 2	断点回归 (Breakpoint Regression) 29292929	一种准实验方法，通过比较教练上任时间点（断点）前后的数据趋势变化，来量化“伟大教练”的贡献。
	任务 3	(洞察分析)	提出了“东道国溢出效应”，未构建新模型 30。
2505964 31	任务 1	Random Forest (随机森林) 32323232 Monte Carlo (蒙特卡洛) 模拟 33333333	随机森林 3434：一种集成学习模型，通过构建大量的决策树并取其平均（回归）或投票（分类）结果来进行预测。用于预测运动员的获奖（分类）和能力（回归）。蒙特卡洛模拟 3535：利用随机森林输出的“概率”，通过大量随机抽样来模拟奖牌（金、银、铜）的具体分配过程，并量化不确定性 36。
	任务 2	自定义“伟大教练模型” 37373737	作者自定义了一个数学公式 383838383838383838，通过比较教练上任后的实际奖牌数和上任前的“平均运动员能力” 39 来计算教练的贡献值。
	任务 3	Poisson (泊松) 回归 404040 Linear Regression (线性回归) 414141	泊松回归 42：一种用于“计数数据”（如奖牌数）的回归模型，分析项目数量（自变量）和奖牌数（因变量）之间的关系。线性回归 43：用于量化“东道国效应” 44。
2507817 45	任务 1	GSRF (网格搜索-随机森林) 464646 Logistic 回归 474747	GSRF 48：即带有“网格搜索”调参的随机森林模型，用于预测奖牌数。 Logistic 回归 49：用于“零突破”国家的二元分类问题（预测获奖或不获奖）50。
	任务 2	Lasso 回归 515151 Spearman 相关性 525252	Lasso 回归 53：一种使用 L1 正则化的线性回归。它会自动将不重要的特征（变量）的系数压缩到 0，从而筛选出最有影响力的因素 54。 Spearman 相关性 55：用于验证教练效应和分数之间是否存在显著的非线性关联。
	任务 3	(洞察分析)	分析了“东道国效应”和“天才运动员”，未构建新模型 56。
2510006 57	任务 1	ARIMA + 随机森林 + 线性回归 58 Monte Carlo (蒙特卡洛) 模拟 59 Poisson (泊松) 分布 606060	ARIMA 61：一种经典的时间序列模型，用于捕捉数据中的趋势和周期性，预测非“零突破”国家 62。随机森林 63：用于计算置信区间 64。蒙特卡洛模拟 65：用于预测“新项目”的奖牌分布 66。泊松分布 67：用于为“零突破”国家的预测结果计算置信区间 68。
	任务 2	Fisher's 精确检验 69696969	一种用于 2x2 列联表（例如：[教练变更/未变更] vs [获奖/未获奖]）的统计检验，用于确定教练变更和获奖之间是否存在显著关联。
	任务 3	(相关性分析)	分析了 GDP 和奖牌数之间的相关性 70707070。
2510185 71	任务 1	Random Forest (随机森林) 727272 BP 神经网络分类器 737373	随机森林 74：使用网格搜索 (GridSearchCV) 75和自举法 (Bootstrap) 76来预测奖牌数和置信区间。 BP 神经网络 77：一种使用“误差反向传播”(Backpropagation) 算法训练的神经网络，用于“零突破”国家的二元分类任务 78。
	任务 2	Random Forest (随机森林) 79 自定义“EPI”模型 80	随机森林 81：通过在特征中加入“有无伟大教练”的二元变量，来预测奖牌变化，从而量化教练的贡献 82828282。 EPI (事件潜力指数) 83：作者自定义的加权公式 84，用于评估哪些项目最值得投资教练。
	任务 3	(模型复用)	基于随机森林的“特征重要性” 85和 BP 神经网络的预测结果 86 提出见解。
2510862 87	任务 1	Stacking 集成模型 888888 Bootstrap (自举法) 898989	Stacking 集成 90：一种高级集成方法。它使用多个“基础模型”（如 LGBM, SVM, XGBoost 等）的预测结果作为“元学习器”（如逻辑回归）91的输入，来进行最终预测。 Bootstrap 92：通过数据重采样来估计 95% 置信区间 93。
	任务 2	PSM-DID 模型 949494 K-Means 聚类 959595	PSM-DID 96：“倾向得分匹配”(PSM) 97是一种统计方法，用于在“干预组”和“对照组”中找到特征相似的样本对，然后再使用 DID 模型进行因果推断。 K-Means 聚类 98：一种无监督算法，用于将国家按“潜力”和“近期表现” 99 分群，以找出适合投资的国家。
	任务 3	Pearson 相关性 & SHAP 100100	Pearson 相关性 101：衡量项目和奖牌数之间的线性相关程度。 SHAP 102：用于解释 Stacking 模型，找出哪些项目对美国队的奖牌贡献最大 103。
2514362 104	任务 1	混合效应负二项回归 105105105 ZINB (零膨胀负二项) 106106106	混合效应负二项回归 107：一种高级回归模型。“负二项”用于处理方差大于均值（过离散）的计数数据（奖牌数）；“混合效应”用于同时考虑固定效应（如历史成绩）和随机效应（如国家异质性）108。 ZINB 109：一种处理“过多零值”的模型。它假设零值来自两个过程：一是“真零”（国家有能力但没获奖），二_是_“结构性零”（国家根本没能力获奖）110。
	任务 2	贝叶斯修正的熵模型 111111111111	一种基于信息论的模型。“熵”用来衡量不确定性，“信息增益 (IG)” 112112112112用来量化教练的引入（作为一种信息）对减少“奖牌不确定性”的贡献。使用了“拉普拉斯平滑” 113113113113 来处理小样本数据。
	任务 3	(模型复用)	基于 ZINB 和熵模型的结果提出见解（如“潜在奖牌”）114。