体验真的很微妙
比赛回顾
赛前拟定的时间表
- 9:00-12:00 工作
- 12:00-13:00 吃饭+午休(比赛的四天里实际并没有午休)
- 13:00-17:00 工作
- 17:00-18:00 晚饭
- 18:00-次日1:00 工作
- 1:00-9:00 洗漱+休息(睡眠时间可以满足七个小时)
美赛结束已经很久了,根据记忆重写的过程也会有模糊与损失。
Day 1
- 拿题看题,经过一上午加上半个下午的分析,决定选C题。
- 晚上解决了matlab导入数据的问题,并且用拟合的方法解决掉了第一个问题的第一问
- 深夜,将第一题的第二问进行了深入的分析,通过画图的方式初步排除了一些可能的影响因素(单词词性、是否元音开头),并且对于最有可能的影响因素(单词重复次数)作出了突破性的进展(图像显示影响明显)
Day 2
- 先对(1,2,3,4,5,6,X)的总体平均分布画了一个图,并用正态性检验验证了总体服从正态分布
- 上午学习了方差分析,通过此方法成功排除掉单词词性和是否元音开头这两个因素的影响
- 午饭前,试图用方差分析验证单词重复次数的影响显著,但遭遇了失败,p-value甚至十分接近1
- 半个下午一直在这一个问题上折磨着,十分疑惑为什么方差分析会失效,怀疑单词重复次数这个特别可能的因素是否真的没有显著影响,反复筛查之前的数据,确认数据无误
- 之后转向方差分析这个方法的局限性,发现使用方差分析之前需要检验方差齐性,重新检验三种可能因素的方差齐性,发现前两个因素都满足方差齐性,而最后一个不满足方差齐性
- 豁然开朗,转换检验方法,使用Welch's t-test方法检验,得到显著性!
- 晚上进入第二个问题,学习遗传算法和BP神经网络,并成功在matlab上实现,可能是数据的量太小,每次训练出来的神经网络给出的预测值变化还是较大,只能通过多次训练找到一次比较成功的训练结果,记录预测数据,与预期较为吻合
- 剩下的时间就应该是在画图了吧
Day 3
- 上午将之前的思路重写了一遍,方便写论文的队友写论文
- 接近中午的时候开始第三个问题,先是直接使用Gaussian聚类,发现作出的图效果并不好,继续进入折磨阶段
- 下午终于想到通过主成分分析法将数据降维(7->3),然后可以通过可视化说明聚类效果。最终选择的聚类方法为K-means聚类方法
- 成功聚出三类,但在找这三类所对应的原数据时卡了一段时间,好在经过接近两个小时的折磨之后找到了方法,给原数据打上了分类标记!
- 之后给每一类画出了(1,2,3,4,5,6,X)的分布的图,发现差异明显,可以认为聚类很成功!成功按难度分类!
- 然后分析每一类内部的不同影响因素的单词占比,最后可以发现字母重复次数这个因素在不同的分类内差异十分明显,并且与预期高度一致!
- 晚上应该是重写思路,并且完善之前的图表,然后做了模型的灵敏度分析
Day 4
- 最后一天,论文还差很多,已经基本确定需要通宵
- 我去画了总的流程图,之后一起写论文,写信
- 下午我又重新登入了比赛的网站,发现C题之后有修改:允许使用题目之外的数据库(这意味着可以分析词频对结果的影响,而这种影响一定是显著的)、修改了一些错误数据(这些错误数据之前我们直接清理掉了),但是比赛过程中我们没有收到任何有关于题目更改的信息(比如邮件),组委会只在发题的网站上最后加了一段话(详见附),并且可以确定的是在我们下载题面的时候是没有这段话的。悲伤与愤怒之下,给组委会写了一封很长的邮件。可是时间已经不足以我们去修改,只有完善论文了。
Day 5
- 凌晨,将论文写到了23页,重新过了一遍,修改了一大堆的语法错误以及逻辑错误。
- 七点半左右,选择提交,看到邮件发送成功之后,如释重负
学习与成长
刚开始甚至matlab导入数据都费劲,但经过这四天的洗礼,已经学会了正态检验、方差齐性检验、方差分析、稳定性检验、自相关性检验、BP神经网络、遗传算法、Gaussian拟合、主成分分析、K-means聚类等等数据分析方法与模型,实力有了一个质的突破。
比赛的四天里,我们三个人都做到了全力以赴,每天都在面对一个又一个的问题,这几天除了必要的通讯几乎没有使用过手机,我们做到了极致的专注,我们每个人的坚持都给我留下了极深的印象。
至于结果如何,已经不那么重要了,我们来了,我们成长了,便是极好的。
感受
几个人为一个问题持续专注与努力的样子真的很美,突然对科研又重燃向往了。
附
原题内对数据集的限制
可以看到是全大写的一句话限制了数据集
发布题目的网站上对C题的修改
给美赛组委会写的一封信
组委会回信
总结:全是套话😅