不同歌手趋势变化大，需要注意哪些问题？

人参与 | 时间：2025-01-22 21:37:49

1、不同变化赛题数据：袁记短视频热门业务教程网

已知x个歌曲演员在阿里音乐上的歌手用户记录数据（2015年03月01日-2015年08月30日）

预测这x个演员在以后的2个月（2015年09月01日-2015年10月30日），共60天内每日的趋势快手自助下单平台小老弟浏览量。

选手递交表：一行记录某个演员某天的大需浏览量

2、赛制介绍

赛事共分为海选，注意决赛2个环节，问题各给1个月时间，不同变化每日定点递交一次结果，歌手线上评分。趋势

每位环节的大需最后7天时间会切换数据，重新评分排行，注意借此分数作为该环节的问题最后得分。

赛后思路整理

1从图入手：

查看规律与趋势

2提出问题：

为何会出现非常高的不同变化浏览量？

是否有一定的节假日工作日规律？

不同歌手建模还是单独歌手建模或则歌曲建模？

不同歌手趋势是否相同？

3解决问题

为何会出现非常高的浏览量？--发觉两种情况：1有人刷单2有新曲发布

是否有一定的节假日工作日规律？--去除特殊情况，大致有周期性节假日特点，歌手周末日浏览量会比工作日低

不同歌手建模还是趋势单独歌手建模或则歌曲建模？--不同对象的建模须要实际结果来指导

不同歌手趋势是否相同？--不同歌手趋势变化大，须要分开不同趋势预测

4预测过程

1、利用ODPSSQL进行了数据清洗、预处理-删掉掉了觉得是异常的刷单等噪音数据（这个特别有效）

2、刻画数据的节假日与周期性特征—使用了stl分解预测

3、刻画数据的近来的浏览趋势—使用一阶指数平滑预测(训练数据一定得选好)-歌曲建模最好

4、使用组合模型

5、针对预测偏差进行模型参数修正-训练集的修正

6、针对预测偏差的个体进行剖析总结出模型的缺陷(对近来有新曲的歌手预测不准)-测试集选的34有一定的指导意义，和线上不完全一致

7、针对模型的缺陷选择合适的模型去解决该问题(拟合近来有新曲的歌手的浏览量增长到稳定的趋势)

8、针对模型的缺陷-对于近来有新曲浏览的歌手，借助去噪音平滑，融合平滑后数据的调和平均数。

二、分析思路

1、分析评分指标

递交结果的最终评分是根据F值估算的，从估算公式来看F是由每位演员的评分相乘得到的，每位演员的快手自助下单平台小老弟得分是由归一化残差（sigma）和（phi）相加得到的。

其中（phi）是当前演员的每日实际浏览量相乘开根号得到的，每位演员的参数（phi）有且只有一个固定值，它的大小取决于每位演员的60天浏览量总和值，当某个演员的总浏览量较大时，（phi）就大，F也就变大了，由此可知：60天总浏览量越大的演员，预测越准，评分会越高，这是个快速提分的方式。

从公式来看参数（sigma）是由某演员递交的每日浏览量与实际浏览量的差值减去实际浏览量，对该值平方后取60天的平均值，开根号得到的。这个参数反应了递交结果S与实际浏览量T之间的差别。差越小，预测越精准，（1-（sigma））（sigma）越大，F就大。而当差过大超过了实际浏览量T，此时（sigma）>1，（1-（sigma））为正数，此时对该演员评分为负，综合累加的F值会更小。由此可知，若预测中存在某个演员结果极端不准的情况，会使评分F升高得更多，因而也要保证所有演员的平均预测确切性。即尽量保持平稳的值，突发值很容易使结果变差。

2、初探规律

依照题目要求，可以确定这是一个回归预测类题目，已知前6个月歌曲演员及其用户记录，预测后两个月每日的演员浏览量值。