数盟说 | 用文本挖掘找出50年以来最流行的音乐

发布时间：2021-03-06 04:15:02 所属栏目：大数据来源：网络整理

导读：【数盟致力于成为最卓越的数据科学社区，聚焦于大数据、分析挖掘、数据可视化领域，业务范围：线下活动、在线课程、猎头服务、项目对接】本文为数盟原创译文，转载请注明出处，并务必保留本文底部二维码。从 1958 年开始每年十二月 Billboard 都会发布一个

利用我先前的职位（Text Mining South Park）中列出的对数似然统计，我能够识别在特定十年内最有特色的歌词。总之，在有较高的对数似然语料库中，单词会比预期出现的频率更高。 25个最有力的结果（总数>81; P <0.001下显著度10.83）。

很明显，个别歌曲是在反复重复从而影响了结果。这反而引起了对数似然在歌词上的适用性方面的一个很好的议题——一首高度重复的歌曲会扭转这个结果吗？

注意事项

广告牌年终热门100首排行榜政策的变化

流行歌曲内容的一般变化至少可以部分归因于随着时间的推移百强排名方法的演变。广告牌通过发现和购买音乐的方法改变其排名政策以保持其时代相关性。

1958年至1991年：由单曲销量和AirPlay的比例确定排名

1991年：广告牌开始收集数字销售数据（使用SoundScan的），以便更快更准确的制作图表

1998年：广告牌要求歌曲必须作为单曲发行才能出现在图表上

2005：包括数字下载（如iTunes）

2012：流媒体点播服务（Spotify，狂想曲）收录

2013：包括视频形式（YouTube）

现在的消费者比以往在单曲榜中更多的发言权。在此之前的2005年，消费者可以通过购买单曲或在电台上点歌来影响图表排名。现在，消费者可以通过观看视频、下载单曲或购买物理拷贝版本来对歌曲的流行度做出影响。

了解更多，请点击“阅读原文”

投稿、合作请发送邮件至contact@dataunion.org

（编辑：威海站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

2022年数据管理市场的	DFT真的比不上其他IC设
2022年制造业七大趋向	大数据变型方案首推数