NLP

Google Play App 用户评论多分类项目

数据集(2)

Posted by 月月鸟 on July 3, 2023

1. 原始数据的来源

我计划从Kaggle的一个数据集中提取最新的评论,这个数据集包含谷歌应用商店中排名前20的热门应用,每个应用有10,000条评论。前20的应用包括:

  1. Facebook
  2. WhatsApp
  3. Facebook Messenger
  4. Instagram
  5. TikTok
  6. Subway Surfers
  7. Facebook Lite
  8. Microsoft Word
  9. Microsoft PowerPoint
  10. Snapchat
  11. SHAREit
  12. Netflix
  13. Twitter
  14. Flipboard
  15. Candy Crush Saga
  16. Skype
  17. Spotify
  18. Dropbox
  19. Viber
  20. LINE

我们的目标是从每个应用中筛选出英文、有意义且具有代表性的用户评论,并将这些评论组合成一个大型数据集。为了构建一个包含8,000条且平衡的评论数据集,我们将尽可能多地筛选评论。随后,两位数据标注人员将对这些评论进行标注,并计算标注者之间的一致性(Inter-Annotator Agreement)。

2. 数据集的数据分析

  Bug Report Feature Request Rating User Experience Average length Median length Mode length
Dataset 2000 2000 2000 2000 125.58 90.00 53.00