1. 原始数据的来源
我计划从Kaggle的一个数据集中提取最新的评论,这个数据集包含谷歌应用商店中排名前20的热门应用,每个应用有10,000条评论。前20的应用包括:
- Facebook Messenger
- TikTok
- Subway Surfers
- Facebook Lite
- Microsoft Word
- Microsoft PowerPoint
- Snapchat
- SHAREit
- Netflix
- Candy Crush Saga
- Skype
- Spotify
- Dropbox
- Viber
- LINE
我们的目标是从每个应用中筛选出英文、有意义且具有代表性的用户评论,并将这些评论组合成一个大型数据集。为了构建一个包含8,000条且平衡的评论数据集,我们将尽可能多地筛选评论。随后,两位数据标注人员将对这些评论进行标注,并计算标注者之间的一致性(Inter-Annotator Agreement)。
2. 数据集的数据分析
Bug Report | Feature Request | Rating | User Experience | Average length | Median length | Mode length | |
---|---|---|---|---|---|---|---|
Dataset | 2000 | 2000 | 2000 | 2000 | 125.58 | 90.00 | 53.00 |