1. 原始数据的来源

我计划从Kaggle的一个数据集中提取最新的评论，这个数据集包含谷歌应用商店中排名前20的热门应用，每个应用有10,000条评论。前20的应用包括：

我们的目标是从每个应用中筛选出英文、有意义且具有代表性的用户评论，并将这些评论组合成一个大型数据集。为了构建一个包含8,000条且平衡的评论数据集，我们将尽可能多地筛选评论。随后，两位数据标注人员将对这些评论进行标注，并计算标注者之间的一致性（Inter-Annotator Agreement）。

2. 数据集的数据分析

	Bug Report	Feature Request	Rating	User Experience	Average length	Median length	Mode length
Dataset	2000	2000	2000	2000	125.58	90.00	53.00