清洗了10万条电商评论后,我把模型准确率从78%干到了92%,代价是掉了三根头发
上个月帮一个电商平台做评论分类,BERT一开始只有78%的准确率。我花了两周死磕10万条脏数据,发现坑太多了:从“66666”这种无意义重复,到标错的标签,再到随机划分数据集造成的时间泄露。一路填坑下来,模型准确率干到了92%。这篇文章就是我踩遍这些坑后的实战记录,有具体的代码和真实的处理逻辑。
上个月帮一个电商平台做评论分类,BERT一开始只有78%的准确率。我花了两周死磕10万条脏数据,发现坑太多了:从“66666”这种无意义重复,到标错的标签,再到随机划分数据集造成的时间泄露。一路填坑下来,模型准确率干到了92%。这篇文章就是我踩遍这些坑后的实战记录,有具体的代码和真实的处理逻辑。