NLP – 伯乐青狼

清洗了10万条电商评论后，我把模型准确率从78%干到了92%，代价是掉了三根头发

2026年4月24日 40 次浏览

上个月帮一个电商平台做评论分类，BERT一开始只有78%的准确率。我花了两周死磕10万条脏数据，发现坑太多了：从“66666”这种无意义重复，到标错的标签，再到随机划分数据集造成的时间泄露。一路填坑下来，模型准确率干到了92%。这篇文章就是我踩遍这些坑后的实战记录，有具体的代码和真实的处理逻辑。