老师让把每一次写东西遇到的问题都记录下来,个人觉得很有用,就以此为第一篇博文吧⁄(⁄ ⁄•⁄ω⁄•⁄ ⁄)⁄
在写K-Means聚类时,对文本分词处理遇到去标点的问题,之前一直使用的是
.translate(None, string.punctuation)
方法,(⊙v⊙)嗯,我就是学得太粗糙,不管中英文(捂脸)。在百度之后,发现
string = re.sub("[\s+\.\!\/_,$%^*(+\"\')]+|[+——()?【】“”!,。?、~@#¥%……&*()]+', "",line)
方法并不管用,最后参考
[(http://www.cnblogs.com/arkenstone/p/6092255.html)]找到了解决办法
from zhon.hanzi import punctuation
line='!今天写了个爬虫。、?'
print re.sub(ur"[%s]+" %punctuation, "", line.decode("utf-8"))
运行结果为
今天写了个爬虫
等我写好了K-Means,一定要好好上传~