Pythonsklearn对文本数据进行特征化提取-编程学习网

文本特征提取

作用：对文本数据进行特征化

（句子、短语、单词、字母）一般选用单词作为特征值

方法一：CountVectorizer

sklearn.feature_extraction.text.CountVectorizer(stop_words=[])

返回词频矩阵(统计每个样本特征词出现的个数)

CountVectorizer.fit_transform(X)

X:文本或者包含文本字符串的可迭代对象

返回值：返回sparse矩阵

CountVectorizer.inverse_transform(X)

X:array数组或者sparse矩阵

返回值：转换之前的数据格式

CountVectorizer.get_feature_names()

返回值：单词列表

代码展示：

from sklearn.feature_extraction.text import CountVectorizer
def count_demo():
    #文本特征抽取
    data=["life is short, i like like python","life is too long,i dislike python"]
    #1、实例化一个转换器类
    transfer=CountVectorizer()
    #2、调用fit_transform()
    result=transfer.fit_transform(data)
    print("result:\n",result.toarray())
    print("特征名字:\n", transfer.get_feature_names())
    return None

方法二：TfidfVectorizer

关键词：在某一个类别的文章中，出现的次数很多，但是在其他类别的文章中出现的次数很少称为关键词

Tf-idf文本特征提取

①TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的概率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

②TF-IDF作用：用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

公式

①词频（term frequency，tf）指的是某一个给定的词语在该文件中出现的频率

②逆向文档频率（inverse document frequency，idf）是一个词语普遍重要性的度量。某一特定词语的idf，可以由总文件数目除以包含该词语之文件数目，再将得到的商取以10为底的对数得到

tfidf = tf * idf

输出的结果可以理解为重要程度

API

sklearn.feature_extraction.text.TfidfVectorizer(stop_words=None,...)

返回词的权重矩阵

TfidfVectorizer.fit_transform(X)

X:文本或者包含文本字符串的可迭代对象

返回值：返回sparse矩阵

TfidfVectorizer.inverse_transform(X)

X:array数组或者sparse矩阵

返回值：转换之前数据格式

TfidfVectorizer.get_feature_names()

返回值：单词列表

中文分词+特征提取

from sklearn.feature_extraction.text import TfidfVectorizer
import jieba
def cut_word(text):
    #中文分词
    #jieba.cut(text)返回的是生成器对象，用list强转成列表
    word=list(jieba.cut(text))
    #转成字符串
    words=" ".join(word)
    return words
def tfidf_demo():
    data = ["今天很残酷，明天更残酷，后天会很美好，但绝大多数人都死在明天晚上，却见不到后天的太阳，所以我们干什么都要坚持",
            "注重自己的名声，努力工作、与人为善、遵守诺言，这样对你们的事业非常有帮助",
            "服务是全世界最贵的产品，所以最佳的服务就是不要服务，最好的服务就是不需要服务"]
    data_new = []
    # 将中文文本进行分词
    for sentence in data:
        data_new.append(cut_word(sentence))
    # 1、实例化一个转换器类
    transfer = TfidfVectorizer()
    # 2、调用fit_transform()
    result = transfer.fit_transform(data_new)  # 得到词频矩阵 是一个sparse矩阵
    print("result:\n", result.toarray())  # 将sparse矩阵转化为二维数组
    print("特征名字:\n", transfer.get_feature_names())
    return None

到此这篇关于Python sklearn对文本数据进行特征化提取的文章就介绍到这了,更多相关Python sklearn文本特征提取内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

文章详情

Pythonsklearn对文本数据进行特征化提取

目录

文本特征提取

中文分词+特征提取

软考中级精品资料免费领

相关文章

猜你喜欢

Pythonsklearn对文本数据进行特征化提取

Python sklearn怎么对文本数据进行特征化提取

如何在表格数据上使用特征提取进行机器学习

mysql数据库批量执行sql文件对数据库进行操作【windows版本】

Python读取CSV文件并进行数据可视化绘图

MySQL对JSON类型字段数据进行提取和查询的实现

Python如何读取CSV文件并进行数据可视化绘图

手把手教你对抓取的文本进行分词、词频统计、词云可视化和情感分析

在 Java 中如何实现两个 txt 文本文档的数据对比并找出不同的字？(java中进行两个txt文本文档的数据对比,找不不相同的字)

Python BOT 从 Excel 工作表中提取长列并创建一个数据框来对另一个文件中的一些数字进行编目

数据库顶会 VLDB 2024 论文解读：字节跳动如何对大规模 Spark 作业进行资源提效

【数据结构与算法】如何对快速排序进行细节优化以及实现非递归版本的快速排序？