scattertext

Scattertext 项目介绍

项目概述

Scattertext 是一个用于语料库差异可视化的工具。它能够帮助用户发现文本数据中的不同词汇，并以交互式 HTML 散点图的形式展示这些词语。这种图表特别适合用来对文本数据的分类特性进行深入分析和直观展示。

核心功能

Scattertext 的主要功能是通过词汇的分布和使用频率来在不同的文本集合中识别和可视化其独特词汇，例如可以对比分析政治演讲中的用词差异。它能够生成一个 HTML 文件，其中每个点代表不同的词语或短语，这些点根据在不同类别（如政治党派）的使用频率被标记，并以密集排名为横纵坐标。

使用示例

例如，Scattertext 可以用于分析 2012 年美国政治大会中的演讲内容，将最具代表性的 2000 个词通过散点图形式展现出来。x 轴和 y 轴分别是共和党和民主党演讲者使用这些词的排名。

import scattertext as st

df = st.SampleCorpora.ConventionData2012.get_data().assign(
    parse=lambda df: df.text.apply(st.whitespace_nlp_with_sentences)
)

corpus = st.CorpusFromParsedDocuments(
    df, category_col='party', parsed_col='parse'
).build().get_unigram_corpus().compact(st.AssociationCompactor(2000))

html = st.produce_scattertext_explorer(
    corpus,
    category='democrat',
    category_name='Democratic',
    not_category_name='Republican',
    minimum_term_frequency=0, 
    pmi_threshold_coefficient=0,
    width_in_pixels=1000, 
    metadata=corpus.get_df()['speaker'],
    transform=st.Scalers.dense_rank,
    include_gradient=True,
    left_gradient_term='More Republican',
    middle_gradient_term='Metric: Dense Rank Difference',
    right_gradient_term='More Democratic',
)
open('./demo_compact.html', 'w').write(html)