博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Natural Language Processing with Python 1.1
阅读量:6469 次
发布时间:2019-06-23

本文共 1084 字,大约阅读时间需要 3 分钟。

from nltk.book import *

不知道这个过程的是否只是载入9个文本,在我的电脑上需要20秒时间才能完成。

text1.concordance(word, width=79, lines=25)

查找text1中word出现的上下文,每次出现打印一行,word在每行居中,默认每行宽度79个字符,最多打印25行。由于word在每行完全居中,开头和结尾的字符可能不完整。

text1.similar(word, num=20)

text1中与word出现情境相似的单词,默认最多打印20个。第一次调用时建立索引速度较慢,之后查询速度较快。如果word在text1中未出现,则打印“no matches”;若无与word出现情境相似的单词,则返回空。

text1.common_contexts(word, num=20)

word实际上是一个单词列表,查找列表中单词的共同上下文,默认最多打印20个。

text1.dispersion_plot(word)

画出word列表中每个单词在text中出现位置的离散图,每条竖线代表一个单词,每行代表整个文本。

text1.generate(length=100)

按照text的风格生成随机文本,默认为100个单词长。第一次执行时搜集词序列的统计信息运行较慢。每次输出内容都不同。标点符号与前面的单词分离。

len(text3)

text3的长度,以标识符为单位,标识符是我们希望放在一起处理的字符序列,包括单词和标点符号。

sorted(set(text3))

返回text3的有序项目类型,同一单词的不同拼写记为不同类型。

from __future__ import division

len(text3) / len(set(text3))

text3中平均每个词使用的次数。

text3.count(“smote”)

text3中smote出现的次数

100 * text4.count(‘a’) / len(text4)

text4中a占文本的百分比

100 *  text5.count(‘lol’) / len(text5)

text5中lol所占的百分比

def lexical_diversity(text):

    return len(text) / len(set(text))

def percentage(count, total):

    return 100 * count / total

转载于:https://www.cnblogs.com/cbkun/p/3408041.html

你可能感兴趣的文章
Shell编程-环境变量配置文件
查看>>
[Unity3d]DrawCall优化手记
查看>>
Struts2和Spring MVC的区别
查看>>
理解Javascript参数中的arguments对象
查看>>
p2:千行代码入门python
查看>>
bzoj1106[POI2007]立方体大作战tet*
查看>>
spring boot configuration annotation processor not found in classpath问题解决
查看>>
由中序遍历和后序遍历求前序遍历
查看>>
我学习参考的网址
查看>>
[Processing]点到线段的最小距离
查看>>
考研随笔2
查看>>
GitHub使用教程、注册与安装
查看>>
<<The C Programming Language>>讀書筆記
查看>>
线段树分治
查看>>
git代码冲突
查看>>
解析查询 queryString 请求参数的函数
查看>>
学生选课系统数据存文件
查看>>
C++的新类创建:继承与组合
查看>>
git bash 风格调整
查看>>
bzoj4589 Hard Nim
查看>>