一、Ngram简介
Ngram是一种基于文本的统计语言模型,用于给定文本中的单词序列分配概率。它是一种基于前n-1个单元的条件概率。Ngram的应用范围非常广泛,如自然语言处理、信息检索、机器翻译、音频信号识别等领域。
以2-gram为例,假设有一个字符串"hello world",将其转换为2-gram的序列,即将每两个相邻的单元组合为一个新的单元:["he", "el", "ll", "lo", "o ", " w", "wo", "or", "rl", "ld"]
。2-gram是最常用的模型之一,通常称为Bigram模型。
二、Ngram的应用
1、自然语言处理领域
import nltk
from nltk.util import ngrams
# 构造n-gram
text = "Hello, welcome to NLP World!"
tokens = nltk.word_tokenize(text)
bigrams = list(ngrams(tokens, 2))
trigrams = list(ngrams(tokens, 3))
print(bigrams)
print(trigrams)
2、信息检索领域
from collections import defaultdict
# 构建频率字典
freq_dict = defaultdict(int)
for item in bigrams:
freq_dict[item] += 1
# 求出指定序列出现的概率
seq = ("welcome", "to")
prod = 1
for token in seq:
prod *= freq_dict[token]/len(bigrams)
print(prod)
3、机器翻译领域
import pandas as pd
import numpy as np
# 计算翻译概率
source = ["hello", "world"]
target = ["你好", "世界"]
source_bigrams = list(ngrams(source, 2))
target_bigrams = list(ngrams(target, 2))
df = pd.DataFrame(columns=target, index=source, data=np.zeros((2, 2)))
for sb in source_bigrams:
for tb in target_bigrams:
if sb[0] == tb[0]:
df.loc[sb[0], tb[0]] += 1
if sb[1] == tb[1]:
df.loc[sb[1], tb[1]] += 1
df = df / df.sum().sum()
print(df)
三、Ngram的优化
为了提高Ngram的效率和准确率,可以采用以下优化方法: 1、平滑技术:在统计过程中假设每个n-gram的出现概率至少为某个小值,从而避免出现零概率问题。 2、截断技术:在统计过程中只考虑频率较高的n-gram,忽略出现次数较少的n-gram,减少Ngram模型的存储空间和计算量。 3、折叠技术:为了避免对大量相似样本计算Ngram,可以选择先对这样的样本进行相似度计算,再对相似度较高的样本计算Ngram。
四、Ngram的局限性
Ngram模型存在一些局限性: 1、未考虑单词之间的相关性,Ngram模型只考虑了相邻单元的概率,忽略了当前单元与其他单元的关系。 2、数据稀疏问题,由于Ngram需要统计每个单元出现的频率,对于出现次数较少的单元,Ngram的效果会受到一定的影响。 3、模型复杂度问题,由于Ngram模型需要维护所有可能的n-gram序列,模型存储和计算需求较高,因此需要采用优化方法来提高效率和准确率。
五、总结
Ngram技术是一种基于文本统计的语言模型,应用非常广泛。通过了解Ngram的基本原理和应用场景,我们可以更好地理解NLP等领域中的相关技术,同时,了解Ngram模型的局限性,能够帮助我们在使用Ngram模型时更加谨慎。