一、Ngram简介

Ngram是一种基于文本的统计语言模型，用于给定文本中的单词序列分配概率。它是一种基于前n-1个单元的条件概率。Ngram的应用范围非常广泛，如自然语言处理、信息检索、机器翻译、音频信号识别等领域。以2-gram为例，假设有一个字符串"hello world"，将其转换为2-gram的序列，即将每两个相邻的单元组合为一个新的单元：["he", "el", "ll", "lo", "o ", " w", "wo", "or", "rl", "ld"]。2-gram是最常用的模型之一，通常称为Bigram模型。

二、Ngram的应用

1、自然语言处理领域

import nltk
from nltk.util import ngrams
# 构造n-gram
text = "Hello, welcome to NLP World!"
tokens = nltk.word_tokenize(text)
bigrams = list(ngrams(tokens, 2))
trigrams = list(ngrams(tokens, 3))
print(bigrams)
print(trigrams)

2、信息检索领域

from collections import defaultdict
# 构建频率字典
freq_dict = defaultdict(int)
for item in bigrams:
    freq_dict[item] += 1
# 求出指定序列出现的概率
seq = ("welcome", "to")
prod = 1
for token in seq:
    prod *= freq_dict[token]/len(bigrams)
print(prod)

3、机器翻译领域

import pandas as pd
import numpy as np
# 计算翻译概率
source = ["hello", "world"]
target = ["你好", "世界"]
source_bigrams = list(ngrams(source, 2))
target_bigrams = list(ngrams(target, 2))
df = pd.DataFrame(columns=target, index=source, data=np.zeros((2, 2)))
for sb in source_bigrams:
    for tb in target_bigrams:
        if sb[0] == tb[0]:
            df.loc[sb[0], tb[0]] += 1
        if sb[1] == tb[1]:
            df.loc[sb[1], tb[1]] += 1
df = df / df.sum().sum()
print(df)

三、Ngram的优化

为了提高Ngram的效率和准确率，可以采用以下优化方法： 1、平滑技术：在统计过程中假设每个n-gram的出现概率至少为某个小值，从而避免出现零概率问题。 2、截断技术：在统计过程中只考虑频率较高的n-gram，忽略出现次数较少的n-gram，减少Ngram模型的存储空间和计算量。 3、折叠技术：为了避免对大量相似样本计算Ngram，可以选择先对这样的样本进行相似度计算，再对相似度较高的样本计算Ngram。

四、Ngram的局限性

Ngram模型存在一些局限性： 1、未考虑单词之间的相关性，Ngram模型只考虑了相邻单元的概率，忽略了当前单元与其他单元的关系。 2、数据稀疏问题，由于Ngram需要统计每个单元出现的频率，对于出现次数较少的单元，Ngram的效果会受到一定的影响。 3、模型复杂度问题，由于Ngram模型需要维护所有可能的n-gram序列，模型存储和计算需求较高，因此需要采用优化方法来提高效率和准确率。

五、总结

Ngram技术是一种基于文本统计的语言模型，应用非常广泛。通过了解Ngram的基本原理和应用场景，我们可以更好地理解NLP等领域中的相关技术，同时，了解Ngram模型的局限性，能够帮助我们在使用Ngram模型时更加谨慎。

Ngram技术详解

一、Ngram简介

二、Ngram的应用

三、Ngram的优化

四、Ngram的局限性

五、总结