业界动态
NLP 入门整理(不定期更新)
2024-11-04 11:30

网上的《中文自然语言处理入门实战》为基础。作为一个小白,看不懂术语,更看不懂论文。

NLP 入门整理(不定期更新)

怎么给自己科普下入门知识。

二 中文自然语言处理的完整机器处理流程

这篇值得学习,看完了起码知道整个处理流程的全貌

.语料清洗

(如果原始数据是HTML,获取文本内容也是清洗一部分

分词:这个好理解,词语是是处理流程的最小粒度。是基础。

   ansj,hanlp,jieba 

词性标注:就是给每个词或者词语打词类标签。

ansj,hanlp,jieba 

去掉停用词:停用词一般指对文本特征没有任何贡献作用的字词

可以自己根据词性过滤。

特征工程

做完语料预处理之后,接下来需要考虑如何把分词之后的字和词语表示成计算机能够计算的类型。显然,如果要计算我们至少需要把中文分词的字符串转换成数字,确切的说应该是数学中的向量。有两种常用的表示模型分别是词袋模型和词向量。

词袋模型(Bag of Word, BOW),即不考虑词语原本在句子中的顺序,直接将每一个词语或者符号统一放置在一个集合(如 list,然后按照计数的方式对出现的次数进行统计。统计词频这只是最基本的方式,TF-IDF 是词袋模型的一个经典用法。

TF-IDF  是ES采用的方式。  

词向量是将字、词语转换成向量矩阵的计算模型。目前为止最常用的词表示方法是 One-hot,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个维度就代表了当前的词。还有 Google 团队的 Word2Vec,其主要包含两个模型:跳字模型(Skip-Gram)和连续词袋模型(Continuous Bag of Words,简称 CBOW,以及两种高效训练的方法:负采样(Negative Sampling)和层序 Softmax(Hierarchical Softmax)。值得一提的是,Word2Vec 词向量可以较好地表达不同词之间的相似和类比关系。除此之外,还有一些词向量的表示方式,如 Doc2Vec、WordRank 和 FastText 等。

**************补充词向量***********

从B站“深度之眼”找了个 One-hot截图

缺点:无法表示词和词之间的关系,就上面的例子无法体现出“话筒”“麦克”的相似度。

首先我们在一个语料库中累积计算单词同时出现的次数,形成某种形式的矩阵X。

词-文档矩阵(Word-document Matrix

假设相似度较高的单词非常有可能出现在同一个文档中,遍历数以百万的文档,当第i个单词出现在第j个文档中时,我们给Xij增加1。当然,这会形成一个巨大的矩阵。

基于窗口的共生矩阵(Window based Co-occurrence Matrix

基于窗口的共生矩阵就是在词-文档矩阵的基础上,设定一个我们感兴趣的单词数量作为窗口大小,使矩阵不至于太大。

例如,假设我们的语料库只有三个句子,如下

  1. I enjoy flying.
  2. I like NLP.
  3. I like deep learning.

一个词只跟与它在特定窗口内的词有关,两个词共同出现一次就加一

这里窗口的大小是1.举例来说,I跟enjoy,like有关,enjoy跟I,flying有关,而I跟flying无关。

通过共线的方法,可以体现一定相似的关系,但是维度很多,因此需要降维,使用SVD分解,SVD(Singular Value Decomposition)奇异值分解分解是机器学习中最重要的矩阵分解方法。

它能够将一个任意形状的矩阵分解成一个正交矩阵和一个对角矩阵以及另一个正交矩阵的乘积。(图没看懂,因为正交矩阵概念都忘了

SVD分解通常用于数据压缩和数据降维,推荐系统 也有使用。这里作为背景了解。

SVD分解优点可以在一定程度上得到词与词之间的相似度

SVD分解缺点:但是矩阵太大,SVD分解效率低,学习得到的词向量可解释性差。

这里我的理解就是一个取舍,因为存在的问题是高维跟稀疏,所以出于降维的目的晒去了部分高频的数据来降低计算量,那么怎么筛选与结果的可解释性就有疑问。

上面的可以归纳为基于“统计方法”的词向量分类。

分布式表示/稠密表示

从发展过程来看

分布式表示之后,是神经网络语言模型(NNLM,就是图上Bengio等人提出的。

  1. 把字典里的每一个单词对应一个词特征向量
  2. 把单词序列表示成联合概率函数
  3. 自动学习词特征向量和概率函数的参数

再看Word2vec的之前,先要理解一些背景概念

//todo,语言模型2020-11-9

****************

3 中文分词

hanlp,jieba 

4. 文本关键词提取

 hanlp,ansj 都支持提取关键词,还有生成摘要summary

5 数据可视化

词云,百度echarts, 

6 面向非结构化数据转换的词袋和词向量模型

词袋

Word2Vec:可以用来做相似度判断。待专门学习TODO。

    以上就是本篇文章【NLP 入门整理(不定期更新)】的全部内容了,欢迎阅览 ! 文章地址:http://dgaty.xhstdz.com/news/340.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 物流园资讯移动站 http://dgsw198.xhstdz.com/ , 查看更多   
最新新闻
开封荣登清明节“黑马旅游目的地” 市井文化、烟火气让游客“狠狠”共情
原标题:开封荣登清明节“黑马旅游目的地” 市井文化、烟火气让游客“狠狠”共情来源:大河报“王婆”的饰演者赵梅图片来源:万
10类搜索神器资源,让你没有找不到的资源
今天又来给大家送福利了,给大家按类别推荐10类实用的资源搜索神器,它们的强大搜索功能,帮你找到你想要的资源易搜:综合网盘搜
北向资金流入说明什么华能水电股票600025与长江电力600900相比怎样样?
正在以后的经济环境下,财经常识的首要性一直晋升。投资者们需求理解微观经济情势、行业静态、公司财政等方面的信息,以更好地掌
2024年春节作文500字范文
人依旧,物依然,又是一年;想也好,忘也罢,本是平凡;今儿好,明更好,衷心祝愿;情也真,意也切,常驻心间。祝您春节愉快!下面是
“2023十大新词语”出炉,甘孜这样用新词造句!
作为年度“汉语盘点”活动重要组成部分12月16日国家语言资源监测与研究中心发布2023年度“十大新词语”一起来看2023年度“十大新
从新手小白到抖音达人,这款抖音黑科技主站(支点科技app)助你一飞冲天!
大家好,我是支点,专注创业分享网络创业干货,打造自己的自动成交系统,2024和你一起向钱看向厚赚。/:zhidian998zhidian899 不
刘伟强新作《武林怪兽》为贺岁档电影贡献金句
  “你到底是喜欢我还是因为我值这个价钱” 贺岁档电影贡献金句  本报综合消息  快到年底了,很多媒体开始总结今年的流行
四川省建筑医院
医院成立于50年代初,是以中国人民解放军建筑四师医院为基础,吸纳兵工八局四处医院组成。1953年的名称为建工部西南建筑工程管理
两座“设计之都”交流互鉴,WDCC2024在意大利米兰续写精彩
转自:上观新闻米兰的秋日,一股源自黄浦江畔的“设计之风”吹拂而过,一幅关于时尚潮流与东方美学的绚丽图景徐徐展开。这是“上
夜思 | 《我的阿勒泰》大结局:人这一生,最该看透这5个真相
转自:中国青年报小年说:《我的阿勒泰》虽然已经完结,但由此引发的讨论还在继续。有网友称其为“治愈人心的天花板”。从环境到
本企业新闻