开云手机站入口-开云(中国)




  • 咨询(xún)热线:021-80392549

    开云手机站入口-开云(中国) QQ在线 开云手机站入口-开云(中国) 企业微信
    开云手机站入口-开云(中国)
    开云手机站入口-开云(中国) 资讯 > AI挖掘技(jì)术 > 正文(wén)

    自然(rán)语言处理(NLP)的一般处理流(liú)程!

    2020/05/253641

    自然语言(yán)处理(NLP)的(de)一般处理流程(chéng)!

    自然语(yǔ)言处(chù)理(NLP)的一(yī)般处理流程!


    1. 什么是NLP

    自然(rán)语言处理 (Natural Language Processing) 是人工智能(AI)的一个子领域。自然语言(yán)处理是研究在人与(yǔ)人交互中以及在(zài)人(rén)与计算机交(jiāo)互中(zhōng)的语言问题(tí)的(de)一门学(xué)科(kē)。为了建(jiàn)设和(hé)完善语言(yán)模(mó)型,自然(rán)语言处理建立计算(suàn)框(kuàng)架(jià),提出相应的方(fāng)法来不断的完善设计各种实用系统,并探讨这些实用系统的评测方法。

    2. NLP主要研究方向

    信息抽取:从(cóng)给定(dìng)文本中抽取重(chóng)要的信息,比(bǐ)如时间、地(dì)点(diǎn)、人物、事件(jiàn)、原因、结(jié)果、数字、日期、货(huò)币、专有(yǒu)名词等等(děng)。通俗说来,就是要了解谁在什么时候(hòu)、什(shí)么原因、对谁、做了什么事、有什么结果。

    文(wén)本生成:机器像人一样使用自然语言进行(háng)表达和写作。依(yī)据输入的(de)不(bú)同,文本(běn)生(shēng)成技术(shù)主要包括数(shù)据到文本(běn)生成和文本到文本生成。数据到文本(běn)生成是指将包(bāo)含键值对的数据转化(huà)为自然语言文本;文本(běn)到文(wén)本(běn)生成对输入文本进行转(zhuǎn)化(huà)和处理从而产生新的文本。

    问答系统:对一个自(zì)然语言(yán)表达的问题,由问(wèn)答系(xì)统给出(chū)一(yī)个精准(zhǔn)的答案。需要对自然(rán)语言查(chá)询语句进行某种(zhǒng)程度的语义分析,包括实体(tǐ)链接(jiē)、关系识别,形(xíng)成逻辑表达式(shì),然后到(dào)知识库中查找可能(néng)的候选答(dá)案并通过一个排序机制找(zhǎo)出最(zuì)佳的答案。

    对话系统:系统通过一(yī)系列的对话,跟用户(hù)进行聊天、回答、完成(chéng)某一项任务(wù)。涉及(jí)到(dào)用户意图理解、通(tōng)用聊天引擎、问答引擎(qíng)、对话管理等技术。此外,为了体(tǐ)现上(shàng)下文相(xiàng)关,要具(jù)备多轮对话能力。

    文本挖(wā)掘:包括文本聚类、分类、情感分析(xī)以及(jí)对挖(wā)掘的信息和知识的可视化、交互式的表达(dá)界(jiè)面。目前主流的技术都(dōu)是(shì)基于统计机器学习的。

    语音(yīn)识别和生成(chéng):语音(yīn)识(shí)别是将输入计算机的语(yǔ)音符号识别(bié)转换成书面语表示(shì)。语(yǔ)音生成又称文语转换、语音合成,它是指将(jiāng)书(shū)面文本(běn)自动转换成(chéng)对应的语音表征。

    信息过滤:通过(guò)计算机系统自动识别和过滤符合特定条件的文档(dàng)信息(xī)。通常指网络有害信息的自动识别和过滤,主要用于信息安全和防护,网络内(nèi)容管(guǎn)理等。

    舆情分析:是(shì)指收集(jí)和(hé)处理海量信息,自动(dòng)化(huà)地(dì)对网络舆情进行分析,以实现及时应对网(wǎng)络舆情的目的。

    信息检索:对大规模的文档进行索引。可简单对(duì)文档中的(de)词汇,赋之(zhī)以不同的权重来建立索引,也可(kě)建立(lì)更加深层的(de)索引。在查(chá)询的时候,对输入的查询表达(dá)式比如(rú)一(yī)个检索词或者一个句子(zǐ)进行(háng)分析(xī),然后在索引里面查(chá)找匹(pǐ)配的候选(xuǎn)文档,再根据一个排(pái)序机制把候选文档排序(xù),最后输出排序得(dé)分最高(gāo)的文档。

    机器翻译:把输入的源语言文本通过自(zì)动翻译获得另外(wài)一种语言的文本。机器翻译从最早的基于规则的方法到(dào)二(èr)十年前的基于统(tǒng)计的方法,再(zài)到今天的基于神经网络(编码(mǎ)-解码)的方法,逐(zhú)渐形成了一套比较严谨的方法体系。

    3. NLP的发展

    1950年前:图灵测(cè)试 1950年前阿兰·图灵图灵(líng)测试:人和机器进行交流,如(rú)果(guǒ)人无法判断自(zì)己交流的对象是(shì)人还是机器,就说明(míng)这(zhè)个机器具有智能。

    1950-1970:主流:基于规则(zé)形式语言理论

    乔姆斯基,根据数学中的(de)公理化方法(fǎ)研究(jiū)自(zì)然语言,采用代数和集合论把形(xíng)式语言定(dìng)义为符号(hào)的序列。他试图(tú)使用有限(xiàn)的规则描述无限的语(yǔ)言现(xiàn)象,发(fā)现人类普遍的语言机制,建立所谓的普(pǔ)遍(biàn)语法。

    1970-至今(jīn):主流:基于统计 谷歌、微软、IBM,20世纪70年代,弗里德里克·贾里尼克及其领导的IBM华(huá)生(shēng)实验室将语音识别率从70%提升到(dào)90%。 1988年,IBM的彼得·布朗(lǎng)提出了基于统计的机器翻译方法。 2005年,Google机(jī)器翻译打败基于规则的Sys Tran。

    2010年以后:逆袭:机器(qì)学(xué)习

    AlphaGo先后战胜李世(shì)石(shí)、柯洁等(děng),掀起人工智能热潮。深度学习、人工神经网络成为热词。领域(yù):语音识别、图像识别、机(jī)器翻译、自动驾驶、智(zhì)能(néng)家居。

    4. NLP任务的(de)一般步骤

    下面图片看不清楚的,可以(yǐ)百度脑(nǎo)图查看,点击链接


    5. NLP、CV,选哪个?

    NLP:自然语言处理,数据是文(wén)本。

    CV:计算机视(shì)觉(jiào),数据是图像。

    两者属于不同(tóng)的领域(yù),在(zài)遇到这(zhè)个问题(tí)的时候,我也是犹豫了很久,想了很多,于是乎得出一个结论:都是(shì)利用深度学习(xí)去(qù)解决(jué)现实世界存在的(de)问题,离开了CV,NLP存活(huó)不了;离开了NLP,CV存活不了(le)。两(liǎng)者就像兄(xiōng)弟姐妹一样,整个“家庭”不能分割但个体又存在差异!

    NLP/CV属于两(liǎng)个(gè)不(bú)同的研(yán)究领域,都(dōu)是很好的领域,可以根(gēn)据自己的爱好(hǎo)作出(chū)适合自己的选择,人工智能是一(yī)个多学科交叉(chā)的领(lǐng)域(yù),需要(yào)的不仅仅是单方面的能力(lì),而是(shì)多方面的(de)能力。对于每个人来(lái)说都有自己的侧重点,选择自己擅长(zhǎng)的领域里持(chí)续深耕,就会有所成就!

    关键词: AI挖掘(jué)技(jì)术




    AI人工智能网声明:

    凡资讯来源注(zhù)明为其他媒体来源的信息,均为转(zhuǎn)载自其他媒体,并不(bú)代表(biǎo)本网站(zhàn)赞同其观点,也不代表本网(wǎng)站对其真实(shí)性负(fù)责。您若对该文章内容(róng)有(yǒu)任(rèn)何疑问或质疑,请立即与网站(zhàn)(www.haozhou.rizhao.bynr.xinxiang.zz.pingliang.ww38.viennacitytours.com)联系,本(běn)网站将(jiāng)迅速给您回应并做处理。


    联系(xì)电话:021-31666777   新闻、技术(shù)文章投稿(gǎo)QQ:3267146135   投(tóu)稿邮箱:syy@gongboshi.com

    工博士人工智能网
    开云手机站入口-开云(中国)
    扫描(miáo)二维码关注(zhù)微信
    扫码反馈

    扫一扫,反馈当前页面

    咨(zī)询反馈
    扫码(mǎ)关注

    微信公众(zhòng)号

    返回顶(dǐng)部

    开云手机站入口-开云(中国)

    开云手机站入口-开云(中国)