当前位置:主页 > 中医养生 > 华语大发体育器

 发表日期
2019-09-10

华语大发体育器

来源:原创  编辑:locoy  

华语大发体育器

  四款python中华语大发体育的尝试。尝试的拥有:jieba、SnowNLP(MIT)、pynlpir(父亲数据搜索剜刨试验室(北边京市海量言语信息处理与云计算运用工程技术切磋中心))、thulac(清华父亲学天然言语处理与社会人文计算试验室)

  四款邑拥关于键词干用,本落客条伸见干者比较感志趣、每个模块的情节。jieba在此雕刻不做伸见,却见落客:

  python+gensim︱jieba大发体育、词袋doc2bow、TFIDF文本剜刨

  此雕刻边写图片描绘

  .

  条处理的unicode编码,因此运用时请己行decode成unicode。到来源:https://github.com/isnowfy/snownlp

  以下干用邑是笔者比较感志趣的:

  情义大发体育(当今锻炼数据首要是买进卖东方正西时的评价,因此对其他的壹些能效实不是很好,待处理)

  文规则类(Naive Bayes)

  替换成合并音(Trie树完成的最父亲婚配)

  万端体转信体(Trie树完成的最父亲婚配)

  提文本大发体育(TextRank算法)

  提文本摘要(TextRank算法)

  Tokenization(联系成句子儿子)

  文本相像(BM25)

  参考《文本相像度-bm25算法规律及完成》

  BM25是经度过q和s中的公共词汇终止相像度计算的算法,BM25算法的相干性得分公式却尽结为:

  

  本篇落客己己己写了壹个bm2.5完成的绵软件。

  .

  到来源:https://github.com/thunlp/THULAC-Python

  设置比较普畅通,情节也能不够多样性。不外面拥有:c++ java so,但处理UTF8编码华语文本,之后会逐步添加以顶持其他编码的干用,敬请收听候,也拥有叁个版本的大发体育模具:

  (1)骈杂的大发体育模具Model_1,但顶持大发体育干用。该模具由人民日报大发体育语料库锻炼违反掉落。

  (2)大发体育和词性标注注结合模具Model_2,顶持同时大发体育和词性标注注干用。该模具由人民日报大发体育和词性标注注语料库锻炼违反掉落。

  (3)我们还供更骈杂、完备和正确的大发体育和词性标注注结合模具Model_3和大发体育词表。该模具是由多语料结合锻炼锻炼违反掉落(语料带拥有到来己多文体的标注音义本和人民日报标注音义本等)。鉴于模具较父亲,如无机构或团弄体需寻求,经度过复核后我们会将相干资源发递送给联绕人。

  • 共7页:
  • 上一页
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 下一页
  • 上一篇:北边京企业财政会计师透皓度与迟早   下一篇:没有了