在读取中文pdf文档的内容并对用ictclas4j对其进行分词过程中,在读取pdf这一步上面没有问题(即没有报错,可以正确运行,但是会出现一些乱码,这可能是由于pdfbox包的不够完善,可以通过用xpdf来读取进行一定的改善。)
但是到了分词这一步上面有时候会报错:
Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
at java.util.Arrays.copyOf(Unknown Source)
at java.lang.AbstractStringBuilder.expandCapacity(Unknown Source)
at java.lang.AbstractStringBuilder.append(Unknown Source)
at java.lang.StringBuilder.append(Unknown Source)
at org.ictclas4j.segment.SegTag.split(SegTag.java:125)
at emily.function.TextExtraction.classifyWord(TextExtraction.java:43)
at emily.function.TextExtraction.getExtractText(TextExtraction.java:26)
at emily.function.BuildXMLDocument.builder(BuildXMLDocument.java:60)
at emily.function.Main.main(Main.java:16)
解决:
在run->open run dialog->(x)=argument
新设置参数
-Xmx800m
(完)
create@2010-01-28
- 大小: 13.2 KB
分享到:
相关推荐
ictclas4j java版 for lucene
ictclas4j for lucene 2.4 任何人不得将此用于商业用途,仅限个人学习研究之用.该开源项目遵循Apache License 2.0
最好的中分分词工具ictclas 最好的中分分词工具ictclas 最好的中分分词工具ictclas
基于Lucene的中文分词包,ictclas4j的最新发布,已经打包成jar包。
ictclas中科院分词
NULL 博文链接:https://summerbell.iteye.com/blog/1354546
ictclas4j java版实现,可供参考
本代码用java实现了分词功能,包括分词和词性标注,里面有具体的说明文档,包括数据结构的设计,分词步骤,分词系统研究等。
NULL 博文链接:https://lionsadness.iteye.com/blog/689910
sinboy发表的ictclas4j-0.9.1版(最新)相关的字典、源码和开发文档打包
java开源分词系统主要功能包括中文分词;词性标注;命名实体识别;...我们先后精心打造五年,内核升级7次,目前已经升级到了ICTCLAS2009 用户词典接口扩展用户可以动态增加、删除用户词典中的词,调节分词的效果
ICTCLAS_api及使用方法,有详细教程
分词结果是中/w 国/w 科/w 学/w 院/w 计/w 算/w 技/w 术/w 研/w 究/w 所/w 在/w 多/w 年/w 研/w 究/w 基/w 础/w 上/w ,/w 耗/nx 时/nx 一/nx 年/nx 研/nx 制/nx 出/nx 了/nx ICTCLAS/nx解决: 字典没导入成功,/...
ictclas进行文本词汇标注,可直接运行 主函数在postag类
ictcasj 中文分词技术 有详细的说明
在左边的文本框中输入要分词的中文,单击“分词”按钮,可以在右边生成分词后的文本。... sinboy写的ictclas4j有一个gui函数是空的。为了抛砖引玉,写了一个gui demo,很简单。 写给0.9版本的,0.9.1已经有gui了
基于ICTCLAS中科院分词器实现Lucene4.9版本的中文分词功能,新增中英文停用词库,直接导入即可使用。
这个包是Bory.Chan对ictclas4j进行修改,适用于lucene分词的工具包
但在使用过程中发现问题很多。其中最大的问题,就是数据结构不够合适,统统采用arraylist来存储,结果造成了可悲的内存溢出问题。 我觉得这是对原来代码的理解不够造成的。 于是自己动手,从原来的C++版本,基本上...