使用ictclas4j过程中产生的内存不足问题及其解决方法 - 天使爱美丽 - ITeye博客

`

emily2ly

浏览: 165122 次
性别:
来自: 武汉

最近访客更多访客>>

roinheart

superwanggang

huigedanding

smdbs2000

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

CHE墨心：楼主啊，pdftohtml你有测试过吗？
用xpdf和pdfbox来处理中文PDF文档及其比较
xuweiit：不错，测试了可以正常使用，，
用xpdf和pdfbox来处理中文PDF文档及其比较
taotao945：楼主你好，请问分词后怎么过滤停用词呢？急用，谢谢指点！
使用ICTCLAS JAVA版（ictclas4j）进行中文分词（附ictclas,停用词表,commons-lang-2.4.jar下载地址）
uniWind： c#下研究itextsharp了好久，也没有解决中文问题，楼主 ...
用xpdf和pdfbox来处理中文PDF文档及其比较
yegong：楼主，您好，请问，stopwords，这个停用词表怎么用的咧？ ...
使用ICTCLAS JAVA版（ictclas4j）进行中文分词（附ictclas,停用词表,commons-lang-2.4.jar下载地址）

使用ictclas4j过程中产生的内存不足问题及其解决方法

博客分类：

Java编程

阅读更多

在读取中文pdf文档的内容并对用ictclas4j对其进行分词过程中，在读取pdf这一步上面没有问题（即没有报错，可以正确运行，但是会出现一些乱码，这可能是由于pdfbox包的不够完善，可以通过用xpdf来读取进行一定的改善。）

但是到了分词这一步上面有时候会报错：

Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
    at java.util.Arrays.copyOf(Unknown Source)
    at java.lang.AbstractStringBuilder.expandCapacity(Unknown Source)
    at java.lang.AbstractStringBuilder.append(Unknown Source)
    at java.lang.StringBuilder.append(Unknown Source)
    at org.ictclas4j.segment.SegTag.split(SegTag.java:125)
    at emily.function.TextExtraction.classifyWord(TextExtraction.java:43)
    at emily.function.TextExtraction.getExtractText(TextExtraction.java:26)
    at emily.function.BuildXMLDocument.builder(BuildXMLDocument.java:60)
    at emily.function.Main.main(Main.java:16)

解决：

在run->open run dialog->(x)=argument

新设置参数 -Xmx800m

（完）

create@2010-01-28

查看图片附件

分享到：

用xpdf和pdfbox来处理中文PDF文档及其比较 | MyEclipse快捷键与插件大全

2010-08-20 17:42
浏览 1542
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

ictclas4j java版 for lucene: ictclas4j java版 for lucene

ictclas4j for lucene 2.4: ictclas4j for lucene 2.4 任何人不得将此用于商业用途，仅限个人学习研究之用.该开源项目遵循Apache License 2.0

ictclas4j分词工具包: 最好的中分分词工具ictclas 最好的中分分词工具ictclas 最好的中分分词工具ictclas

中文分词包——ictclas4j_0.9.1.jar: 基于Lucene的中文分词包，ictclas4j的最新发布，已经打包成jar包。

ictclas4j: ictclas中科院分词

ictclas4j调整: NULL 博文链接：https://summerbell.iteye.com/blog/1354546

ictclas4j-.rar_FreeICTCLAS_ICTCLAS_ictclas4j_ictclas4j java: ictclas4j java版实现,可供参考

ictclas4j.rar_ictclas4j_ictclas4j data_www.tr4j.com_分词java_分词和标注: 本代码用java实现了分词功能，包括分词和词性标注，里面有具体的说明文档，包括数据结构的设计，分词步骤，分词系统研究等。

ictclas4j中文分词测试: NULL 博文链接：https://lionsadness.iteye.com/blog/689910

ictclas4j 0.9.1 相关字典、源码、开发文档打包: sinboy发表的ictclas4j－0.9.1版（最新）相关的字典、源码和开发文档打包

ictclas4j开源分词系统: java开源分词系统主要功能包括中文分词；词性标注；命名实体识别；...我们先后精心打造五年，内核升级7次，目前已经升级到了ICTCLAS2009 用户词典接口扩展用户可以动态增加、删除用户词典中的词，调节分词的效果

ICTCLAS_api及使用方法: ICTCLAS_api及使用方法，有详细教程

ictclas4j 1.0.0.zip源代码: 分词结果是中/w 国/w 科/w 学/w 院/w 计/w 算/w 技/w 术/w 研/w 究/w 所/w 在/w 多/w 年/w 研/w 究/w 基/w 础/w 上/w ，/w 耗/nx 时/nx 一/nx 年/nx 研/nx 制/nx 出/nx 了/nx ICTCLAS/nx解决：字典没导入成功，/...

ictclas4j.rar_ICTCLAS_ictclas4j_www.tr4j.com_标注: ictclas进行文本词汇标注，可直接运行主函数在postag类

ictclas4j.doc.rar_doc_ictclas4j: ictcasj 中文分词技术有详细的说明

给ictclas4j写的gui demo: 在左边的文本框中输入要分词的中文，单击“分词”按钮，可以在右边生成分词后的文本。... sinboy写的ictclas4j有一个gui函数是空的。为了抛砖引玉，写了一个gui demo，很简单。写给0.9版本的，0.9.1已经有gui了

ICTCLAS分词器与Lucene4.9的结合: 基于ICTCLAS中科院分词器实现Lucene4.9版本的中文分词功能，新增中英文停用词库，直接导入即可使用。

ictclas4j-091-for-lucene-src.zip: 这个包是Bory.Chan对ictclas4j进行修改，适用于lucene分词的工具包

ICTCLAS的Java改造版本: 但在使用过程中发现问题很多。其中最大的问题，就是数据结构不够合适，统统采用arraylist来存储，结果造成了可悲的内存溢出问题。我觉得这是对原来代码的理解不够造成的。于是自己动手，从原来的C++版本，基本上...

Global site tag (gtag.js) - Google Analytics