`
文章列表
摘自:http://blog.sina.com.cn/s/blog_4d3a41f40100f4z7.html 今天AC了两题trie tree的题目,感觉trie的性质真的是相当的好,而且实现比较简单。它使在字符串集合中查找某个字符串的操作的复杂度降到最大只需O(n),其中n为字符串的长度。trie是典型的将时间置换为空间的算法,好在ACM中一般对空间的要求很宽松。      trie的原理是利用字符串集合中字符串的公共前缀来降低时间开销以达到提高效率的目的。 它具有以下性质:1,根结点不包含任何字符信息;2,如果字符的种数为n,则每个结点的出度为n(这样必然会导致浪费很多空间,这也是tr ...
摘自:http://www.cnblogs.com/zhangchaoyang/articles/2162393.html
摘自:http://blog.sina.com.cn/s/blog_56d8ea9001018i6y.html 首先什么是中文分词stop word? 英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。 其次中文分词和搜索引擎关系与影响! ...
From:http://blog.163.com/mike_homis/blog/static/201049482011717105015210/ 步骤: 1.打开Excel程序,并新建一空白文档。 2.单击“数据”,获取外部数据中的“自文本”。找到并选中csv文件“源文件.csv”,单击“导入”。 CSV转换成EXCEL格式 3.弹出的窗口如下图所示: CSV转换成EXCEL格式 第一步不需要修改,只要在上图的预览区中能正常显示原本*.csv文件中的文字就可以了,直接单击“下一步”。 4.这一步是选择在csv文档中起到原xls文档单元格分隔作用的分隔符号的,一般情况下就只有图中所列举的几 ...
import java.io.*; import java.util.*; import org.wltea.analyzer.lucene.IKAnalyzer; public class ReadFiles {     /**      * @param args      */        private static ArrayList<String> FileList = new ArrayList<String>(); // the list of file     //get list of file for the directory, inc ...

TF-IDF(转)

From:http://www.cnblogs.com/ywl925/archive/2013/08/26/3275878.html TF-IDF 前言 前段时间,又具体看了自己以前整理的TF-IDF,这里把它发布在博客上,知识就是需要不断的重复的,否则就感觉生疏了。 TF-IDF理解 TF-IDF(term frequency–inverse docume ...
From:http://www.cnblogs.com/linjiqin/archive/2011/04/27/2030115.html 引起java.lang.OutOfMemoryError: Java heap space异常,可能是由JAVA的堆栈设置太小的原因 根据网上的答案大致有以下两种解决方法: 1、在D:/apache-tomcat-6.0.18/bin/catalina.bat最前面加入:set JAVA_OPTS=-Xms384m -Xmx384m 注意:只有startup.bat启动tomcat,设置才能生效,如果利用windows的系统服务启动tomcat服务,上 ...
import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileReader; import java.io.FileWriter; import java.io.IOException; import java.io.InputStreamReader; import java.util.ArrayList; impo ...
From:http://blog.csdn.net/panguoyuan/article/details/29569385
From:http://palydawn.blog.163.com/blog/static/18296905620124171155256/ Keywords: 文本分类 分词 停用词 文本特征 特征向量 布隆过滤器 ICTCLAS 1. 序言      最近一直在做文本分类的实验,查阅了很多文章和资料后,大概清楚了文本分类的整体流 ...
From:http://blog.csdn.net/luowen3405/article/details/6305651 在进行文本分类时,毫无疑问会涉及到对文本数据进行预处理,包括文档切分、文本分词、去停用词(包括标点、数字、单字和其它一些无意义的词)、文本特征提取、词频统计、文本向量化等操作。下面就这几方面作一个概括性的介绍,具体的实现还有待慢慢的研究。 1. 文档切分 文档切分这个操作是可选的,取决于你获取到的文档集合的形式。如果你得到的文档集合本身就是一篇一篇文章分开的,那么这一步就可以省略了。反之,如果文档集合是一个单一的文件,所有的文章都存储在这个文件中,那么你就要将其中的文章提 ...
import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.InputStreamReader; import java.io.OutputStreamWriter; import java.util.HashSet; import java.util.Set ...
import java.io.*; public class CombineTest { public static void main(String[] args){          FileInputStream fis = null;         FileInputStream fs = null;         int n=258;         byte[] b1 = new byte[1];         byte[] b2 = new byte[1];         try {             java.io.File file = new java.i ...
摘自:http://blog.csdn.net/chl033/article/details/4837232 若采用的是英文文本语料库,利用WEKA将英文文本数据转换到ARFF格式中,需要用到以下两个工具:TextDirectoryToArff和TextDirectoryLoader。 TextDirectoryToArff是一个JAVA类(Class),它负责将一 ...
摘自:http://www.cnblogs.com/xiaoka/archive/2012/03/22/2412421.html Weka简介 (http://www.china-pub.com/computers/common/info.asp?id=29304)       WEKA的全名是怀卡托智能分析环境(Walkato Environment for Knowledge Analysis),WEKA的开发者来自新西兰,而新西兰有一种鸟名字叫做weka,便是weka图标上的那只。       WEKA是一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括预处 ...
Global site tag (gtag.js) - Google Analytics