trie tree 字典树

博客分类：

文本分类

摘自：http://blog.sina.com.cn/s/blog_4d3a41f40100f4z7.html 今天AC了两题trie tree的题目,感觉trie的性质真的是相当的好，而且实现比较简单。它使在字符串集合中查找某个字符串的操作的复杂度降到最大只需O(n),其中n为字符串的长度。trie是典型的将时间置换为空间的算法，好在ACM中一般对空间的要求很宽松。 trie的原理是利用字符串集合中字符串的公共前缀来降低时间开销以达到提高效率的目的。它具有以下性质:1,根结点不包含任何字符信息;2,如果字符的种数为n,则每个结点的出度为n(这样必然会导致浪费很多空间,这也是tr ...

2014-09-25 11:22
浏览 723
评论(0)
分类:非技术

从原始文档到KNN分类算法实现

博客分类：

文本分类

KNN分类算法

摘自：http://www.cnblogs.com/zhangchaoyang/articles/2162393.html

2014-09-10 11:40
浏览 479
评论(0)
分类:非技术

中文分词与停用词的作用

博客分类：

文本预处理

分词

摘自：http://blog.sina.com.cn/s/blog_56d8ea9001018i6y.html 首先什么是中文分词stop word？英文是以词为单位的，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思。例如，英文句子I am a student，用中文则为：“我是一个学生”。计算机可以很简单通过空格知道student是一个单词，但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词，就是中文分词，有些人也称为切词。我是一个学生，分词的结果是：我是一个学生。其次中文分词和搜索引擎关系与影响！ ...

2014-09-09 20:34
浏览 2144
评论(0)
分类:非技术

CSV转换成excel格式[转换]

博客分类：

格式转换

From:http://blog.163.com/mike_homis/blog/static/201049482011717105015210/ 步骤： 1.打开Excel程序，并新建一空白文档。 2.单击“数据”，获取外部数据中的“自文本”。找到并选中csv文件“源文件.csv”，单击“导入”。 CSV转换成EXCEL格式 3.弹出的窗口如下图所示： CSV转换成EXCEL格式第一步不需要修改，只要在上图的预览区中能正常显示原本*.csv文件中的文字就可以了，直接单击“下一步”。 4.这一步是选择在csv文档中起到原xls文档单元格分隔作用的分隔符号的，一般情况下就只有图中所列举的几 ...

2014-08-06 09:28
浏览 1189
评论(0)
分类:非技术

TF-IDF（转）输出到文本

博客分类：

特征提取

import java.io.*; import java.util.*; import org.wltea.analyzer.lucene.IKAnalyzer; public class ReadFiles { /** * @param args */ private static ArrayList<String> FileList = new ArrayList<String>(); // the list of file //get list of file for the directory, inc ...

2014-08-02 22:04
浏览 1388
评论(0)
分类:非技术

TF-IDF（转）

博客分类：

特征提取

From：http://www.cnblogs.com/ywl925/archive/2013/08/26/3275878.html TF-IDF 前言前段时间，又具体看了自己以前整理的TF-IDF，这里把它发布在博客上，知识就是需要不断的重复的，否则就感觉生疏了。 TF-IDF理解 TF-IDF（term frequency–inverse docume ...

2014-08-02 16:31
浏览 521
评论(0)
分类:非技术

java.lang.OutOfMemoryError: Java heap space解决方法(转)

博客分类：

计算机相关常识

From:http://www.cnblogs.com/linjiqin/archive/2011/04/27/2030115.html 引起java.lang.OutOfMemoryError: Java heap space异常，可能是由JAVA的堆栈设置太小的原因根据网上的答案大致有以下两种解决方法： 1、在D:/apache-tomcat-6.0.18/bin/catalina.bat最前面加入：set JAVA_OPTS=-Xms384m -Xmx384m 注意：只有startup.bat启动tomcat,设置才能生效，如果利用windows的系统服务启动tomcat服务,上 ...

2014-08-02 09:24
浏览 491
评论(0)
分类:非技术

分词去停用词词频统计

博客分类：

文本预处理

文本预处理

import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileReader; import java.io.FileWriter; import java.io.IOException; import java.io.InputStreamReader; import java.util.ArrayList; impo ...

2014-07-30 21:35
浏览 2998
评论(0)
分类:非技术

特征提取计算——TF-IDF

博客分类：

文本分类

From:http://blog.csdn.net/panguoyuan/article/details/29569385

2014-07-30 19:12
浏览 743
评论(0)
分类:非技术

文本分类步骤

博客分类：

文本分类

文本分类

From:http://palydawn.blog.163.com/blog/static/18296905620124171155256/ Keywords: 文本分类分词停用词文本特征特征向量布隆过滤器 ICTCLAS 1. 序言最近一直在做文本分类的实验，查阅了很多文章和资料后，大概清楚了文本分类的整体流� ...

2014-07-30 08:51
浏览 2066
评论(0)
分类:非技术

文本分类的数据预处理[转]

博客分类：

文本预处理

From:http://blog.csdn.net/luowen3405/article/details/6305651 在进行文本分类时，毫无疑问会涉及到对文本数据进行预处理，包括文档切分、文本分词、去停用词（包括标点、数字、单字和其它一些无意义的词）、文本特征提取、词频统计、文本向量化等操作。下面就这几方面作一个概括性的介绍，具体的实现还有待慢慢的研究。 1. 文档切分文档切分这个操作是可选的，取决于你获取到的文档集合的形式。如果你得到的文档集合本身就是一篇一篇文章分开的，那么这一步就可以省略了。反之，如果文档集合是一个单一的文件，所有的文章都存储在这个文件中，那么你就要将其中的文章提 ...

2014-07-29 10:02
浏览 4548
评论(0)
分类:非技术

分词去停用词操作

博客分类：

计算机相关常识

分词去停用词

import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.InputStreamReader; import java.io.OutputStreamWriter; import java.util.HashSet; import java.util.Set ...

2014-07-28 21:27
浏览 3658
评论(0)
分类:非技术

将多个txt合并为一个txt

博客分类：

txt合并

txt合并

import java.io.*; public class CombineTest { public static void main(String[] args){ FileInputStream fis = null; FileInputStream fs = null; int n=258; byte[] b1 = new byte[1]; byte[] b2 = new byte[1]; try { java.io.File file = new java.i ...

2014-07-28 10:26
浏览 1805
评论(0)
分类:非技术

如何转换成weka可识别的ARFF格式

博客分类：

weka

weka

摘自：http://blog.csdn.net/chl033/article/details/4837232 若采用的是英文文本语料库，利用WEKA将英文文本数据转换到ARFF格式中，需要用到以下两个工具：TextDirectoryToArff和TextDirectoryLoader。 TextDirectoryToArff是一个JAVA类（Class），它负责将一� ...

2014-06-28 18:58
浏览 910
评论(0)
分类:非技术

[转] 有关weka数据格式

博客分类：

weka

weka

摘自：http://www.cnblogs.com/xiaoka/archive/2012/03/22/2412421.html Weka简介（http://www.china-pub.com/computers/common/info.asp?id=29304） WEKA的全名是怀卡托智能分析环境(Walkato Environment for Knowledge Analysis)，WEKA的开发者来自新西兰，而新西兰有一种鸟名字叫做weka，便是weka图标上的那只。 WEKA是一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括预处 ...

2014-06-28 11:35
浏览 2216
评论(0)
分类:非技术

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

trie tree 字典树

从原始文档到KNN分类算法实现

中文分词与停用词的作用

CSV转换成excel格式[转换]

TF-IDF（转）输出到文本

TF-IDF（转）

java.lang.OutOfMemoryError: Java heap space解决方法(转)

分词去停用词词频统计

特征提取计算——TF-IDF

文本分类步骤

文本分类的数据预处理[转]

分词去停用词操作

将多个txt合并为一个txt

如何转换成weka可识别的ARFF格式

[转] 有关weka数据格式

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>