今天看了IBM公司开发的两个开源工具包,名称分别是UIMA和IODT。         UIMA是Unstructured Information Management Architecture,我译作“非结构化信息的管理架构”。可以在这里找到它的相关介绍和下载:http: //www.alphaworks.ibm.com/tech/uima。从它的名字上我们可以对它的功能猜出个一二来了,即通过对文本、视频、音频、图 片等非结构化的信息内容进行分析,从而发现、组织和传送有用的知识给客户。在分析非 ...
        昨天终于把抽取网页信息的和与数据库连接的两部分代码写完并测试了,基本上还是可以运行滴,只是还是有些小bug,这都是源于编程时想的不够仔细。在这过程中碰到了几个困难:         1。网页的源代码采用的字符编码问题。因为网页的源代码里是夹杂着中文字符的,所以我先以字节流的形式将整个源代码文件的内容读入一个字节数组里(byte[]),然后通过String类的构造函数String(byte[], String charset)构造一个新的字 ...
我正在做一个数据挖掘的项目,第一步要把某个网站上的网页的代码下载下来,下面是我写的获取网页代码的程序的源代码: /** * Download the file specified by an URL. */ package fetchInformation; import java.io.*; import java.net.*; /** * @author caojinghua * */ public class DownloadFiles { public static void LoadFiles(String spec, File save) ...
    Time flies.     In my plan, the date of my journey to hometown is 2007.2.10, so I still have about 20 days to finish the work I am doing. Oh, God, I prey I can do it.     Things include:     1.Data mining. I have to write a program ...
butterfly
  • 浏览: 3072 次
  • 性别: Icon_minigender_1
  • 来自: Sun Yet-sen Universi
  • 详细资料
搜索本博客
最近加入圈子
最新评论
评论排行榜