昨天终于把抽取网页信息的和与数据库连接的两部分代码写完并测试了,基本上还是可以运行滴,只是还是有些小bug,这都是源于编程时想的不够仔细。在这过程中碰到了几个困难:
1。网页的源代码采用的字符编码问题。因为网页的源代码里是夹杂着中文字符的,所以我先以字节流的形式将整个源代码文件的内容读入一个字节数组里(byte[]),然后通过String类的构造函数String(byte[], String charset)构造一个新的字 ...
我正在做一个数据挖掘的项目,第一步要把某个网站上的网页的代码下载下来,下面是我写的获取网页代码的程序的源代码:
/**
* Download the file specified by an URL.
*/
package fetchInformation;
import java.io.*;
import java.net.*;
/**
* @author caojinghua
*
*/
public class DownloadFiles {
public static void LoadFiles(String spec, File save)
...
Time flies.
In my plan, the date of my journey to hometown is 2007.2.10, so I still have about 20 days to finish the work I am doing. Oh, God, I prey I can do it.
Things include:
1.Data mining. I have to write a program ...
- 浏览: 3120 次
- 性别:

- 来自: Sun Yet-sen Universi

- 详细资料
搜索本博客
最近加入圈子
最新评论
-
关于如何获取网页代码的问 ...
我按照楼主的blog里写的修改了代码: URLConnection url ...
-- by butterfly -
关于如何获取网页代码的问 ...
你可能需要设置请求的user-agent参数.请看我的bloghttp://de ...
-- by dengyin2000






评论排行榜