c语言读取网页内容

发布时间: 2024-07-15 01:48:27

㈠如何利用c语言分析网页

首先，你这个想法还是很不错的，我以前也想这么做过。不过，学习html语言在这里肯定是次要的，主要的还是要学会分析的方法，而不是掌握被分析的内容，你说是吧？

如果要用程序抓取网页自动保存到本地，就要会用socket编程，或者学习使用libcurl库，这些都比学html语言有用的多，不做网页抓取的时候，这些知识依然非常有用。而且，不同的网页，内容不同，规律可能也不同。比如你给的那个例子网址，我右键查看了源代码，里面就根本没有所谓的<td>、<tr>标签，即它的表格不是通过这些标签来实现的。所以，让你去看这些标签，就是南辕北辙了。

网页分析，说到底还是字符串处理和分析。所以，你如果真的想学，不如好好学一下正则表达式和字符串处理相关的函数，以及函数库，比如tidy库等。正则表达式是用来匹配一类字符串的，方便找规律，也方便处理，你稍微学习一点点就知道有多么的强大，多么的有用了。而且，正则表达式跟语言无关，什么语言都能用得到，学这个不亏的。

标准C库中没有正则表达式相关的函数，一般来说C中使用两种正则表达式库，一为POSIX C正则库，二为perl正则库PCRE。相比较而言PCRE要强大些，POSIX C正则库就足够使用。

下面，这几个链接里面有网页分析的一些例子，虽然不都是C语言来处理的。但是，思路都是一致的。所以，说到底，还是正则表达式、正则函数库、字符串处理函数这些才是根本。先说这些，希望对你有所帮助。如果你在学习过程中还有什么问题，欢迎随时交流:)

C#的: http://www.jb51.net/article/16618.htm
C#的: http://mytiu.blog.163.com/blog/static/1059718452009127112226478/

这里还有一段C语言的代码, 是将下载下来的网页源代码处理成没有标签的纯文字文本
#include <tidy.h>
#include <buffio.h>
#include <stdio.h>
#include <errno.h>
int main(int argc, char **argv )
{
const char* input = "<title>Foo</title><p>Foo!";
TidyBuffer output = {0};
TidyBuffer errbuf = {0};
int rc = -1;
Bool ok;

TidyDoc tdoc = tidyCreate(); // Initialize "document"
printf( "Tidying:\t%s\n", input );

ok = tidyOptSetBool( tdoc, TidyXhtmlOut, yes ); // Convert to XHTML
if ( ok )
rc = tidySetErrorBuffer( tdoc, &errbuf ); // Capture diagnostics
if ( rc >= 0 )
rc = tidyParseString( tdoc, input ); // Parse the input
if ( rc >= 0 )
rc = tidyCleanAndRepair( tdoc ); // Tidy it up!
if ( rc >= 0 )
rc = tidyRunDiagnostics( tdoc ); // Kvetch
if ( rc > 1 ) // If error, force output.
rc = ( tidyOptSetBool(tdoc, TidyForceOutput, yes) ? rc : -1 );
if ( rc >= 0 )
rc = tidySaveBuffer( tdoc, &output ); // Pretty Print

if ( rc >= 0 )
{
if ( rc > 0 )
printf( "\nDiagnostics:\n\n%s", errbuf.bp );
printf( "\nAnd here is the result:\n\n%s", output.bp );
}
else
printf( "A severe error (%d) occurred.\n", rc );

tidyBufFree( &output );
tidyBufFree( &errbuf );
tidyRelease( tdoc );
return rc;
}

㈡ linux中怎么用C语言打开网页

给你一个哈，我自己调试好的，并且加了详细注释~~记得给分啊，我没分问问题了~

#include <stdlib.h>
#include <stdio.h>
#include <unistd.h>
#include <fcntl.h>
#include <sys/types.h>
#include <sys/socket.h>
#include <netinet/in.h>
#include <errno.h>
#include <time.h>
#include <sys/types.h>
#include <sys/ioctl.h>
#include <string.h>
#include <stdarg.h>
#include <netdb.h>
#include <setjmp.h>
#include <signal.h>

/*gethostbyname 超时返回
这里使用的办法是设置一个时钟，如果gethostbyname在指定的时间内尚未返回，
时钟会强制其返回，得到的返回值显然是空指针，等价于告诉用户主机未连如互联网或者该域名无法解析。*/
static sigjmp_buf jmpbuf;
static void alarm_func() //该函数执行之后会执行跳转
{
siglongjmp(jmpbuf, 1);
}

static struct hostent *gngethostbyname(char *HostName, int timeout)
{
struct hostent *lpHostEnt;

signal(SIGALRM, alarm_func); //接受alarm信号，然后调用函数
if(sigsetjmp(jmpbuf, 1) != 0)//跳转目的地
{
alarm(0);//timout
signal(SIGALRM, SIG_IGN);
return NULL;
}
alarm(timeout);//setting alarm
printf("\nwill gethost!\n");
lpHostEnt = gethostbyname(HostName);
signal(SIGALRM, SIG_IGN);

return lpHostEnt;
}

/*(linux socket编程实现connect超时的一种方法
创建套接字，将其设置成非阻塞状态。
调用connect连接对端主机，如果失败，判断当时的errno是否为EINPROGRESS，也就是说是不是连接正在进行中，如果是，转到步骤3，如果不是，返回错误。
用select在指定的超时时间内监听套接字的写就绪事件，如果select有监听到，证明连接成功，否则连接失败。*/

int main(int argc, char *argv[])
{
//最好检查一下参数，要求传入3个参数 URL PORT TIMEOUT(connect && send && recv 3个参数的超时)
int fd, retval,res,error;
struct sockaddr_in addr;
struct timeval timeo = {15, 0}; //time ou struct
struct hostent *site;
socklen_t len = sizeof(timeo);
fd_set set;
fd = socket(AF_INET, SOCK_STREAM, 0);
if (argc == 4)
timeo.tv_sec = atoi(argv[3]);
site=gngethostbyname(argv[1],3); //解析域名的超时设置,测试域名超时，可以写一个可以ping的通但是没有办法解析域名
//的IP地址到resolv.conf里面，然后加上一个默认路由，直接PING一个网络，就能发现如果不加超时机制就会一直卡在那里
if(NULL == site)
{
printf("\ncan not find the site!\n");
return -2;
}
fcntl(fd, F_SETFL, fcntl(fd, F_GETFL) | O_NONBLOCK); //设置为非阻塞模式
addr.sin_family = AF_INET;
//addr.sin_addr.s_addr = inet_addr(argv[1]);
memcpy(&addr.sin_addr, site->h_addr_list[0], site->h_length);
addr.sin_port = htons(atoi(argv[2]));
printf("%d\n", time(NULL));
/*if (connect(fd, (struct sockaddr*)&addr, sizeof(addr)) == 0) {
printf("connected1\n");
// return 0;
}*/
//res=connect(fd, (struct sockaddr*)&addr, sizeof(addr));
//printf("\nconnect result:[%d]\n",res);
if (connect(fd, (struct sockaddr*)&addr, sizeof(addr)) != 0)
{
//调用一次系统函数失败后直接看errno,确定是什么问题，下面的代码可以实现在没有默认路由的情况下直接返回失败.
if (errno != EINPROGRESS) {
printf("connect:normal network unreach!!");
return -1;
}
printf("\nwill select\n");
FD_ZERO(&set);/*将set清零使集合中不含任何fd*/
FD_SET(fd,&set); /*将一个给定的文件描述符加入集合之中*/
retval = select(fd + 1, NULL, &set, NULL, &timeo);
if (retval == -1) {
printf("select");
return -1;
} else if(retval == 0) {
printf("timeout\n"); //这样的select等于是变成了再timeout时间内是阻塞模式，超过timeout就直接返回
printf("%d\n", time(NULL));
return 0;
}
else
{
printf("connected--->:[%d]\n",retval);
getsockopt(fd, SOL_SOCKET, SO_ERROR, &error, (socklen_t *)&len); //判断在connected成功之后，获取套接口目前的一些信息来判断是否真的是连接上了，返回0表示真的连上了
printf("error--->:[%d]\n",error);

if(0!=error)
return -1;
}
}

int ul = 0;
ioctl(fd, FIONBIO, &ul); //设置为阻塞模式
//return 0;
setsockopt(fd,SOL_SOCKET,SO_SNDTIMEO,(char *)&timeo,sizeof(timeo));
setsockopt(fd,SOL_SOCKET,SO_RCVTIMEO,(char *)&timeo,sizeof(timeo));
printf("\nbefore\n");
sleep(5); //在sleep 5的时候，拔掉网线就可以测试出recv超时的功能，如果不加recv 的超时功能，拔掉网线后就会一直卡在那里，当然你在实际应用的时候没必要加这个
printf("\nafter\n");
char *msg="GET / HTTP/1.0\r\n\r\n";
if( send(fd, msg, strlen(msg), 0)<0 )
{
printf("error in send msg\n");
exit(1);
}
int i=0;
char buf[1000];

while((recv(fd,buf,1000,MSG_WAITALL))>0)
{
printf("[%d]:[%s]",i,buf);
i++;
}
printf("\n------end---------\n");
close(fd);
return;
}

㈢ C语言打开一个网页，用指定浏览器

ShellExecute 第三个参数指定浏览器的执行文件全名；第四个参数指定网址。例如用IE打开www..com:

ShellExecute(0, "open", "C:\\Program Files\\Internet Explorer\\iexplore.exe", "http://www..com", NULL, SW_SHOW);

一般浏览器都支持网址参数。如果某浏览器显示默认主页，说明该浏览器不支持网址参数。

㈣ c语言如何使用libcurl访问一个网页，得到源码后返回给一个字符串变量

#include<stdio.h>
#include<stdlib.h>
#include<string.h>
#include<curl/curl.h>

structstring{
char*ptr;
size_tlen;
};

voidinit_string(structstring*s){
s->len=0;
s->ptr=malloc(s->len+1);
if(s->ptr==NULL){
fprintf(stderr,"malloc()failed
");
exit(EXIT_FAILURE);
}
s->ptr[0]='';
}

size_twritefunc(void*ptr,size_tsize,size_tnmemb,structstring*s)
{
size_tnew_len=s->len+size*nmemb;
s->ptr=realloc(s->ptr,new_len+1);
if(s->ptr==NULL){
fprintf(stderr,"realloc()failed
");
exit(EXIT_FAILURE);
}
memcpy(s->ptr+s->len,ptr,size*nmemb);
s->ptr[new_len]='';
s->len=new_len;

returnsize*nmemb;
}

intmain(void)
{
CURL*curl;
CURLcoderes;

curl=curl_easy_init();
if(curl){
structstrings;
init_string(&s);

curl_easy_setopt(curl,CURLOPT_URL,"curl.haxx.se");
curl_easy_setopt(curl,CURLOPT_WRITEFUNCTION,writefunc);
curl_easy_setopt(curl,CURLOPT_WRITEDATA,&s);
res=curl_easy_perform(curl);

printf("%s
",s.ptr);
free(s.ptr);

/*alwayscleanup*/
curl_easy_cleanup(curl);
}
return0;
}

㈤用C如何读取一个网页内容

首先，用C读取已知文件名的本机文件不是问题吧？那问题实质是在获取URL表示的文件，特别是获取远程WWW服务器以URL表示的文件，把它存放到本机。
有一个API函数叫 URLDownloadToFile(), 用起来特简单。只要一句：
URLDownloadToFile(NULL, url, filename, 0, NULL);
其中url是你需要的文件，filename是下载到本机后的本地文件名。例如：
URLDownloadToFile(NULL, "http://127.0.0.1/1.txt", "C:\\temp\\1.txt", 0, NULL);
下面处理C:\temp\1.txt就可以了。
这个函数在urlmon.h中有说明；需使用urlmon.lib. 有关参数意义请自己查。好像最后一个参数是指定回调函数，可以检查下载状态。但我从来没指定过。从远程站点一次下载很多文件时特别好用。我曾经用它循环起来，一次下载两千多个SWF文件。
但要注意：较大的文件不一定下载完全；有些站点可能检查链接源，限制下载。

㈥怎么通过C语言读取网页里面的数据

简单的请求格式

GET /index.php HTTP/1.0
host:www.zixue7.com

当我们和服务器连接上之后，发送上面的数据过去，服务器就会返回 index.php 这个页面给我们。

GET 这个是表示以什么方式请求，HTTP中还有很多其他的请求方式，常用的就 GET POST （更详细的可以点开上面 http协议那个链接）

GET 后面紧跟一个空格然后给出，要获取的资源的名称， /index.php 就表示获取网站服务器根目录下 index.php 执行后所产生的内容，我们也可以改成 GET / HTTP/1.0 这就表示获取默认首页的内容。 GET /1.html HTTP/1.0 就是获取服务器根目录下 1.html的内容，很容易理解吧。

接下来隔一个空格跟上 HTTP/1.0 表示 http协议的版本，这个是固定的。

第二行 host:www.zixue7.com 用来指定访问哪个主机。大家都知道，一个服务器可以放很多个网站，每个网站有不同的域名，所以我们需要用这个host来指定我们要访问的是哪个网站，这样才能正确得访问到我们想访问的网站。

第一步，连接服务器。
第二步，按照http协议，发送请求数据，然后就是接受返回的内容。

没错，就这么简单。

在编写程序之前，我们先用一个小工具来模拟一下这个过程，好让我们对http协议了解更深入一些。

telnet工具如果是 win7下的朋友猛戳这里-->win7开启telnet功能

到此为止，我假设大家电脑上已经开启了 telnet功能，正题开始。

telnet 他是一个基于tcp/ip 协议的程序，为我们用户提供一个与其他电脑通信的工具，我们可以使用他来和其他电脑进行连接通信。

开始->运行->输入telnet回车, 出现一个黑框如下。

我们这时就可以输入命令，来连接远程主机，比如我们这次是要连接我们自学去论坛的服务器，
那么我们就输入 open www.zixue7.com 80 然后回车。

open 是打开的意思后面跟上要打开那个主机然后后面跟上端口， web服务器默认使用的是80端口，所以要加上80端口（不加端口 telnet默认是23端口）。

然后会出现下图的情况，这时候我们就可以输入命令了，输入的命令都将被发送到自学去论坛的服务器上面。大家注意一下下图红色箭头所指出的部分，那里就是一个输入光标，不用管其他的字。

这就代表我们已经和远程主机连接上了，就相当于我们上节课中客户端执行到 connect 函数之后就是要调用 send函数发送数据了，在这里我们只需要按键盘输入到黑色窗口中就会发送到服务端。

我们依次输入以下内容，（注意，不能按退格，输入错误了，就重新打开telnet，重新操作。）

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：705

制作脚本网站发布：2025-10-20 08:17:34 浏览：968

python中的init方法发布：2025-10-20 08:17:33 浏览：676

图案密码什么意思发布：2025-10-20 08:16:56 浏览：828

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：737

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1076

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：308

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：188

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：875

python股票数据获取发布：2025-10-20 07:39:44 浏览：829

c语言读取网页内容

与c语言读取网页内容相关的资讯