c语言获取网页源码

发布时间: 2023-02-25 01:46:45

⑴ c语言构造http报文,实现输入一个网址,然后下载网页源码. 比如说输入www.baidu.com,最好是在linux环境下的.

就是发http请求，看看http协议，或者直接抓包看

⑵ c语言提取html中的信息

1. 如果你懂编程序：
使用字符串匹配算法，例如KMP算法，AC算法等。
AC算法比较好，网络上可能有现成的，弄一个源代码，再修改下就可以。

2. 如果你不懂编程：
用word，ultraedit等编辑工具，直接搜索你要的字符串就可以了吧。

⑶ 怎么通过C语言读取网页里面的数据

简单的请求格式

GET /index.php HTTP/1.0
host:www.zixue7.com

当我们和服务器连接上之后，发送上面的数据过去，服务器就会返回 index.php 这个页面给我们。

GET 这个是表示以什么方式请求，HTTP中还有很多其他的请求方式，常用的就 GET POST （更详细的可以点开上面 http协议那个链接）

GET 后面紧跟一个空格然后给出，要获取的资源的名称， /index.php 就表示获取网站服务器根目录下 index.php 执行后所产生的内容，我们也可以改成 GET / HTTP/1.0 这就表示获取默认首页的内容。 GET /1.html HTTP/1.0 就是获取服务器根目录下 1.html的内容，很容易理解吧。

接下来隔一个空格跟上 HTTP/1.0 表示 http协议的版本，这个是固定的。

第二行 host:www.zixue7.com 用来指定访问哪个主机。大家都知道，一个服务器可以放很多个网站，每个网站有不同的域名，所以我们需要用这个host来指定我们要访问的是哪个网站，这样才能正确得访问到我们想访问的网站。

第一步，连接服务器。
第二步，按照http协议，发送请求数据，然后就是接受返回的内容。

没错，就这么简单。

在编写程序之前，我们先用一个小工具来模拟一下这个过程，好让我们对http协议了解更深入一些。

telnet工具如果是 win7下的朋友猛戳这里-->win7开启telnet功能

到此为止，我假设大家电脑上已经开启了 telnet功能，正题开始。

telnet 他是一个基于tcp/ip 协议的程序，为我们用户提供一个与其他电脑通信的工具，我们可以使用他来和其他电脑进行连接通信。

开始->运行->输入telnet回车, 出现一个黑框如下。

我们这时就可以输入命令，来连接远程主机，比如我们这次是要连接我们自学去论坛的服务器，
那么我们就输入 open www.zixue7.com 80 然后回车。

open 是打开的意思后面跟上要打开那个主机然后后面跟上端口， web服务器默认使用的是80端口，所以要加上80端口（不加端口 telnet默认是23端口）。

然后会出现下图的情况，这时候我们就可以输入命令了，输入的命令都将被发送到自学去论坛的服务器上面。大家注意一下下图红色箭头所指出的部分，那里就是一个输入光标，不用管其他的字。

这就代表我们已经和远程主机连接上了，就相当于我们上节课中客户端执行到 connect 函数之后就是要调用 send函数发送数据了，在这里我们只需要按键盘输入到黑色窗口中就会发送到服务端。

我们依次输入以下内容，（注意，不能按退格，输入错误了，就重新打开telnet，重新操作。）

⑷ c语言怎么获取网页源码。

C语言根本不是干这个事情的，有那么多语言、框架和工具可以方便的做这个事情。
C最重要的作用是做底层接近硬件的开发，而不是应用层的开发。

⑸ http协议解析请求行的信息怎么提取 c语言源码

实现步骤：
1）用Wireshark软件抓包得到test.pcap文件
2）程序：分析pcap文件头 -> 分析pcap_pkt头 -> 分析帧头 -> 分析ip头 -> 分析tcp头 -> 分析http信息
#include<stdio.h>
#include<string.h>
#include<stdlib.h>
#include<netinet/in.h>
#include<time.h>
#define BUFSIZE 10240
#define STRSIZE 1024
typedef long bpf_int32;
typedef unsigned long bpf_u_int32;
typedef unsigned short u_short;
typedef unsigned long u_int32;
typedef unsigned short u_int16;
typedef unsigned char u_int8;
//pacp文件头结构体
struct pcap_file_header
{
bpf_u_int32 magic; /* 0xa1b2c3d4 */
u_short version_major; /* magjor Version 2 */
u_short version_minor; /* magjor Version 4 */
bpf_int32 thiszone; /* gmt to local correction */
bpf_u_int32 sigfigs; /* accuracy of timestamps */
bpf_u_int32 snaplen; /* max length saved portion of each pkt */
bpf_u_int32 linktype; /* data link type (LINKTYPE_*) */
};
//时间戳
struct time_val
{
long tv_sec; /* seconds 含义同 time_t 对象的值 */
long tv_usec; /* and microseconds */
};
//pcap数据包头结构体
struct pcap_pkthdr
{
struct time_val ts; /* time stamp */
bpf_u_int32 caplen; /* length of portion present */
bpf_u_int32 len; /* length this packet (off wire) */
};
//数据帧头
typedef struct FramHeader_t
{ //Pcap捕获的数据帧头
u_int8 DstMAC[6]; //目的MAC地址
u_int8 SrcMAC[6]; //源MAC地址
u_short FrameType; //帧类型
} FramHeader_t;
//IP数据报头
typedef struct IPHeader_t
{ //IP数据报头
u_int8 Ver_HLen; //版本+报头长度
u_int8 TOS; //服务类型
u_int16 TotalLen; //总长度
u_int16 ID; //标识
u_int16 Flag_Segment; //标志+片偏移
u_int8 TTL; //生存周期
u_int8 Protocol; //协议类型
u_int16 Checksum; //头部校验和
u_int32 SrcIP; //源IP地址
u_int32 DstIP; //目的IP地址
} IPHeader_t;
//TCP数据报头
typedef struct TCPHeader_t
{ //TCP数据报头
u_int16 SrcPort; //源端口
u_int16 DstPort; //目的端口
u_int32 SeqNO; //序号
u_int32 AckNO; //确认号
u_int8 HeaderLen; //数据报头的长度(4 bit) + 保留(4 bit)
u_int8 Flags; //标识TCP不同的控制消息
u_int16 Window; //窗口大小
u_int16 Checksum; //校验和
u_int16 UrgentPointer; //紧急指针
}TCPHeader_t;
//
void match_http(FILE *fp, char *head_str, char *tail_str, char *buf, int total_len); //查找 http 信息函数
//
int main()
{
struct pcap_file_header *file_header;
struct pcap_pkthdr *ptk_header;
IPHeader_t *ip_header;
TCPHeader_t *tcp_header;
FILE *fp, *output;
int pkt_offset, i=0;
int ip_len, http_len, ip_proto;
int src_port, dst_port, tcp_flags;
char buf[BUFSIZE], my_time[STRSIZE];
char src_ip[STRSIZE], dst_ip[STRSIZE];
char host[STRSIZE], uri[BUFSIZE];
//初始化
file_header = (struct pcap_file_header *)malloc(sizeof(struct pcap_file_header));
ptk_header = (struct pcap_pkthdr *)malloc(sizeof(struct pcap_pkthdr));
ip_header = (IPHeader_t *)malloc(sizeof(IPHeader_t));
tcp_header = (TCPHeader_t *)malloc(sizeof(TCPHeader_t));
memset(buf, 0, sizeof(buf));
//
if((fp = fopen(“test.pcap”,”r”)) == NULL)
{
printf(“error: can not open pcap file\n”);
exit(0);
}
if((output = fopen(“output.txt”,”w+”)) == NULL)
{
printf(“error: can not open output file\n”);
exit(0);
}
//开始读数据包
pkt_offset = 24; //pcap文件头结构 24个字节
while(fseek(fp, pkt_offset, SEEK_SET) == 0) //遍历数据包
{
i++;
//pcap_pkt_header 16 byte
if(fread(ptk_header, 16, 1, fp) != 1) //读pcap数据包头结构
{
printf(“\nread end of pcap file\n”);
break;
}
pkt_offset += 16 + ptk_header->caplen; //下一个数据包的偏移值
strftime(my_time, sizeof(my_time), “%Y-%m-%d %T”, localtime(&(ptk_header->ts.tv_sec))); //获取时间
// printf(“%d: %s\n”, i, my_time);
//数据帧头 14字节
fseek(fp, 14, SEEK_CUR); //忽略数据帧头
//IP数据报头 20字节
if(fread(ip_header, sizeof(IPHeader_t), 1, fp) != 1)
{
printf(“%d: can not read ip_header\n”, i);
break;
}
inet_ntop(AF_INET, (void *)&(ip_header->SrcIP), src_ip, 16);
inet_ntop(AF_INET, (void *)&(ip_header->DstIP), dst_ip, 16);
ip_proto = ip_header->Protocol;
ip_len = ip_header->TotalLen; //IP数据报总长度
// printf(“%d: src=%s\n”, i, src_ip);
if(ip_proto != 0×06) //判断是否是 TCP 协议
{
continue;
}
//TCP头 20字节
if(fread(tcp_header, sizeof(TCPHeader_t), 1, fp) != 1)
{
printf(“%d: can not read ip_header\n”, i);
break;
}
src_port = ntohs(tcp_header->SrcPort);
dst_port = ntohs(tcp_header->DstPort);
tcp_flags = tcp_header->Flags;
// printf(“%d: src=%x\n”, i, tcp_flags);
if(tcp_flags == 0×18) // (PSH, ACK) 3路握手成功后
{
if(dst_port == 80) // HTTP GET请求
{
http_len = ip_len – 40; //http 报文长度
match_http(fp, “Host: “, “\r\n”, host, http_len); //查找 host 值
match_http(fp, “GET “, “HTTP”, uri, http_len); //查找 uri 值
sprintf(buf, “%d: %s src=%s:%d dst=%s:%d %s%s\r\n”, i, my_time, src_ip, src_port, dst_ip, dst_port, host, uri);
//printf(“%s”, buf);
if(fwrite(buf, strlen(buf), 1, output) != 1)
{
printf(“output file can not write”);
break;
}
}
}
} // end while
fclose(fp);
fclose(output);
return 0;
}
//查找 HTTP 信息
void match_http(FILE *fp, char *head_str, char *tail_str, char *buf, int total_len)
{
int i;
int http_offset;
int head_len, tail_len, val_len;
char head_tmp[STRSIZE], tail_tmp[STRSIZE];
//初始化
memset(head_tmp, 0, sizeof(head_tmp));
memset(tail_tmp, 0, sizeof(tail_tmp));
head_len = strlen(head_str);
tail_len = strlen(tail_str);
//查找 head_str
http_offset = ftell(fp); //记录下HTTP报文初始文件偏移
while((head_tmp[0] = fgetc(fp)) != EOF) //逐个字节遍历
{
if((ftell(fp) – http_offset) > total_len) //遍历完成
{
sprintf(buf, “can not find %s \r\n”, head_str);
exit(0);
}
if(head_tmp[0] == *head_str) //匹配到第一个字符
{
for(i=1; i<head_len; i++) //匹配 head_str 的其他字符
{
head_tmp[i]=fgetc(fp);
if(head_tmp[i] != *(head_str+i))
break;
}
if(i == head_len) //匹配 head_str 成功，停止遍历
break;
}
}
// printf(“head_tmp=%s \n”, head_tmp);
//查找 tail_str
val_len = 0;
while((tail_tmp[0] = fgetc(fp)) != EOF) //遍历
{
if((ftell(fp) – http_offset) > total_len) //遍历完成
{
sprintf(buf, “can not find %s \r\n”, tail_str);
exit(0);
}
buf[val_len++] = tail_tmp[0]; //用buf 存储 value 直到查找到 tail_str
if(tail_tmp[0] == *tail_str) //匹配到第一个字符
{
for(i=1; i<tail_len; i++) //匹配 head_str 的其他字符
{
tail_tmp[i]=fgetc(fp);
if(tail_tmp[i] != *(tail_str+i))
break;
}
if(i == tail_len) //匹配 head_str 成功，停止遍历
{
buf[val_len-1] = 0; //清除多余的一个字符
break;
}
}
}
// printf(“val=%s\n”, buf);
fseek(fp, http_offset, SEEK_SET); //将文件指针回到初始偏移
}

⑹ c语言获取网页源码

这个不是c语言的问题，网页很明确的告诉这个文档已经搬到t.sina.com.cn。这是一个跳转网页，你手动复制weibo.sina.com到浏览器，你看会跳转到weibo.com/guide/welcome，c不会像浏览器那样跳转后再获取吧，除非你改下程序，但是可能要涉及到http协议了，学术浅薄，就不多讲，祝你好运！

⑺ php获取网页源码内容有哪些办法

可以参考以下几种方法：

方法一： file_get_contents获取

$url="http://www..com/";

$fh= file_get_contents

('http://www.hxfzzx.com/news/fzfj/');echo $fh;

拓展资料

PHP（外文名:PHP: Hypertext Preprocessor，中文名：“超文本预处理器”）是一种通用开源脚本语言。语法吸收了C语言、Java和Perl的特点，利于学习，使用广泛，主要适用于Web开发领域。PHP 独特的语法混合了C、Java、Perl以及PHP自创的语法。它可以比CGI或者Perl更快速地执行动态网页。

用PHP做出的动态页面与其他的编程语言相比，PHP是将程序嵌入到HTML（标准通用标记语言下的一个应用）文档中去执行，执行效率比完全生成HTML标记的CGI要高许多；PHP还可以执行编译后代码，编译可以达到加密和优化代码运行，使代码运行更快。

⑻ c语言如何使用libcurl访问一个网页，得到源码后返回给一个字符串变量

#include<stdio.h>
#include<stdlib.h>
#include<string.h>
#include<curl/curl.h>

structstring{
char*ptr;
size_tlen;
};

voidinit_string(structstring*s){
s->len=0;
s->ptr=malloc(s->len+1);
if(s->ptr==NULL){
fprintf(stderr,"malloc()failed
");
exit(EXIT_FAILURE);
}
s->ptr[0]='';
}

size_twritefunc(void*ptr,size_tsize,size_tnmemb,structstring*s)
{
size_tnew_len=s->len+size*nmemb;
s->ptr=realloc(s->ptr,new_len+1);
if(s->ptr==NULL){
fprintf(stderr,"realloc()failed
");
exit(EXIT_FAILURE);
}
memcpy(s->ptr+s->len,ptr,size*nmemb);
s->ptr[new_len]='';
s->len=new_len;

returnsize*nmemb;
}

intmain(void)
{
CURL*curl;
CURLcoderes;

curl=curl_easy_init();
if(curl){
structstrings;
init_string(&s);

curl_easy_setopt(curl,CURLOPT_URL,"curl.haxx.se");
curl_easy_setopt(curl,CURLOPT_WRITEFUNCTION,writefunc);
curl_easy_setopt(curl,CURLOPT_WRITEDATA,&s);
res=curl_easy_perform(curl);

printf("%s
",s.ptr);
free(s.ptr);

/*alwayscleanup*/
curl_easy_cleanup(curl);
}
return0;
}

⑼ c语言获取网页源码

其实程序是获取到了，只是对应网站是动态程序 301 是动态跳转，小弟你应该了解下HTML语言，或HTTP协议，程序是没有问题

⑽ C语言/C++，用recv获取网页源代码，中文为什么是乱码代码如下：

这种问题通常是你的代码在处理字符串是弄错了。。。
接收过来的内容应该没问题吧。。。。
只是显示的时候弄错了吧。。
仔细检查一下，中文字符占2个字节，指针头别弄错了，最后加上'\0'别加错位置。。。
如果英文字符都不可以正确显示的话，那可能是粘包。
还有是不是编码问题。

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：871

制作脚本网站发布：2025-10-20 08:17:34 浏览：1129

python中的init方法发布：2025-10-20 08:17:33 浏览：846

图案密码什么意思发布：2025-10-20 08:16:56 浏览：1003

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：891

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1242

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：461

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：346

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：1019

python股票数据获取发布：2025-10-20 07:39:44 浏览：1001

c语言获取网页源码

与c语言获取网页源码相关的资讯