文本统计单词

文学研究人员需要统计某篇英文文章中某些单词出现的次数和位置,编写一个实现这一目标的文字统计程序。假设需要统计的单词集合称为特定单词集。英文文章是由回车符(‘\n’)隔开的一行一行的文本字符串组成,位置用单词所在行的行号来表示。则程序的功能是统计特定单词集中每个单词在指定文件中出现的次数和出现的行号。

 文本串非空且以文件形式存放,统计匹配的词集非空。文件名和词集均由用户从键盘输入; 

  •  “单词”定义:由字母构成的字符序列,中间不含空格字符且区分大小写; 
  • 待统计的“单词”在文本串中不跨行出现,它或者从行首开始,或者前置若干空格字符; 
  • 在计算机终端输出的结果是:单词,出现的次数,出现的位置所在行的行号,同一行出现两次的只输出一个行号; 
  1. #include <stdio.h>   
  2. #include <string.h>   
  3. #define MAX_WORD 30   
  4. #define MAX_LOCATION 1000   
  5. #define MAX_ROW_LEN 9999    
  6. #define MAX_TarStr 100   
  7. typedef struct rc {   
  8.     int row;   
  9.     int column;   
  10. }Rc;   
  11. typedef struct tarStr {   
  12.     char word[MAX_WORD];   
  13.     Rc position[MAX_LOCATION];   
  14.     int pospos;   
  15.     int count;   
  16. }TarStr;   
  17. TarStr tar[MAX_TarStr];   
  18. char Tempfgets[MAX_ROW_LEN];   
  19. void FindStr(char* a, TarStr* tar, int ctar, int row) {   
  20.     char temp[MAX_ROW_LEN] = { 0 };   
  21.     int n, i, j;   
  22.     int word = 0;   
  23.     n = strlen(a);   
  24.     for (i = 0; i < n; i++)   
  25.     {   
  26.         if (a[i] == ' ' || a[i] == ',' || a[i] == '.')   
  27.         {   
  28.             if (word != 0) {   
  29.                 temp[word] = '\0';   
  30.                 for (j = 0; j < ctar; j++)   
  31.                     if (strcmp(tar[j].word, temp) == 0) {   
  32.                         tar[j].count++;   
  33.                         tar[j].position[++tar[j].pospos].row = row;   
  34.                         tar[j].position[tar[j].pospos].column = i - word;   
  35.                     }   
  36.                 word = 0;   
  37.             }   
  38.         }   
  39.         else  
  40.             temp[word++] = a[i];   
  41.     }   
  42.     if (word != 0) {   
  43.         temp[word] = '\0';   
  44.         for (j = 0; j < ctar; j++)   
  45.             if (strcmp(tar[j].word, temp) == 0) {   
  46.                 tar[j].count++;   
  47.                 tar[j].position[++tar[j].pospos].row = row;   
  48.                 tar[j].position[tar[j].pospos].column = i - word;   
  49.             }   
  50.         word = 0;   
  51.     }   
  52. }   
  53. int main()   
  54. {   
  55.     memset(Tempfgets, 0, MAX_ROW_LEN);   
  56.     memset(tar, -1, sizeof(tar));   
  57.     char txtPath[260];   
  58.     int sumtat,currow,i,j;   
  59.     int fgetrow = 0;   
  60.     printf("请输入文件路径:");   
  61.     scanf("%s", txtPath);   
  62.     printf("请输入单词总数(<%d):", MAX_TarStr);   
  63.     scanf("%d", &sumtat);   
  64.     printf("依次输入查询单词:\n");   
  65.     for (int i = 0; i < sumtat; i++)   
  66.         scanf("%s", tar[i].word);   
  67.     FILE* fp = fopen(txtPath, "r");   
  68.     if (fp == NULL)   
  69.         return 0;   
  70.     while (fgets(Tempfgets, MAX_ROW_LEN, fp) != NULL)   
  71.         FindStr(Tempfgets, tar, sumtat, ++fgetrow);   
  72.     fclose(fp);   
  73.     for (i = 0; i < sumtat; i++) {   
  74.         currow = -1;   
  75.         if (tar[i].count + 1 != 0)   
  76.             printf("%s共出现%d次,其中: ", tar[i].word, tar[i].count + 1);   
  77.         else {   
  78.             printf("%s共出现0次\n", tar[i].word);   
  79.             continue;   
  80.         }   
  81.         for (j = 0; j < tar[i].pospos + 1; j++) {   
  82.             if (currow != tar[i].position[j].row) {   
  83.                 if (j > 0)   
  84.                     printf("\b列处出现该字符串");   
  85.                 currow = tar[i].position[j].row;   
  86.                 printf("\n\t第%d行中第", currow);   
  87.             }   
  88.             printf("%d,", tar[i].position[j].column + 1);   
  89.         }   
  90.         printf("\b列处出现该字符串\n");   
  91.     }   
  92.     return 0;   
  93. }  
 如未特殊声明,文章均为原创。
 本文标题:文本统计单词
 本文链接:https://manwish.cn/article/textstatisticsword.html

留下评论