跳去內容

協氏定律

出自維基百科,自由嘅百科全書

協氏定律英文Heaps' law,又計做英文Herdan's law),係語言學上一條靠實證得出嘅定律。根據協氏定律,以下呢條式實會成立[1]

,當中
  • 指一份 隻詞咁長嘅文件入面有幾多隻唔同款嘅詞-am am 係兩隻同款嘅詞,I am 係兩隻唔同款嘅詞,
  • 係某啲參數,數值視乎語言而定。喺英文入面, 數值通常會係 10 至 100,而 數值係 0.4 至 0.6。

將協氏定律條式畫做圖嘅話,會出好似噉嘅線。

基礎

[編輯]

用日常用語講嘅話,協氏定律講嘅嘢如下:

一份文件嘅長度愈長,愈難搵到新鮮嘅詞。

協氏定律係靠實證得出嘅,意思即係話語言學家都唔係好肯定點解呢條定律成立,但總之實際睇數據嗰陣就係睇到噉嘅規律。

睇埋

[編輯]

文獻

[編輯]

  • Egghe, L. (2007), "Untangling Herdan's law and Heaps' law: Mathematical and informetric arguments", Journal of the American Society for Information Science and Technology, 58 (5): 702-709.

引咗

[編輯]
  1. Heaps, Harold Stanley (1978), Information Retrieval: Computational and Theoretical Aspects, Academic Press. Heaps' law is proposed in Section 7.5 (pp. 206-208).