協氏定律
外表
協氏定律(英文:Heaps' law,又計做英文:Herdan's law),係語言學上一條靠實證得出嘅定律。根據協氏定律,以下呢條式實會成立[1]:
- ,當中
- 指一份 隻詞咁長嘅文件入面有幾多隻唔同款嘅詞-am am 係兩隻同款嘅詞,I am 係兩隻唔同款嘅詞,
- 同 係某啲參數,數值視乎語言而定。喺英文入面, 數值通常會係 10 至 100,而 數值係 0.4 至 0.6。
將協氏定律條式畫做圖嘅話,會出好似噉嘅線。

基礎
[編輯]用日常用語講嘅話,協氏定律講嘅嘢如下:
「 | 一份文件嘅長度愈長,愈難搵到新鮮嘅詞。
|
」 |
協氏定律係靠實證得出嘅,意思即係話語言學家都唔係好肯定點解呢條定律成立,但總之實際睇數據嗰陣就係睇到噉嘅規律。
睇埋
[編輯]文獻
[編輯]
- Egghe, L. (2007), "Untangling Herdan's law and Heaps' law: Mathematical and informetric arguments", Journal of the American Society for Information Science and Technology, 58 (5): 702-709.
引咗
[編輯]- ↑ Heaps, Harold Stanley (1978), Information Retrieval: Computational and Theoretical Aspects, Academic Press. Heaps' law is proposed in Section 7.5 (pp. 206-208).